【統計分析】機械学習・データマイニング【集合知】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 02/02 00:00 / Filesize : 198 KB / Number-of Response : 850
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 23:00:10 ]: 何でもいいので語れ

【関連サイト】
機械学習の「朱鷺の杜Wiki」
ibisforest.org/index.php?FrontPage
710 名前：デフォルトの名無しさん mailto:sage [2011/10/25(火) 09:48:44.43 ]: オーバーフィットしてるだけに見えるぞ
クロスバリデーションしてみろ
711 名前：709 mailto:sage [2011/10/25(火) 22:34:49.48 ]: >>710
有難うございます。"e1071"パッケージの「svm」の関数にて、
学習する際にクロスバリューデーションの回数を引数として
渡せるので、10回指定して学習させたのですが、うまく行きませんでした。
特に異常値と言えるほど大きな正・負値も無かったので、
外れ値の除去を行わなかったのですが、それがまずかったのでしょうか？
712 名前：デフォルトの名無しさん mailto:sage [2011/10/26(水) 01:26:25.70 ]: >>710
学習データに対してうまくいっていないと言ってるし
オーバーフィッティングしてないと思うけど
>>709
回帰がニューラルネットワークで判別にSVMを使っているの？
全体的になに言っているか分かりにくいけど
データ数はどれくらいなの
ニューラルネットの中間層のユニット数とイテレーション数はどうなっているの
デタラメとはRMSEなどを計算してから言っているの
713 名前：709 mailto:sage [2011/10/27(木) 22:49:35.06 ]: >>712
返信が遅くなってもうわけございません。
WEKAを使用したらなぜか解決いたしました。
お騒がせして大変申し訳ございませんでした。
714 名前：デフォルトの名無しさん mailto:sage [2011/10/28(金) 09:47:57.82 ]: Wekaを使用したら解決したって全く別物やんけ
データとやりたいことはあっててRの使い方が間違ってたんだろ
715 名前： ◆HBmET4DqEk mailto:sage [2011/11/05(土) 16:47:50.31 ]: てす
716 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 01:07:43.22 ]: 会社やめたい
717 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 01:12:30.32 ]: ttp://www.youtube.com/watch?v=nAAWvq7TgKM
718 名前：デフォルトの名無しさん [2011/11/08(火) 19:48:53.06 ]: 数十万円もするデータ処理ソフトTMstudioの試用版が
今ならタダでダウンロードできます。
www.msi.co.jp/tmstudio/TMStudioForPatent2011/tmstudio2011.zip
是非みなさんに使ってもらいたい。
史上最強のデータマイニング専用ソフトですから。
一部使用制限はありますが、本当にタダでいいの？ってなくらい凄い機能です。
719 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 20:10:28.29 ]: テキストマイニング専用ソフトかな？
720 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 20:42:21.40 ]: www.msi.co.jp/tmstudio/movies/TMStudioMovie1.wmv
というデモがあるそうですね。
721 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 07:12:14.27 ]: わざとらしい宣伝乙
722 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 22:10:54.26 ]: 質問させてください。
遺伝的アルゴリズムで1～5の範囲で並びの順番を表そうとしているのですが
染色体A:1 2 3 4 5
染色体B:5 4 3 2 1
を用意してこれを適当なところで一点交叉させると
染色体C:1 2 3 2 1となり順番の値が重複してしまい困っています。
質問の意図が分からないと思いますがエスパーの方いましたらお願いします。
723 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 22:59:28.34 ]: そもそもそれは塩基？遺伝子？
前者なら1-4の範囲の気がするから後者？
724 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 23:35:47.47 ]: >>722
TSPで皆がどうエンコードしてるか検索すれば解る
725 名前：デフォルトの名無しさん mailto:sage [2011/11/10(木) 20:57:33.46 ]: >>722
構わずphenomeと１対１対応。基本。
726 名前：デフォルトの名無しさん mailto:sage [2011/11/10(木) 23:22:43.78 ]: >>723-725
返信遅くなりましたが回答ありがとうございました。
特に>>724の方の巡回セールス問題に対する遺伝子の表現の仕方の工夫で上手くいくことが出来ました。
727 名前：デフォルトの名無しさん mailto:sage [2011/11/22(火) 10:04:30.68 ]: 卒論執筆のために、皆さんにご相談したいことがあります。

短距離や長距離などの陸上競技の選手間のタイムなどを説明変数、
順位を目的変数とし、重回帰分析を行おうと考えております。

そのために、タイムなどを集めたサンプル全体で標準化したのですが、
当然陸上競技は相対的に順位が決まります。

弱い選手と当たればブッチギリで勝てる選手も、猛者と闘えば、
ビリッケツになるかもしれません。

そのため、サンプル全体の標準化に加え、更に各レースごとのタイムなどで
標準化を行ない、両者を足した説明変数を使用しております。

しかしながら、データを各レースで標準化しただけの基準値だと、
平均からどの位飛び抜けているかという情報は分かりますが、
どれ位の順位にあるかという順位の情報が入っておりません。

もし、ご存知でしたら、基準値に代わる、バラつきや平均のみならず、
順位の情報を含む距離を図る尺度をご教示いただいても宜しいでしょうか。
（ユークリッド距離のような抽象的な空間内で距離を測る指標など）

また、ブラッドリー・テリーモデルについてですが、相撲やチェスなどの
直接対戦が豊富にあるゲームにしか適用は難しいですよね？

お忙しいところ、申し訳ございませんでした。
728 名前：デフォルトの名無しさん mailto:sage [2011/11/22(火) 10:59:21.99 ]: タイム：絶対値
順位：相対値

この時点で相関出しにくいんだよね・・・
しかも短距離と長距離混ぜると、順位データとしては全くの別物になるし
理想はプロットにした時、短距離と長距離で集合が出来れば良いんだけども
729 名前：デフォルトの名無しさん mailto:sage [2011/11/22(火) 18:20:42.13 ]: なんで結論ありきなの
730 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 07:01:15.24 ]: 研究へのアプローチが間違ってる。
まずは既存のやり方をしらみつぶしに試せ。
731 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 10:27:16.10 ]: アンサンブル学習について詳しい本があったら紹介お願いします。
732 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 17:54:05.69 ]: 今さらだけどワトソンって凄いね。
普通の質疑応答だったらもっと容易いだろうしどんなアルゴで動いてるんだろ
733 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 18:03:17.71 ]: % cat /usr/local/bin/watson
#!/bin/sh
wget www.google.com/?q=$1
734 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 21:56:27.50 ]: libSVM使ってみたんだけどdecision Valueってなんの値？
735 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 03:35:13.81 ]: 順位相関があるだろうが

因みに説明変数は、筋神経パワー，無酸素運動容量，VO2MAX, LT-Power
この中には短距離スピードと負の相関のものがある
プロファイル形状とレベルが重要になる。てかそれで説明出来る
736 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 13:20:36.89 ]: >>734
誰も使ったことないのか？
俺も使ったことないけどsing(x)みたいな-1,1の値じゃないの
737 名前：727 mailto:sage [2011/11/25(金) 09:24:08.37 ]: >>728,730
返信が遅くなり申し訳ございません。
アドバイスをいただき、どうもありがとうございました。
738 名前：デフォルトの名無しさん mailto:sage [2011/11/25(金) 12:44:31.56 ]: >>736
データによってもっと変わるかもだけど、-5から5くらいの実数値だった
予測ラベルと相関ありそうなんだけど、よくわからん
739 名前：デフォルトの名無しさん mailto:sage [2011/11/25(金) 20:06:44.54 ]: おまえら、なにいってんだ？
740 名前：デフォルトの名無しさん mailto:sage [2011/11/25(金) 20:12:15.95 ]: >>738
たぶん決定関数の値だと思うから
符号とって正か負かでラベルに属するか属さないか2値分類するものじゃないかな
libsvmはラベルと確率を返す関数があるようなので
そっち使ったほうがいいのでは
741 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 00:16:04.15 ]: >>740
そういうことか！
ありがと！
742 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 10:22:55.71 ]: オライリーから入門ソーシャルデータってデータマイニングの本が出てるね
743 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 10:52:30.15 ]: ぜひ買って感想をヨロ
744 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 11:06:13.60 ]: Google Buzz が閉鎖されたのでオワコン
745 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 11:10:46.86 ]: 監訳者のブログ
7章の前半のGoogle Buzzは閉鎖されちゃって残念だけど、
実際には「入門自然言語処理」で詳しく解説されている NLTK を、試しに使ってみよう、的な章になっているので、
ほとんど問題ないし、7章後半の Gmail に関する記事は内容に遜色は無いです。なので、「Google Buzz が閉鎖されたので本書はオワコン」は的な過剰な反応は無用だと思います。
746 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 13:27:08.50 ]: 自分は Google Buzz は使ってないからインパクトなし
747 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 15:20:30.10 ]: おまえらに必要なのはそんな軽い本ではなく
線形代数と解析学、統計学の基礎だろ
748 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 18:38:43.13 ]: そんなのとっくに大学で習ってるだろ
あ、専卒さんでしたか？
749 名前：デフォルトの名無しさん [2011/11/27(日) 09:28:35.06 ]: データマイニングで使われるトップ10アルゴリズムAdd Star
d.hatena.ne.jp/isseing333/20111123/1322053940
750 名前：デフォルトの名無しさん mailto:sage [2011/11/27(日) 12:25:58.37 ]: 自己組織マップはあまり使われないのかな
751 名前：デフォルトの名無しさん mailto:sage [2011/11/28(月) 20:24:29.44 ]: 入門ソーシャルデータがアマゾンから来てた
またpythonか、、、
752 名前：デフォルトの名無しさん mailto:sage [2011/11/28(月) 22:15:13.11 ]: Python使ってる俺は嬉しい。
自然言語処理の本もPythonだし
753 名前：デフォルトの名無しさん mailto:sage [2011/12/03(土) 16:38:20.03 ]: 機械学習には教師あり学習、教師なし学習、強化学習があると思いますが、
ニューラルネットワークで強化学習と教師あり学習をMixしたようなモデルと作りたいと考えています。

各入力ノードの入力値に重みを付けて、中間層を介して、出力層より1か0を出力します。
通常の教師あり学習では、教師信号と出力の誤差を取り、誤差を最小にするように、
デルタ則を用いて最急降下法などで重みを決めると思います。

しかし、作りたいモデルでは教師信号が強化学習のように存在しませんが、
1を出力した場合に当たりなら報酬を貰い、外れたら-1の報酬ペナルティ、
0を出力した場合には報酬0となるようにし、学習データの報酬の総和が
最大になるように各入力ノードと中間層のノードの重みを決定したいのですが、
報酬の総和の関数を作り、数値微分で重みを決めようとしても、
恐らくやり方が悪く収束しません。

下手の考え休むに似たり、の諺の通り、アホの自分では上手く行きませんでした。
どなたか、そのようなニーズを満たすアルゴリズムやコード、ツールなどを
ご存知でしたらご教示願えませんでしょうか。
754 名前：デフォルトの名無しさん mailto:sage [2011/12/04(日) 00:36:38.70 ]: lmgtfy.com/?q=neural+network
755 名前：デフォルトの名無しさん [2011/12/08(木) 14:54:47.66 ]: このスレってデータマイニングを使ってビジネス情報を分析している人の話題が多いけど

データマイニングや機械学習って他にも色々な分野と関連してるじゃん

パターン認識と合わせたWEBマイニングや自然言語処理と合わせたテキストマイニングや人工知能はスレ違い？
756 名前：デフォルトの名無しさん mailto:sage [2011/12/08(木) 20:20:22.60 ]: >何でもいいので語れ
757 名前：デフォルトの名無しさん mailto:sage [2011/12/09(金) 03:38:35.79 ]: Googleの検索候補って自分の過去の検索履歴だけじゃなくて
他人の過去の検索履歴も使ってるみたいだけど
自分のが出てくると恥ずかしいので
自分のだけは除外するようにするにはどうすればよいですか？
758 名前：デフォルトの名無しさん mailto:sage [2011/12/09(金) 07:16:29.35 ]: IMEも同意語も翻訳も似たもの同士だよな
759 名前：デフォルトの名無しさん mailto:sage [2011/12/09(金) 22:38:10.95 ]: >>757
恥ずかしいのぐらいがまんしたら？
それより、スレ違い
760 名前：デフォルトの名無しさん mailto:sage [2011/12/10(土) 02:29:57.22 ]: オープンコンプリートならブラウザで止めればいいが
Googleが出しているならアカウントをログアウトするしかないんじゃね
761 名前：デフォルトの名無しさん mailto:sage [2011/12/10(土) 07:56:47.90 ]: >>757
でもそんなに簡単に個人のﾓﾉがGoogleに反映されるものかな？
ブラウザ自身 (含む検索用のプラグイン) が記憶して、それを候補として挙げてるってことはない？

ページ上に最初から自分の検索語が堂々と表示されているか、それとも検索語を入力するための
テキスト枠に候補としてプルダウンメニューから出るかで大きく違うと思う。
前者はみんなが見られるし、後者はログインした個人毎にカスタマイズした内容。みな推測だけど。
762 名前：デフォルトの名無しさん mailto:sage [2011/12/12(月) 23:59:20.47 ]: 明らかに自分が入れたことのない単語が検索候補ワードに出て来ます
ってことは他人の環境でも自分の使った単語がそのひとのところに出てるかもしれない訳ですよね
763 名前：デフォルトの名無しさん mailto:sage [2011/12/13(火) 00:00:57.36 ]: もちろんドロップダウンの話です
764 名前：デフォルトの名無しさん mailto:sage [2011/12/13(火) 01:14:34.81 ]: 統計とって上位しか使っていないだろうから
おまえと同じ検索ワードをたくさんの人が入力していないと出ないし
たくさんの人が入力しているワードなら出てもいいだろ
765 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 02:02:19.73 ]: 質問よろしくお願いします。
今アソシエーション分析を行っているのですが、
条件部となるアイテム集合をAprioriアルゴを用いて抽出したのは良いのですが
その後のルール抽出作業において結論部となるアイテム集合のパターンが膨大で計算に時間が掛かってしまいます。
結論部に関しては全ての単語の組み合わせを計算しているのですが
Aprioriアルゴリズムのように良い解決方法はないでしょうか？
766 名前：デフォルトの名無しさん [2012/01/07(土) 11:19:46.24 ]: >>572 わらた
767 名前：やらせ商売としての『２ちゃんねる』の煽動者ありか？ [2012/01/10(火) 17:59:30.92 ]: 『２ちゃんねる』には「プロ固定」とよばれる集団がいるという意見があります。
下記URL：『第七章・２ｃｈの秘密工作員たち』を参照しました。
resistance333.web.fc2.com/newpage7.htm

さて、そのような煽動集団がいるかどうか検証することは可能なのでしょうか・・・。
最近ではカカクドットコムという会社が『食べログ』における「やらせ行為」で問題に
なりました。下記『日本経済新聞』の『「食べログ」にやらせ投稿コカクコムが法的措置も』URL↓
www.nikkei.com/news/headline/article/g=96958A9C93819695E2E6E2E19F8DE2E6E2E3E0E2E3E09180EAE2E2E2
を参照しました。『２ちゃんねる』における「やらせ行為」がある可能性もありますね。検証方法はあるのでしょうか。
どう思いますか。
768 名前：デフォルトの名無しさん mailto:sage [2012/01/10(火) 18:01:31.20 ]: ネットで「プロ固定」とか騒いでるの、どう見ても「集団ストーカーが！」とか言ってる人の同類ばかりじゃないか。
769 名前：デフォルトの名無しさん mailto:sage [2012/01/10(火) 18:06:19.81 ]: ゲハでやれ
770 名前：デフォルトの名無しさん mailto:sage [2012/01/13(金) 12:58:34.41 ]: >>762
あれは、Googleが作った検索ワードの辞書にそって、ユーザーが入力したワードに近い辞書ワードを
検索上位のワードのウェイトを付けて表示している。

この辞書の２次派生物がGoogle JapanがリリースしたIME

だたし、フロント側の表示メカニズムはAjaxによるサーバークライアント型のアプリケーションで組んでるので
ブラウザのjavascriptの機能をoffにすると働かなくなる。

もっとも、Googleはユーザーが入力した検索ワードは全て記録しているので、機能をoffってもサーバーサイドでは
記録は残される。
771 名前：デフォルトの名無しさん mailto:sage [2012/01/13(金) 13:07:24.48 ]: >>765
前、Amazonで表示される「この商品を買った人はこんな商品もかっています」というのと同じメカニズムを組み込もうとして
ログ解析をしたことがあるが、やはり、順列組み合わせでユーザーごとのページ遷移を全て追跡すると計算量が膨大に
なって処理ができなくなって辞めた。

前、Yahoo Jのなんかの記事で、YJではこの処理を組むため専用のクラスターコンピューターを購入したとかあって、
順当に処理をこなすには専用の処理系が必要かな、と思った。

専用の処理系が調達できない場合は、ヒューリスティックなルーチンを組み込んで不必要な枝を削除する必要がある。
これはチェスの処理系とかでやってる。
772 名前：デフォルトの名無しさん mailto:sage [2012/01/13(金) 18:30:49.39 ]: ブラック企業多そう
773 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 13:47:25.00 ]: すでにある手法を学ぶ
納得したら使う

納得出来なかったら研究する
774 名前：デフォルトの名無しさん mailto:sage [2012/01/17(火) 07:59:53.86 ]: >>771
そのクラスタってのはHadoopなんじゃないかな
最近はHadoopで何でも力技でやる傾向にあるみたい
775 名前：デフォルトの名無しさん mailto:sage [2012/01/19(木) 00:24:53.10 ]: Weka使ってる人いる？
776 名前：デフォルトの名無しさん mailto:sage [2012/01/21(土) 18:07:44.11 ]: 質問させてください
配列(array)に入っているデータを比較するとします
array1 = [ 1,2,3 ]
array2 = [ 1,2,4 ]
array3 = [ 5,6,7 ]

この場合、array1とarray2の関係は、arrayとarray3よりも「近い」と判断したいです
機械学習的に解けるような問題なのでしょうか？そういうアルゴリズムがあれば教えて頂きたいです
777 名前：デフォルトの名無しさん mailto:sage [2012/01/21(土) 22:15:33.01 ]: 宿題は自分で解こうね。
778 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 00:31:50.85 ]: >>777
776じゃないが、そんなクソの役にも立たない意見ならレスすんなよ馬鹿か。
答えられないくせにレスするなら分からないのと同じだ。
779 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 01:36:47.12 ]: 別に構わないのでは? 宿題スレならともかく、
質問への反応は回答でなければならないなんて決まってるわけじゃない。
そもそも近いの定義すら明らかにしない質問じゃあね……
780 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 01:56:46.55 ]: >>778
バカはだまってろ
781 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:13:25.02 ]: こんな過疎スレ質問ぐらい答えてやれやw
782 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 05:37:21.75 ]: だが断る
783 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 06:20:54.22 ]: >>776
分類する　クラスタリング　あたりで頑張ってください
784 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 07:01:57.34 ]: あと回帰分析な
785 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 12:12:18.31 ]: 普通に最近傍法で良いのでは
786 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 12:20:22.74 ]: まあ方法はいっぱいあるよね
そこが機械学習の厄介な点であり面白い所でもある
787 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 12:39:22.72 ]: どれも統計学の上で踊ってるだけだがな
788 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 13:55:53.23 ]: 分類・回帰じゃなくて類似度計算でしょ．距離を定義して解きゃええやん．機械学習必要なし
789 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 14:07:12.00 ]: 回帰分析に距離指標定義は切っても切れない関係なわけだが
790 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 16:05:25.53 ]: >>776
単にユークリッド距離でいいのでは
その配列をx,y,z座標として点の近さをはかる
791 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 16:15:34.57 ]: ついにこのスレにもマジレスの波が……
792 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 17:13:02.10 ]: >>788
これが正解で他のレスは的外れだと思います。
機械学習とはデータから評価関数を逆算する処理であり、
距離定義が最初から決まっているなら機械学習は不要です。

>>790
質問者が示したデータは座標ではなく文字列で
1,3,4より1,2,9の方が1,2,3に近いのかもしれません。
793 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 17:28:05.64 ]: >>792
残念ながら、正解は>>783-784だ。理由はスレタイに書いてある。
794 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 18:12:50.02 ]: >>792
>array1とarray2の関係は、arrayとarray3よりも「近い」と判断したい
とかしか書いていないので、これが教師データだろ
妄想でデータ作って近いのかもしれないって馬鹿なの？
795 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 19:49:40.14 ]: いや質問者の意図自体が読み取り辛いのだからそこは仕方無いだろ
796 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 19:56:38.02 ]: >>793
>>776が評価関数の求め方を質問しているのならそうですね。

>>794
演習問題なら教師データさえ正しく判定できればOKですが、
実用なら「ユークリッド距離」が目的に合うとは限りません。
それを具体的な例で説明しただけです。
797 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 00:13:51.39 ]: 質問者の意図が読み取りづらいのに正解だの間違いだの言ってるのが間違いで
まず質問者に質問の詳細を問うのが正解です
798 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 11:17:17.98 ]: お前らの脳も機械学習しろよ
799 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 14:48:12.44 ]: >>797
そこまで肩肘張らなくても
800 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 21:52:43.20 ]: この分野の優良企業ないかな？
社会人になっても研究とかしたいし
801 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 22:20:20.59 ]: >>800
極めたいならツールベンダーか、コンサル会社じゃないかな。両方兼ね備えてるところが多いけど。
あるいは立場をユーザー企業に向ければもちろん VOCとか、特許とか、様々な技術文書等の
本物のデータがあるよ。　ただ民間は決められた時間内で成果を出さないとならず、学術的な
仕事をするなら研究所をもってる所に行かないと厳しいだろうけどね。研究所とはいえ民間だから
成果の評価順は製品への展開（技術移管）、特許活動、学会発表の順に低くなる。
802 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 23:42:09.66 ]: >>776
近似計算になるけどLSH．
803 名前：デフォルトの名無しさん mailto:sage [2012/01/24(火) 00:49:26.84 ]: >>801
そっか～やっぱり大学卒業すると厳しそうだね
アドバイスありがとう。
804 名前：デフォルトの名無しさん mailto:sage [2012/01/24(火) 11:32:02.18 ]: >>801
会社の研究所は学校では無いからねぇ
金にならない特許なんて不良資産だし
805 名前：デフォルトの名無しさん mailto:sage [2012/01/26(木) 06:37:55.39 ]: >>776自身が判断するなら、
大量のデータ用意して自分が学習するしかない。
「したい」ということは教師役も自分でやる。
806 名前：デフォルトの名無しさん mailto:sage [2012/02/03(金) 22:19:14.45 ]: ナイーブベイズでテキストフィルタリングをしてるんですが辞書のデータの数が少ないほうに全て判定されてしまいます。
ちゃんと事前確率P(class)も掛け合わせて是正しているんですがP(class|words)の計算で既に差がつきすぎてるようで・・・
何か良い解決策はないでしょうか、よろしくお願いします
807 名前：デフォルトの名無しさん mailto:sage [2012/02/03(金) 22:41:28.32 ]: >>806
P(class|word)じゃなくてP(word|class)だろ？
808 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 01:19:37.36 ]: >>807
そうです、訂正ありがとうございます
809 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:35:21.47 ]: >>806
補集合のやつ（Complement Nyve Bayes)使ってみたら？
2クラス分類なら意味ないけど．
810 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:49:50.53 ]: 対数とってなくてオーバーフローしてるとかではないの

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef