【統計分析】機械学習・データマイニング【集合知】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 02/02 00:00 / Filesize : 198 KB / Number-of Response : 850
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 23:00:10 ]: 何でもいいので語れ

【関連サイト】
機械学習の「朱鷺の杜Wiki」
ibisforest.org/index.php?FrontPage
712 名前：デフォルトの名無しさん mailto:sage [2011/10/26(水) 01:26:25.70 ]: >>710
学習データに対してうまくいっていないと言ってるし
オーバーフィッティングしてないと思うけど
>>709
回帰がニューラルネットワークで判別にSVMを使っているの？
全体的になに言っているか分かりにくいけど
データ数はどれくらいなの
ニューラルネットの中間層のユニット数とイテレーション数はどうなっているの
デタラメとはRMSEなどを計算してから言っているの
713 名前：709 mailto:sage [2011/10/27(木) 22:49:35.06 ]: >>712
返信が遅くなってもうわけございません。
WEKAを使用したらなぜか解決いたしました。
お騒がせして大変申し訳ございませんでした。
714 名前：デフォルトの名無しさん mailto:sage [2011/10/28(金) 09:47:57.82 ]: Wekaを使用したら解決したって全く別物やんけ
データとやりたいことはあっててRの使い方が間違ってたんだろ
715 名前： ◆HBmET4DqEk mailto:sage [2011/11/05(土) 16:47:50.31 ]: てす
716 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 01:07:43.22 ]: 会社やめたい
717 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 01:12:30.32 ]: ttp://www.youtube.com/watch?v=nAAWvq7TgKM
718 名前：デフォルトの名無しさん [2011/11/08(火) 19:48:53.06 ]: 数十万円もするデータ処理ソフトTMstudioの試用版が
今ならタダでダウンロードできます。
www.msi.co.jp/tmstudio/TMStudioForPatent2011/tmstudio2011.zip
是非みなさんに使ってもらいたい。
史上最強のデータマイニング専用ソフトですから。
一部使用制限はありますが、本当にタダでいいの？ってなくらい凄い機能です。
719 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 20:10:28.29 ]: テキストマイニング専用ソフトかな？
720 名前：デフォルトの名無しさん mailto:sage [2011/11/08(火) 20:42:21.40 ]: www.msi.co.jp/tmstudio/movies/TMStudioMovie1.wmv
というデモがあるそうですね。
721 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 07:12:14.27 ]: わざとらしい宣伝乙
722 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 22:10:54.26 ]: 質問させてください。
遺伝的アルゴリズムで1～5の範囲で並びの順番を表そうとしているのですが
染色体A:1 2 3 4 5
染色体B:5 4 3 2 1
を用意してこれを適当なところで一点交叉させると
染色体C:1 2 3 2 1となり順番の値が重複してしまい困っています。
質問の意図が分からないと思いますがエスパーの方いましたらお願いします。
723 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 22:59:28.34 ]: そもそもそれは塩基？遺伝子？
前者なら1-4の範囲の気がするから後者？
724 名前：デフォルトの名無しさん mailto:sage [2011/11/09(水) 23:35:47.47 ]: >>722
TSPで皆がどうエンコードしてるか検索すれば解る
725 名前：デフォルトの名無しさん mailto:sage [2011/11/10(木) 20:57:33.46 ]: >>722
構わずphenomeと１対１対応。基本。
726 名前：デフォルトの名無しさん mailto:sage [2011/11/10(木) 23:22:43.78 ]: >>723-725
返信遅くなりましたが回答ありがとうございました。
特に>>724の方の巡回セールス問題に対する遺伝子の表現の仕方の工夫で上手くいくことが出来ました。
727 名前：デフォルトの名無しさん mailto:sage [2011/11/22(火) 10:04:30.68 ]: 卒論執筆のために、皆さんにご相談したいことがあります。

短距離や長距離などの陸上競技の選手間のタイムなどを説明変数、
順位を目的変数とし、重回帰分析を行おうと考えております。

そのために、タイムなどを集めたサンプル全体で標準化したのですが、
当然陸上競技は相対的に順位が決まります。

弱い選手と当たればブッチギリで勝てる選手も、猛者と闘えば、
ビリッケツになるかもしれません。

そのため、サンプル全体の標準化に加え、更に各レースごとのタイムなどで
標準化を行ない、両者を足した説明変数を使用しております。

しかしながら、データを各レースで標準化しただけの基準値だと、
平均からどの位飛び抜けているかという情報は分かりますが、
どれ位の順位にあるかという順位の情報が入っておりません。

もし、ご存知でしたら、基準値に代わる、バラつきや平均のみならず、
順位の情報を含む距離を図る尺度をご教示いただいても宜しいでしょうか。
（ユークリッド距離のような抽象的な空間内で距離を測る指標など）

また、ブラッドリー・テリーモデルについてですが、相撲やチェスなどの
直接対戦が豊富にあるゲームにしか適用は難しいですよね？

お忙しいところ、申し訳ございませんでした。
728 名前：デフォルトの名無しさん mailto:sage [2011/11/22(火) 10:59:21.99 ]: タイム：絶対値
順位：相対値

この時点で相関出しにくいんだよね・・・
しかも短距離と長距離混ぜると、順位データとしては全くの別物になるし
理想はプロットにした時、短距離と長距離で集合が出来れば良いんだけども
729 名前：デフォルトの名無しさん mailto:sage [2011/11/22(火) 18:20:42.13 ]: なんで結論ありきなの
730 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 07:01:15.24 ]: 研究へのアプローチが間違ってる。
まずは既存のやり方をしらみつぶしに試せ。
731 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 10:27:16.10 ]: アンサンブル学習について詳しい本があったら紹介お願いします。
732 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 17:54:05.69 ]: 今さらだけどワトソンって凄いね。
普通の質疑応答だったらもっと容易いだろうしどんなアルゴで動いてるんだろ
733 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 18:03:17.71 ]: % cat /usr/local/bin/watson
#!/bin/sh
wget www.google.com/?q=$1
734 名前：デフォルトの名無しさん mailto:sage [2011/11/23(水) 21:56:27.50 ]: libSVM使ってみたんだけどdecision Valueってなんの値？
735 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 03:35:13.81 ]: 順位相関があるだろうが

因みに説明変数は、筋神経パワー，無酸素運動容量，VO2MAX, LT-Power
この中には短距離スピードと負の相関のものがある
プロファイル形状とレベルが重要になる。てかそれで説明出来る
736 名前：デフォルトの名無しさん mailto:sage [2011/11/24(木) 13:20:36.89 ]: >>734
誰も使ったことないのか？
俺も使ったことないけどsing(x)みたいな-1,1の値じゃないの
737 名前：727 mailto:sage [2011/11/25(金) 09:24:08.37 ]: >>728,730
返信が遅くなり申し訳ございません。
アドバイスをいただき、どうもありがとうございました。
738 名前：デフォルトの名無しさん mailto:sage [2011/11/25(金) 12:44:31.56 ]: >>736
データによってもっと変わるかもだけど、-5から5くらいの実数値だった
予測ラベルと相関ありそうなんだけど、よくわからん
739 名前：デフォルトの名無しさん mailto:sage [2011/11/25(金) 20:06:44.54 ]: おまえら、なにいってんだ？
740 名前：デフォルトの名無しさん mailto:sage [2011/11/25(金) 20:12:15.95 ]: >>738
たぶん決定関数の値だと思うから
符号とって正か負かでラベルに属するか属さないか2値分類するものじゃないかな
libsvmはラベルと確率を返す関数があるようなので
そっち使ったほうがいいのでは
741 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 00:16:04.15 ]: >>740
そういうことか！
ありがと！
742 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 10:22:55.71 ]: オライリーから入門ソーシャルデータってデータマイニングの本が出てるね
743 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 10:52:30.15 ]: ぜひ買って感想をヨロ
744 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 11:06:13.60 ]: Google Buzz が閉鎖されたのでオワコン
745 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 11:10:46.86 ]: 監訳者のブログ
7章の前半のGoogle Buzzは閉鎖されちゃって残念だけど、
実際には「入門自然言語処理」で詳しく解説されている NLTK を、試しに使ってみよう、的な章になっているので、
ほとんど問題ないし、7章後半の Gmail に関する記事は内容に遜色は無いです。なので、「Google Buzz が閉鎖されたので本書はオワコン」は的な過剰な反応は無用だと思います。
746 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 13:27:08.50 ]: 自分は Google Buzz は使ってないからインパクトなし
747 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 15:20:30.10 ]: おまえらに必要なのはそんな軽い本ではなく
線形代数と解析学、統計学の基礎だろ
748 名前：デフォルトの名無しさん mailto:sage [2011/11/26(土) 18:38:43.13 ]: そんなのとっくに大学で習ってるだろ
あ、専卒さんでしたか？
749 名前：デフォルトの名無しさん [2011/11/27(日) 09:28:35.06 ]: データマイニングで使われるトップ10アルゴリズムAdd Star
d.hatena.ne.jp/isseing333/20111123/1322053940
750 名前：デフォルトの名無しさん mailto:sage [2011/11/27(日) 12:25:58.37 ]: 自己組織マップはあまり使われないのかな
751 名前：デフォルトの名無しさん mailto:sage [2011/11/28(月) 20:24:29.44 ]: 入門ソーシャルデータがアマゾンから来てた
またpythonか、、、
752 名前：デフォルトの名無しさん mailto:sage [2011/11/28(月) 22:15:13.11 ]: Python使ってる俺は嬉しい。
自然言語処理の本もPythonだし
753 名前：デフォルトの名無しさん mailto:sage [2011/12/03(土) 16:38:20.03 ]: 機械学習には教師あり学習、教師なし学習、強化学習があると思いますが、
ニューラルネットワークで強化学習と教師あり学習をMixしたようなモデルと作りたいと考えています。

各入力ノードの入力値に重みを付けて、中間層を介して、出力層より1か0を出力します。
通常の教師あり学習では、教師信号と出力の誤差を取り、誤差を最小にするように、
デルタ則を用いて最急降下法などで重みを決めると思います。

しかし、作りたいモデルでは教師信号が強化学習のように存在しませんが、
1を出力した場合に当たりなら報酬を貰い、外れたら-1の報酬ペナルティ、
0を出力した場合には報酬0となるようにし、学習データの報酬の総和が
最大になるように各入力ノードと中間層のノードの重みを決定したいのですが、
報酬の総和の関数を作り、数値微分で重みを決めようとしても、
恐らくやり方が悪く収束しません。

下手の考え休むに似たり、の諺の通り、アホの自分では上手く行きませんでした。
どなたか、そのようなニーズを満たすアルゴリズムやコード、ツールなどを
ご存知でしたらご教示願えませんでしょうか。
754 名前：デフォルトの名無しさん mailto:sage [2011/12/04(日) 00:36:38.70 ]: lmgtfy.com/?q=neural+network
755 名前：デフォルトの名無しさん [2011/12/08(木) 14:54:47.66 ]: このスレってデータマイニングを使ってビジネス情報を分析している人の話題が多いけど

データマイニングや機械学習って他にも色々な分野と関連してるじゃん

パターン認識と合わせたWEBマイニングや自然言語処理と合わせたテキストマイニングや人工知能はスレ違い？
756 名前：デフォルトの名無しさん mailto:sage [2011/12/08(木) 20:20:22.60 ]: >何でもいいので語れ
757 名前：デフォルトの名無しさん mailto:sage [2011/12/09(金) 03:38:35.79 ]: Googleの検索候補って自分の過去の検索履歴だけじゃなくて
他人の過去の検索履歴も使ってるみたいだけど
自分のが出てくると恥ずかしいので
自分のだけは除外するようにするにはどうすればよいですか？
758 名前：デフォルトの名無しさん mailto:sage [2011/12/09(金) 07:16:29.35 ]: IMEも同意語も翻訳も似たもの同士だよな
759 名前：デフォルトの名無しさん mailto:sage [2011/12/09(金) 22:38:10.95 ]: >>757
恥ずかしいのぐらいがまんしたら？
それより、スレ違い
760 名前：デフォルトの名無しさん mailto:sage [2011/12/10(土) 02:29:57.22 ]: オープンコンプリートならブラウザで止めればいいが
Googleが出しているならアカウントをログアウトするしかないんじゃね
761 名前：デフォルトの名無しさん mailto:sage [2011/12/10(土) 07:56:47.90 ]: >>757
でもそんなに簡単に個人のﾓﾉがGoogleに反映されるものかな？
ブラウザ自身 (含む検索用のプラグイン) が記憶して、それを候補として挙げてるってことはない？

ページ上に最初から自分の検索語が堂々と表示されているか、それとも検索語を入力するための
テキスト枠に候補としてプルダウンメニューから出るかで大きく違うと思う。
前者はみんなが見られるし、後者はログインした個人毎にカスタマイズした内容。みな推測だけど。
762 名前：デフォルトの名無しさん mailto:sage [2011/12/12(月) 23:59:20.47 ]: 明らかに自分が入れたことのない単語が検索候補ワードに出て来ます
ってことは他人の環境でも自分の使った単語がそのひとのところに出てるかもしれない訳ですよね
763 名前：デフォルトの名無しさん mailto:sage [2011/12/13(火) 00:00:57.36 ]: もちろんドロップダウンの話です
764 名前：デフォルトの名無しさん mailto:sage [2011/12/13(火) 01:14:34.81 ]: 統計とって上位しか使っていないだろうから
おまえと同じ検索ワードをたくさんの人が入力していないと出ないし
たくさんの人が入力しているワードなら出てもいいだろ
765 名前：デフォルトの名無しさん mailto:sage [2012/01/04(水) 02:02:19.73 ]: 質問よろしくお願いします。
今アソシエーション分析を行っているのですが、
条件部となるアイテム集合をAprioriアルゴを用いて抽出したのは良いのですが
その後のルール抽出作業において結論部となるアイテム集合のパターンが膨大で計算に時間が掛かってしまいます。
結論部に関しては全ての単語の組み合わせを計算しているのですが
Aprioriアルゴリズムのように良い解決方法はないでしょうか？
766 名前：デフォルトの名無しさん [2012/01/07(土) 11:19:46.24 ]: >>572 わらた
767 名前：やらせ商売としての『２ちゃんねる』の煽動者ありか？ [2012/01/10(火) 17:59:30.92 ]: 『２ちゃんねる』には「プロ固定」とよばれる集団がいるという意見があります。
下記URL：『第七章・２ｃｈの秘密工作員たち』を参照しました。
resistance333.web.fc2.com/newpage7.htm

さて、そのような煽動集団がいるかどうか検証することは可能なのでしょうか・・・。
最近ではカカクドットコムという会社が『食べログ』における「やらせ行為」で問題に
なりました。下記『日本経済新聞』の『「食べログ」にやらせ投稿コカクコムが法的措置も』URL↓
www.nikkei.com/news/headline/article/g=96958A9C93819695E2E6E2E19F8DE2E6E2E3E0E2E3E09180EAE2E2E2
を参照しました。『２ちゃんねる』における「やらせ行為」がある可能性もありますね。検証方法はあるのでしょうか。
どう思いますか。
768 名前：デフォルトの名無しさん mailto:sage [2012/01/10(火) 18:01:31.20 ]: ネットで「プロ固定」とか騒いでるの、どう見ても「集団ストーカーが！」とか言ってる人の同類ばかりじゃないか。
769 名前：デフォルトの名無しさん mailto:sage [2012/01/10(火) 18:06:19.81 ]: ゲハでやれ
770 名前：デフォルトの名無しさん mailto:sage [2012/01/13(金) 12:58:34.41 ]: >>762
あれは、Googleが作った検索ワードの辞書にそって、ユーザーが入力したワードに近い辞書ワードを
検索上位のワードのウェイトを付けて表示している。

この辞書の２次派生物がGoogle JapanがリリースしたIME

だたし、フロント側の表示メカニズムはAjaxによるサーバークライアント型のアプリケーションで組んでるので
ブラウザのjavascriptの機能をoffにすると働かなくなる。

もっとも、Googleはユーザーが入力した検索ワードは全て記録しているので、機能をoffってもサーバーサイドでは
記録は残される。
771 名前：デフォルトの名無しさん mailto:sage [2012/01/13(金) 13:07:24.48 ]: >>765
前、Amazonで表示される「この商品を買った人はこんな商品もかっています」というのと同じメカニズムを組み込もうとして
ログ解析をしたことがあるが、やはり、順列組み合わせでユーザーごとのページ遷移を全て追跡すると計算量が膨大に
なって処理ができなくなって辞めた。

前、Yahoo Jのなんかの記事で、YJではこの処理を組むため専用のクラスターコンピューターを購入したとかあって、
順当に処理をこなすには専用の処理系が必要かな、と思った。

専用の処理系が調達できない場合は、ヒューリスティックなルーチンを組み込んで不必要な枝を削除する必要がある。
これはチェスの処理系とかでやってる。
772 名前：デフォルトの名無しさん mailto:sage [2012/01/13(金) 18:30:49.39 ]: ブラック企業多そう
773 名前：デフォルトの名無しさん mailto:sage [2012/01/16(月) 13:47:25.00 ]: すでにある手法を学ぶ
納得したら使う

納得出来なかったら研究する
774 名前：デフォルトの名無しさん mailto:sage [2012/01/17(火) 07:59:53.86 ]: >>771
そのクラスタってのはHadoopなんじゃないかな
最近はHadoopで何でも力技でやる傾向にあるみたい
775 名前：デフォルトの名無しさん mailto:sage [2012/01/19(木) 00:24:53.10 ]: Weka使ってる人いる？
776 名前：デフォルトの名無しさん mailto:sage [2012/01/21(土) 18:07:44.11 ]: 質問させてください
配列(array)に入っているデータを比較するとします
array1 = [ 1,2,3 ]
array2 = [ 1,2,4 ]
array3 = [ 5,6,7 ]

この場合、array1とarray2の関係は、arrayとarray3よりも「近い」と判断したいです
機械学習的に解けるような問題なのでしょうか？そういうアルゴリズムがあれば教えて頂きたいです
777 名前：デフォルトの名無しさん mailto:sage [2012/01/21(土) 22:15:33.01 ]: 宿題は自分で解こうね。
778 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 00:31:50.85 ]: >>777
776じゃないが、そんなクソの役にも立たない意見ならレスすんなよ馬鹿か。
答えられないくせにレスするなら分からないのと同じだ。
779 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 01:36:47.12 ]: 別に構わないのでは? 宿題スレならともかく、
質問への反応は回答でなければならないなんて決まってるわけじゃない。
そもそも近いの定義すら明らかにしない質問じゃあね……
780 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 01:56:46.55 ]: >>778
バカはだまってろ
781 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 04:13:25.02 ]: こんな過疎スレ質問ぐらい答えてやれやw
782 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 05:37:21.75 ]: だが断る
783 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 06:20:54.22 ]: >>776
分類する　クラスタリング　あたりで頑張ってください
784 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 07:01:57.34 ]: あと回帰分析な
785 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 12:12:18.31 ]: 普通に最近傍法で良いのでは
786 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 12:20:22.74 ]: まあ方法はいっぱいあるよね
そこが機械学習の厄介な点であり面白い所でもある
787 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 12:39:22.72 ]: どれも統計学の上で踊ってるだけだがな
788 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 13:55:53.23 ]: 分類・回帰じゃなくて類似度計算でしょ．距離を定義して解きゃええやん．機械学習必要なし
789 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 14:07:12.00 ]: 回帰分析に距離指標定義は切っても切れない関係なわけだが
790 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 16:05:25.53 ]: >>776
単にユークリッド距離でいいのでは
その配列をx,y,z座標として点の近さをはかる
791 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 16:15:34.57 ]: ついにこのスレにもマジレスの波が……
792 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 17:13:02.10 ]: >>788
これが正解で他のレスは的外れだと思います。
機械学習とはデータから評価関数を逆算する処理であり、
距離定義が最初から決まっているなら機械学習は不要です。

>>790
質問者が示したデータは座標ではなく文字列で
1,3,4より1,2,9の方が1,2,3に近いのかもしれません。
793 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 17:28:05.64 ]: >>792
残念ながら、正解は>>783-784だ。理由はスレタイに書いてある。
794 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 18:12:50.02 ]: >>792
>array1とarray2の関係は、arrayとarray3よりも「近い」と判断したい
とかしか書いていないので、これが教師データだろ
妄想でデータ作って近いのかもしれないって馬鹿なの？
795 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 19:49:40.14 ]: いや質問者の意図自体が読み取り辛いのだからそこは仕方無いだろ
796 名前：デフォルトの名無しさん mailto:sage [2012/01/22(日) 19:56:38.02 ]: >>793
>>776が評価関数の求め方を質問しているのならそうですね。

>>794
演習問題なら教師データさえ正しく判定できればOKですが、
実用なら「ユークリッド距離」が目的に合うとは限りません。
それを具体的な例で説明しただけです。
797 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 00:13:51.39 ]: 質問者の意図が読み取りづらいのに正解だの間違いだの言ってるのが間違いで
まず質問者に質問の詳細を問うのが正解です
798 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 11:17:17.98 ]: お前らの脳も機械学習しろよ
799 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 14:48:12.44 ]: >>797
そこまで肩肘張らなくても
800 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 21:52:43.20 ]: この分野の優良企業ないかな？
社会人になっても研究とかしたいし
801 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 22:20:20.59 ]: >>800
極めたいならツールベンダーか、コンサル会社じゃないかな。両方兼ね備えてるところが多いけど。
あるいは立場をユーザー企業に向ければもちろん VOCとか、特許とか、様々な技術文書等の
本物のデータがあるよ。　ただ民間は決められた時間内で成果を出さないとならず、学術的な
仕事をするなら研究所をもってる所に行かないと厳しいだろうけどね。研究所とはいえ民間だから
成果の評価順は製品への展開（技術移管）、特許活動、学会発表の順に低くなる。
802 名前：デフォルトの名無しさん mailto:sage [2012/01/23(月) 23:42:09.66 ]: >>776
近似計算になるけどLSH．
803 名前：デフォルトの名無しさん mailto:sage [2012/01/24(火) 00:49:26.84 ]: >>801
そっか～やっぱり大学卒業すると厳しそうだね
アドバイスありがとう。
804 名前：デフォルトの名無しさん mailto:sage [2012/01/24(火) 11:32:02.18 ]: >>801
会社の研究所は学校では無いからねぇ
金にならない特許なんて不良資産だし
805 名前：デフォルトの名無しさん mailto:sage [2012/01/26(木) 06:37:55.39 ]: >>776自身が判断するなら、
大量のデータ用意して自分が学習するしかない。
「したい」ということは教師役も自分でやる。
806 名前：デフォルトの名無しさん mailto:sage [2012/02/03(金) 22:19:14.45 ]: ナイーブベイズでテキストフィルタリングをしてるんですが辞書のデータの数が少ないほうに全て判定されてしまいます。
ちゃんと事前確率P(class)も掛け合わせて是正しているんですがP(class|words)の計算で既に差がつきすぎてるようで・・・
何か良い解決策はないでしょうか、よろしくお願いします
807 名前：デフォルトの名無しさん mailto:sage [2012/02/03(金) 22:41:28.32 ]: >>806
P(class|word)じゃなくてP(word|class)だろ？
808 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 01:19:37.36 ]: >>807
そうです、訂正ありがとうございます
809 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:35:21.47 ]: >>806
補集合のやつ（Complement Nyve Bayes)使ってみたら？
2クラス分類なら意味ないけど．
810 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:49:50.53 ]: 対数とってなくてオーバーフローしてるとかではないの
811 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 06:04:33.97 ]: add one smoothingって、時々そういうマイノリティ優遇に働くことがあるよな。
812 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 06:06:47.89 ]: >>810
それだと丸まって0.0になるから同点になるだけで、
小さなクラスが勝つことはないんじゃ？
813 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 12:50:49.86 ]: 回答いただいた方ありがとうございます。
今回やっていることは文章から性別を判定させるという事で、
取り合えずデータの数を合わせると納得がいかない方法ですが一応偏った判定はしなくなりました。
>>809
２クラス分類なので使えなさそうですね・・・
でも一度読んでみますありがとう。
>>810
値も常に確認しているのでそれはないと思われます。
一応つたないコードですが間違いがありましたらご指摘いただくと嬉しいです。
codepad.org/BsdTrv9t
814 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 21:31:49.62 ]: >>813
add one smoothingで、+len(male) や +len(female)が小さいほうが有利になっている。
v = len(set(male.keys()+femail.keys()))
としておいて、+len(male)や+len(female)を+vに置き換えてみたら？
815 名前：デフォルトの名無しさん mailto:sage [2012/02/05(日) 14:04:54.80 ]: >>814
修正しました、ありがとうございます。
一度データの数が少ない辞書を用意して確認してみます
816 名前：デフォルトの名無しさん mailto:sage [2012/02/06(月) 12:20:00.19 ]: サンプルコードなんだろうけど
wordsでforを二回回してるのが気持ち悪い
817 名前：デフォルトの名無しさん [2012/02/11(土) 19:21:09.78 ]: 文系のプログラマなんですが質問です。
Excelファイルのデータクリーニングをしているのですが、名前の入力間違い(仲村と中村など)や入力形式が違う電話番号といったレコードが多く、データの紐づけに手間がかかっています。

機械学習を用いて解決できないでしょうか？

何か参考になるツールやサイトがあれば教えて頂けないでしょうか？
818 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:14:34.38 ]: いやです
819 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:21:15.23 ]: それは機械学習使うとこなんのか？
正規表現使う場面では？
820 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:27:05.12 ]: うんそれは機械学習を魔法の箱かなんかと勘違いしてる
泥臭く正規表現でやれるはず
821 名前：817 mailto:sage [2012/02/11(土) 20:56:39.37 ]: >>820
はい、勘違いしてました。ありがとうございます。
822 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 21:02:52.10 ]: 機械学習でも正規表現でも無理。
仲村と中村の正解をどうやってするんだ?
本人の正しい漢字を知らなかったら無理。
紙のカードなどに書き出してデータにミスないか本人に確認して貰うとか手動が確実にいる。
すでに確認済の正しいデータがあればそれ使え。
823 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 21:51:45.60 ]: 一方で電話番号はよっぽどのことがない限り置換（数字のみに）で済むと思う
824 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:25:06.29 ]: >>817
そういえば年金記録が損なわれたとき、修復は人手で行ったそうだし、
信頼性が必要ならそうするしかないのでは？何したかを参考にするなら次のページ。

ja.wikipedia.org/wiki/%E5%B9%B4%E9%87%91%E8%A8%98%E9%8C%B2%E5%95%8F%E9%A1%8C
825 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:55:22.70 ]: 03-0000-0000
03(0000-0000)
0300000000

これを同一判定したいなら泥臭く正規表現でいけるじゃないかな

中村まさお
仲村まさお

萬田次郎
万田次郎

これを同一判定するなら人手でja.wikipedia.org/wiki/%E4%BA%BA%E5%90%8D%E7%94%A8%E6%BC%A2%E5%AD%97みたいな感じのデータを整備してマッピングするしかない
いずれにせよ「機械学習」に対して質問者が抱いているボンヤリとしたブラックボックスにデータを投げて解決する問題では無いと思います
826 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 10:59:15.53 ]: 古典的な名寄せ処理
827 名前：817 [2012/02/12(日) 11:08:48.17 ]: 皆さんありがとうございます。
的外れな質問だったのに、ありがとうございます。
828 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 11:27:05.23 ]: 下げます。
829 名前：『２ちゃんねる』：海外からのデータマイニング？(2) [2012/02/23(木) 19:50:19.59 ]: >>36、>>95に関連してです。

『Wikipedia』の「２ちゃんねる」を参照しました。
（以下一部引用）
『運営：2011年現在、主としてアメリカ合衆国カリフォルニア州
サンフランシスコ365 Main社運営のデータセンターにある、
Pacific Internet Exchange所有スペースにある約60台のサーバ群で運営されている。
OSにはFreeBSDを用い、数年にわたって改良が続けられてきた投稿を受け付ける掲示板システム群
（各ユーザはこれらの入っているサーバにアクセスする）と、各種ロギングや投稿チェック、
そして「実況」と呼ばれる最大で秒間数百以上にのぼる大量投稿を捌く…などの役割を与えられた
バックエンドシステムによって構成されている。』（以上引用）

>>95に関連して、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
infowave.at.webry.info/201010/article_2.html

盗聴法改正案が２０１１年に提出され、もし成立していれば、基本的に米国のインターネット･サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

さて、ひろゆき氏がトラブル回避のために『２ちゃんねる』サーバーを手放したことは
日本国内『２ちゃんねる』ユーザーにとっていい影響がでているのか、それとも・・・？
830 名前：インターネットで個人情報の追跡ビジネスが急成長＝WSJ調査 [2012/02/24(金) 07:46:07.10 ]: このような調査が掲載されていました。
『インターネットで個人情報の追跡ビジネスが急成長＝WSJ調査』（下記）
headlines.yahoo.co.jp/hl?a=20100803-00000007-wsj-int
(以下引用）
「本紙が独自に調査を行った結果、インターネットで最も急速に成長している
ビジネスのひとつが、インターネット・ユーザーのスパイ事業であることが判明した。
（中略）
o消費者の追跡は一般に認識されているよりもはるかに広範囲かつ徹底的に行われている
ことが明らかになった。具体的には、以下の点が確認された。
o米国の上位50のウェブサイトが平均して64の追跡テクノロジーを、訪問者のコンピュータ
にインストールしている。ほとんどの場合、警告は行われていない。
追跡テクノロジーは、以前よりも高機能化し、深く入り込むようになっている。これまで
モニター行為には、ユーザーが訪問したウェブサイトを記録する「クッキー」ファイルが使用
されることがほとんどだった。本紙の調査によって、ウェブページ上でのユーザーの行動を
リアルタイムでスキャンし、アクセス場所、所得、買い物の嗜好（しこう）、さらには健康状態
までを即座に算定する新しいツールが使われていることが明らかになった。一部にはユーザーが
削除を試みても後で密かに復活するツールもある。
o　これらの個人情報のプロファイルは、常に更新され、1年半ほど前に誕生した、株式市場の
ような取引所で売買されている。』（以上引用）

ライフログが売買されるようになると、個人情報保護法も無力化しますし、本来の目的も
失われます。下記参照してください。
『ライフログ集合体と個人情報・プライバシー問題（『思考盗聴』とよばれる現象の一種について）』
infowave.at.webry.info/201001/article_2.html

また、警察官や自衛官もプライバシーを無視してよいとは考えていないと判断してよいようです。
『ユビキタス・クラウドコンピューティング時代の情報セキュリティと電波首輪理論』
infowave.at.webry.info/201001/article_1.html
831 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 08:07:14.52 ]: うぜえ
832 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 06:46:42.63 ]: スレに常駐するキチガイさんです
833 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 11:55:55.34 ]: おすすめNGEX

TargetURL=0
TargetURLBody="2ch.net/test/read.cgi/tech/1286200810/"
Name=1
NameBody="デフォルトの名無しさん"
Mail=4
MailBody="^$"
Msg=0
MsgBody="http"
834 名前：【実証】つぶやきだけで個人の特定は可能 [2012/03/21(水) 20:04:08.26 ]: 『つぶやきだけで個人の特定は可能？』URL↓
r25.yahoo.co.jp/fushigi/jikenbo_detail/?id=20120319-00023177-r25&vos=nr25nn0000001
（以下概要）
①お笑いサイトの「オモコロ」が、「つぶやきだけで個人を特定できるのか？」という企画に挑戦！！
　　　　　　　　　　　　　　　　　　　↓
②「渋谷なう」とつぶやいているアカウントを検索し、そのなかからさらに詳しい個人情報をつぶやいているユーザーを追跡。
　　　　　　　　　　　　　　　　　　　↓
③居場所、ファッション、持ち物などから「この人だ！」との確信を持ったら、「○○さん（アカウント名）ですよね？」と声をかける。
　　　　　　　　　　　　　　　　　　　↓
④わずか1時間半で2人のツイッターユーザーを捕捉することに成功！！
835 名前：Twittwr Facebook Mixiと集団ストーカー [2012/03/21(水) 20:05:03.98 ]: 『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について』
infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。

※重要※　「GPSを使った携帯を用いた場合」
携帯で撮った写真を携帯からMixiなどに投稿→写真に位置情報が記載されているので、自宅や職場から写真投稿すると
「職場」や「自宅」という個人情報（固定位置情報）が流出しているのと同じ行為になる。

※重要※　「GPSを使った携帯を用いた場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート（つぶやき）をしてしまう。→「職場」や「自宅」という個人情報（固定位置情報）が流出しているのと同じ行為になる。

※重要※　「TwittwerとFacebookやMixiを連携している場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート（つぶやき）をしてしまう。→「職場」や「自宅」という個人情報（固定位置情報）を流出させているだけで
なく、Facebookを通じてプロフィール等の情報も流出してしまう。
　　　　　　　　↓
　　　　　　　　↓
「集団ストーカー」の原因である個人のライフログ情報（プライバシー情報）流出の大きな
原因となってしまっている。

参考：『ライフログ集合体と個人情報・プライバシー問題（『思考盗聴』とよばれる現象の一種について）』
infowave.at.webry.info/201001/article_2.html

２０１１年９月２０日にも同様の警告がされています。
『スマートフォンで自分の居場所がバレるサービス＆アプリに気を付けろ！』
r25.yahoo.co.jp/fushigi/wxr_detail/?id=20110920-00021515-r25

個人的には現状Facebook Twittwer Mixiはしていません・・・。
836 名前：Facebookに内在する危険性が顕在化している [2012/03/21(水) 20:06:10.75 ]: 『フェイスブック、情報公開に注意…悪用の恐れ』読売新聞 2月25日(土)14時45分配信
headlines.yahoo.co.jp/hl?a=20120225-00000405-yom-sociを参照しました。
（以下一部引用、個人名は＊＊＊＊にしてあります。）
『「初期設定では、個人情報の公開範囲が『すべてのユーザー』となっている項目が多く、知らない間に自分の情報を
世界中にさらしてしまう人もいる」。日本ＩＢＭのシニア・セキュリティ・アナリスト＊＊＊＊さん（３８）はこう警鐘を鳴らす。
＊＊＊＊さん自身も、昨年１２月、過去の投稿や活動状況を簡単に時系列で閲覧できるサービス「タイムライン」を使い始めたところ、
これまで書き込みや写真投稿の際に登録した約５００件の位置情報が地図上に一覧表示されてしまった。「いつ、どこで何をしたか簡単
にチェックできる。滞在回数の多さから自宅や勤務地域が予想できるので、ストーカーに悪用されかねない」海外ではフェイスブックの
情報が、就職前の学生の素行調査や、交際相手の浮気調査に使われたりしているという。「利用者は一度、自分のプライバシー設定を
見直した方がいい」と＊＊＊＊さんは指摘する。「実名や所属、関心事などの様々な情報が入手できるため、特定の個人や組織を狙う標的型
のサイバー攻撃の『下調べ』に使われる恐れがある」と警戒するのは、情報処理推進機構・セキュリティセンターの＊＊＊＊調査役だ。』
（以上引用）

『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について』
infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。

個人的には現状Twitter Facebook Mixiは使用していません。
837 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 14:05:03.30 ]: またかよ
838 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 03:06:23.27 ]: 個人情報を情報量としてとらえれば、全員が互いの個人情報を晒していれば、
その情報が持つ価値なんて、すごく低いはずなんだけど
839 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 08:54:14.38 ]: TもFもmも情弱のツールだろ
840 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 11:06:08.23 ]: 2chやってるやつが言うこっちゃないけどな
841 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 11:26:16.42 ]: 漏れはVC6も現役
842 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 21:27:37.97 ]: shark machine learning libraryですが
ttp://sourceforge.net/projects/shark-project/files/Shark%20Core/Shark%202.3.4/
のwin32.exeをインストールしてvisual studio2010で
使用しようとしてもinternal errorが出ます.
shark.libはきちんと読み込めてるようなのですが.
なんのでしょう?
843 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 23:20:12.53 ]: ttp://shark-project.sourceforge.net/FAQ.html
ここをみるとVSでのtempファイルを削除しろとかサービスパック入れろとか書いてありますが
うまくいきません
844 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 23:29:24.28 ]: 作者に聞けや
845 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 23:57:59.67 ]: すごく今更なのですが>>776は
wikiwiki.jp/cattail/?%CE%E0%BB%F7%C5%D9%A4%C8%B5%F7%CE%A5
のような形で解くものだと自己解決しました。
846 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/09(月) 20:09:15.71 ]: 機械学習や自然言語処理に関する初歩的な質問をするのに適切な場所をご存知でしょうか。

一般的なプログラミングに関する質問なら「はてな人力検索」でかなり適切な回答を頂けるようですが、機械学習のような専門ジャンルとなると厳しい模様です。
実際機械学習に関する質問は10年でたったの4件のみで、しかも回答は「門外漢なのでよくわかりませんが～」といった具合です。

全くの門外漢の文系卒社会人が機械学習を学ぶには独学でコツコツとテキストを読むしか無いのでしょうか。
847 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 02:03:52.71 ]: ここじゃだめなのか？
848 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 02:45:30.87 ]: >>846
大学に行くか独習できる程度に基礎を積むのがいいと思うけど
ヤフー知恵袋だったら答えてくれる人はいるかもね
849 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 17:02:11.86 ]: >>846
英語ができるならQuoraがいいんじゃない？

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef