[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 02/02 00:00 / Filesize : 198 KB / Number-of Response : 850
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【統計分析】機械学習・データマイニング【集合知】



1 名前:デフォルトの名無しさん mailto:sage [2010/10/04(月) 23:00:10 ]
何でもいいので語れ

【関連サイト】
機械学習の「朱鷺の杜Wiki」
ibisforest.org/index.php?FrontPage



792 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 17:13:02.10 ]
>>788
これが正解で他のレスは的外れだと思います。
機械学習とはデータから評価関数を逆算する処理であり、
距離定義が最初から決まっているなら機械学習は不要です。

>>790
質問者が示したデータは座標ではなく文字列で
1,3,4より1,2,9の方が1,2,3に近いのかもしれません。

793 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 17:28:05.64 ]
>>792
残念ながら、正解は>>783-784だ。理由はスレタイに書いてある。


794 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 18:12:50.02 ]
>>792
>array1とarray2の関係は、arrayとarray3よりも「近い」と判断したい
とかしか書いていないので、これが教師データだろ
妄想でデータ作って近いのかもしれないって馬鹿なの?


795 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 19:49:40.14 ]
いや質問者の意図自体が読み取り辛いのだからそこは仕方無いだろ

796 名前:デフォルトの名無しさん mailto:sage [2012/01/22(日) 19:56:38.02 ]
>>793
>>776が評価関数の求め方を質問しているのならそうですね。

>>794
演習問題なら教師データさえ正しく判定できればOKですが、
実用なら「ユークリッド距離」が目的に合うとは限りません。
それを具体的な例で説明しただけです。

797 名前:デフォルトの名無しさん mailto:sage [2012/01/23(月) 00:13:51.39 ]
質問者の意図が読み取りづらいのに正解だの間違いだの言ってるのが間違いで
まず質問者に質問の詳細を問うのが正解です


798 名前:デフォルトの名無しさん mailto:sage [2012/01/23(月) 11:17:17.98 ]
お前らの脳も機械学習しろよ

799 名前:デフォルトの名無しさん mailto:sage [2012/01/23(月) 14:48:12.44 ]
>>797
そこまで肩肘張らなくても

800 名前:デフォルトの名無しさん mailto:sage [2012/01/23(月) 21:52:43.20 ]
この分野の優良企業ないかな?
社会人になっても研究とかしたいし



801 名前:デフォルトの名無しさん mailto:sage [2012/01/23(月) 22:20:20.59 ]
>>800
極めたいならツールベンダーか、コンサル会社じゃないかな。両方兼ね備えてるところが多いけど。
あるいは立場をユーザー企業に向ければもちろん VOCとか、特許とか、様々な技術文書等の
本物のデータがあるよ。 ただ民間は決められた時間内で成果を出さないとならず、学術的な
仕事をするなら研究所をもってる所に行かないと厳しいだろうけどね。研究所とはいえ民間だから
成果の評価順は 製品への展開(技術移管)、特許活動、学会発表の順に低くなる。

802 名前:デフォルトの名無しさん mailto:sage [2012/01/23(月) 23:42:09.66 ]
>>776
近似計算になるけどLSH.

803 名前:デフォルトの名無しさん mailto:sage [2012/01/24(火) 00:49:26.84 ]
>>801
そっか〜やっぱり大学卒業すると厳しそうだね
アドバイスありがとう。

804 名前:デフォルトの名無しさん mailto:sage [2012/01/24(火) 11:32:02.18 ]
>>801
会社の研究所は学校では無いからねぇ
金にならない特許なんて不良資産だし

805 名前:デフォルトの名無しさん mailto:sage [2012/01/26(木) 06:37:55.39 ]
>>776自身が判断するなら、
大量のデータ用意して自分が学習するしかない。
「したい」ということは教師役も自分でやる。

806 名前:デフォルトの名無しさん mailto:sage [2012/02/03(金) 22:19:14.45 ]
ナイーブベイズでテキストフィルタリングをしてるんですが辞書のデータの数が少ないほうに全て判定されてしまいます。
ちゃんと事前確率P(class)も掛け合わせて是正しているんですがP(class|words)の計算で既に差がつきすぎてるようで・・・
何か良い解決策はないでしょうか、よろしくお願いします

807 名前:デフォルトの名無しさん mailto:sage [2012/02/03(金) 22:41:28.32 ]
>>806
P(class|word)じゃなくてP(word|class)だろ?

808 名前:デフォルトの名無しさん mailto:sage [2012/02/04(土) 01:19:37.36 ]
>>807
そうです、訂正ありがとうございます

809 名前:デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:35:21.47 ]
>>806
補集合のやつ(Complement Nyve Bayes)使ってみたら?
2クラス分類なら意味ないけど.

810 名前:デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:49:50.53 ]
対数とってなくてオーバーフローしてるとかではないの





811 名前:デフォルトの名無しさん mailto:sage [2012/02/04(土) 06:04:33.97 ]
add one smoothingって、時々そういうマイノリティ優遇に働くことがあるよな。

812 名前:デフォルトの名無しさん mailto:sage [2012/02/04(土) 06:06:47.89 ]
>>810
それだと丸まって0.0になるから同点になるだけで、
小さなクラスが勝つことはないんじゃ?

813 名前:デフォルトの名無しさん mailto:sage [2012/02/04(土) 12:50:49.86 ]
回答いただいた方ありがとうございます。
今回やっていることは文章から性別を判定させるという事で、
取り合えずデータの数を合わせると納得がいかない方法ですが一応偏った判定はしなくなりました。
>>809
2クラス分類なので使えなさそうですね・・・
でも一度読んでみますありがとう。
>>810
値も常に確認しているのでそれはないと思われます。
一応つたないコードですが間違いがありましたらご指摘いただくと嬉しいです。
codepad.org/BsdTrv9t

814 名前:デフォルトの名無しさん mailto:sage [2012/02/04(土) 21:31:49.62 ]
>>813
add one smoothingで、+len(male) や +len(female)が小さいほうが有利になっている。
v = len(set(male.keys()+femail.keys()))
としておいて、+len(male)や+len(female)を+vに置き換えてみたら?

815 名前:デフォルトの名無しさん mailto:sage [2012/02/05(日) 14:04:54.80 ]
>>814
修正しました、ありがとうございます。
一度データの数が少ない辞書を用意して確認してみます

816 名前:デフォルトの名無しさん mailto:sage [2012/02/06(月) 12:20:00.19 ]
サンプルコードなんだろうけど
wordsでforを二回回してるのが気持ち悪い

817 名前:デフォルトの名無しさん [2012/02/11(土) 19:21:09.78 ]
文系のプログラマなんですが質問です。
Excelファイルのデータクリーニングをしているのですが、名前の入力間違い(仲村と中村など)や入力形式が違う電話番号といったレコードが多く、データの紐づけに手間がかかっています。

機械学習を用いて解決できないでしょうか?

何か参考になるツールやサイトがあれば教えて頂けないでしょうか?

818 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:14:34.38 ]
いやです

819 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:21:15.23 ]
それは機械学習使うとこなんのか?
正規表現使う場面では?

820 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:27:05.12 ]
うんそれは機械学習を魔法の箱かなんかと勘違いしてる
泥臭く正規表現でやれるはず



821 名前:817 mailto:sage [2012/02/11(土) 20:56:39.37 ]
>>820
はい、勘違いしてました。ありがとうございます。


822 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 21:02:52.10 ]
機械学習でも正規表現でも無理。
仲村と中村の正解をどうやってするんだ?
本人の正しい漢字を知らなかったら無理。
紙のカードなどに書き出してデータにミスないか本人に確認して貰うとか手動が確実にいる。
すでに確認済の正しいデータがあればそれ使え。

823 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 21:51:45.60 ]
一方で電話番号はよっぽどのことがない限り置換(数字のみに)で済むと思う

824 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:25:06.29 ]
>>817
そういえば年金記録が損なわれたとき、修復は人手で行ったそうだし、
信頼性が必要ならそうするしかないのでは? 何したかを参考にするなら次のページ。

ja.wikipedia.org/wiki/%E5%B9%B4%E9%87%91%E8%A8%98%E9%8C%B2%E5%95%8F%E9%A1%8C

825 名前:デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:55:22.70 ]
03-0000-0000
03(0000-0000)
0300000000

これを同一判定したいなら泥臭く正規表現でいけるじゃないかな

中村まさお
仲村まさお

萬田次郎
万田次郎

これを同一判定するなら人手でja.wikipedia.org/wiki/%E4%BA%BA%E5%90%8D%E7%94%A8%E6%BC%A2%E5%AD%97みたいな感じのデータを整備してマッピングするしかない
いずれにせよ「機械学習」に対して質問者が抱いているボンヤリとしたブラックボックスにデータを投げて解決する問題では無いと思います

826 名前:デフォルトの名無しさん mailto:sage [2012/02/12(日) 10:59:15.53 ]
古典的な名寄せ処理

827 名前:817 [2012/02/12(日) 11:08:48.17 ]
皆さんありがとうございます。
的外れな質問だったのに、ありがとうございます。

828 名前:デフォルトの名無しさん mailto:sage [2012/02/12(日) 11:27:05.23 ]
下げます。

829 名前:『2ちゃんねる』:海外からのデータマイニング?(2) [2012/02/23(木) 19:50:19.59 ]
>>36>>95に関連してです。

『Wikipedia』の「2ちゃんねる」を参照しました。
(以下一部引用)
『運営:2011年現在、主としてアメリカ合衆国カリフォルニア州
サンフランシスコ365 Main社運営のデータセンターにある、
Pacific Internet Exchange所有スペースにある約60台のサーバ群で運営されている。
OSにはFreeBSDを用い、数年にわたって改良が続けられてきた投稿を受け付ける掲示板システム群
(各ユーザはこれらの入っているサーバにアクセスする)と、各種ロギングや投稿チェック、
そして「実況」と呼ばれる最大で秒間数百以上にのぼる大量投稿を捌く…などの役割を与えられた
バックエンドシステムによって構成されている。』(以上引用)

>>95に関連して、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
infowave.at.webry.info/201010/article_2.html

盗聴法改正案が2011年に提出され、もし成立していれば、基本的に米国のインターネット・サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

さて、ひろゆき氏がトラブル回避のために『2ちゃんねる』サーバーを手放したことは
日本国内『2ちゃんねる』ユーザーにとっていい影響がでているのか、それとも・・・?





830 名前:インターネットで個人情報の追跡ビジネスが急成長=WSJ調査 [2012/02/24(金) 07:46:07.10 ]
このような調査が掲載されていました。
『インターネットで個人情報の追跡ビジネスが急成長=WSJ調査』(下記)
headlines.yahoo.co.jp/hl?a=20100803-00000007-wsj-int
(以下引用)
「本紙が独自に調査を行った結果、インターネットで最も急速に成長している
ビジネスのひとつが、インターネット・ユーザーのスパイ事業であることが判明した。
(中略)
o消費者の追跡は一般に認識されているよりもはるかに広範囲かつ徹底的に行われている
ことが明らかになった。具体的には、以下の点が確認された。
o米国の上位50のウェブサイトが平均して64の追跡テクノロジーを、訪問者のコンピュータ
にインストールしている。ほとんどの場合、警告は行われていない。
追跡テクノロジーは、以前よりも高機能化し、深く入り込むようになっている。これまで
モニター行為には、ユーザーが訪問したウェブサイトを記録する「クッキー」ファイルが使用
されることがほとんどだった。本紙の調査によって、ウェブページ上でのユーザーの行動を
リアルタイムでスキャンし、アクセス場所、所得、買い物の嗜好(しこう)、さらには健康状態
までを即座に算定する新しいツールが使われていることが明らかになった。一部にはユーザーが
削除を試みても後で密かに復活するツールもある。
o これらの個人情報のプロファイルは、常に更新され、1年半ほど前に誕生した、株式市場の
ような取引所で売買されている。』(以上引用)

ライフログが売買されるようになると、個人情報保護法も無力化しますし、本来の目的も
失われます。下記参照してください。
『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
infowave.at.webry.info/201001/article_2.html

また、警察官や自衛官もプライバシーを無視してよいとは考えていないと判断してよいようです。
『ユビキタス・クラウドコンピューティング時代の情報セキュリティと電波首輪理論』
infowave.at.webry.info/201001/article_1.html





831 名前:デフォルトの名無しさん mailto:sage [2012/02/24(金) 08:07:14.52 ]
うぜえ

832 名前:デフォルトの名無しさん mailto:sage [2012/02/25(土) 06:46:42.63 ]
スレに常駐するキチガイさんです

833 名前:デフォルトの名無しさん mailto:sage [2012/02/25(土) 11:55:55.34 ]
おすすめNGEX

TargetURL=0
TargetURLBody="2ch.net/test/read.cgi/tech/1286200810/"
Name=1
NameBody="デフォルトの名無しさん"
Mail=4
MailBody="^$"
Msg=0
MsgBody="http"

834 名前:【実証】つぶやきだけで個人の特定は可能 [2012/03/21(水) 20:04:08.26 ]
『つぶやきだけで個人の特定は可能?』URL↓
r25.yahoo.co.jp/fushigi/jikenbo_detail/?id=20120319-00023177-r25&vos=nr25nn0000001
(以下概要)
@お笑いサイトの「オモコロ」が、「つぶやきだけで個人を特定できるのか?」という企画に挑戦!!
                   ↓
A「渋谷なう」とつぶやいているアカウントを検索し、そのなかからさらに詳しい個人情報をつぶやいているユーザーを追跡。
                   ↓
B居場所、ファッション、持ち物などから「この人だ!」との確信を持ったら、「○○さん(アカウント名)ですよね?」と声をかける。
                   ↓
Cわずか1時間半で2人のツイッターユーザーを捕捉することに成功!!



835 名前:Twittwr Facebook Mixiと集団ストーカー [2012/03/21(水) 20:05:03.98 ]
『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について 』
infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。

※重要※ 「GPSを使った携帯を用いた場合」
携帯で撮った写真を携帯からMixiなどに投稿→写真に位置情報が記載されているので、自宅や職場から写真投稿すると
「職場」や「自宅」という個人情報(固定位置情報)が流出しているのと同じ行為になる。

※重要※ 「GPSを使った携帯を用いた場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート(つぶやき)をしてしまう。→「職場」や「自宅」という個人情報(固定位置情報)が流出しているのと同じ行為になる。

※重要※ 「TwittwerとFacebookやMixiを連携している場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート(つぶやき)をしてしまう。→「職場」や「自宅」という個人情報(固定位置情報)を流出させているだけで
なく、Facebookを通じてプロフィール等の情報も流出してしまう。
        ↓
        ↓
「集団ストーカー」の原因である個人のライフログ情報(プライバシー情報)流出の大きな
原因となってしまっている。

参考:『ライフログ集合体と個人情報・プライバシー問題(『思考盗聴』とよばれる現象の一種について)』
infowave.at.webry.info/201001/article_2.html

2011年9月20日にも同様の警告がされています。
『スマートフォンで自分の居場所がバレるサービス&アプリに気を付けろ!』
r25.yahoo.co.jp/fushigi/wxr_detail/?id=20110920-00021515-r25

個人的には現状Facebook Twittwer Mixiはしていません・・・。




836 名前:Facebookに内在する危険性が顕在化している [2012/03/21(水) 20:06:10.75 ]
『フェイスブック、情報公開に注意…悪用の恐れ』読売新聞 2月25日(土)14時45分配信
headlines.yahoo.co.jp/hl?a=20120225-00000405-yom-sociを参照しました。
(以下一部引用、個人名は****にしてあります。)
『「初期設定では、個人情報の公開範囲が『すべてのユーザー』となっている項目が多く、知らない間に自分の情報を
世界中にさらしてしまう人もいる」。日本IBMのシニア・セキュリティ・アナリスト****さん(38)はこう警鐘を鳴らす。
****さん自身も、昨年12月、過去の投稿や活動状況を簡単に時系列で閲覧できるサービス「タイムライン」を使い始めたところ、
これまで書き込みや写真投稿の際に登録した約500件の位置情報が地図上に一覧表示されてしまった。「いつ、どこで何をしたか簡単
にチェックできる。滞在回数の多さから自宅や勤務地域が予想できるので、ストーカーに悪用されかねない」海外ではフェイスブックの
情報が、就職前の学生の素行調査や、交際相手の浮気調査に使われたりしているという。「利用者は一度、自分のプライバシー設定を
見直した方がいい」と****さんは指摘する。「実名や所属、関心事などの様々な情報が入手できるため、特定の個人や組織を狙う標的型
のサイバー攻撃の『下調べ』に使われる恐れがある」と警戒するのは、情報処理推進機構・セキュリティセンターの****調査役だ。』
(以上引用)

『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について 』
infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。

個人的には現状Twitter Facebook Mixiは使用していません。



837 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 14:05:03.30 ]
またかよ

838 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 03:06:23.27 ]
個人情報を情報量としてとらえれば、全員が互いの個人情報を晒していれば、
その情報が持つ価値なんて、すごく低いはずなんだけど

839 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 08:54:14.38 ]
TもFもmも情弱のツールだろ

840 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 11:06:08.23 ]
2chやってるやつが言うこっちゃないけどな



841 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 11:26:16.42 ]
漏れはVC6も現役

842 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 21:27:37.97 ]
shark machine learning libraryですが
ttp://sourceforge.net/projects/shark-project/files/Shark%20Core/Shark%202.3.4/
のwin32.exeをインストールしてvisual studio2010で
使用しようとしてもinternal errorが出ます.
shark.libはきちんと読み込めてるようなのですが.
なんのでしょう?

843 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 23:20:12.53 ]
ttp://shark-project.sourceforge.net/FAQ.html
ここをみるとVSでのtempファイルを削除しろとかサービスパック入れろとか書いてありますが
うまくいきません

844 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 23:29:24.28 ]
作者に聞けや


845 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 23:57:59.67 ]
すごく今更なのですが>>776
wikiwiki.jp/cattail/?%CE%E0%BB%F7%C5%D9%A4%C8%B5%F7%CE%A5
のような形で解くものだと自己解決しました。

846 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/09(月) 20:09:15.71 ]
機械学習や自然言語処理に関する初歩的な質問をするのに適切な場所をご存知でしょうか。

一般的なプログラミングに関する質問なら「はてな人力検索」でかなり適切な回答を頂けるようですが、機械学習のような専門ジャンルとなると厳しい模様です。
実際機械学習に関する質問は10年でたったの4件のみで、しかも回答は「門外漢なのでよくわかりませんが〜」といった具合です。

全くの門外漢の文系卒社会人が機械学習を学ぶには独学でコツコツとテキストを読むしか無いのでしょうか。

847 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 02:03:52.71 ]
ここじゃだめなのか?

848 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 02:45:30.87 ]
>>846
大学に行くか独習できる程度に基礎を積むのがいいと思うけど
ヤフー知恵袋だったら答えてくれる人はいるかもね


849 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 17:02:11.86 ]
>>846
英語ができるならQuoraがいいんじゃない?






[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<198KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef