【統計分析】機械学習・データマイニング【集合知】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 02/02 00:00 / Filesize : 198 KB / Number-of Response : 850
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2010/10/04(月) 23:00:10 ]: 何でもいいので語れ

【関連サイト】
機械学習の「朱鷺の杜Wiki」
ibisforest.org/index.php?FrontPage
809 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:35:21.47 ]: >>806
補集合のやつ（Complement Nyve Bayes)使ってみたら？
2クラス分類なら意味ないけど．
810 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 02:49:50.53 ]: 対数とってなくてオーバーフローしてるとかではないの
811 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 06:04:33.97 ]: add one smoothingって、時々そういうマイノリティ優遇に働くことがあるよな。
812 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 06:06:47.89 ]: >>810
それだと丸まって0.0になるから同点になるだけで、
小さなクラスが勝つことはないんじゃ？
813 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 12:50:49.86 ]: 回答いただいた方ありがとうございます。
今回やっていることは文章から性別を判定させるという事で、
取り合えずデータの数を合わせると納得がいかない方法ですが一応偏った判定はしなくなりました。
>>809
２クラス分類なので使えなさそうですね・・・
でも一度読んでみますありがとう。
>>810
値も常に確認しているのでそれはないと思われます。
一応つたないコードですが間違いがありましたらご指摘いただくと嬉しいです。
codepad.org/BsdTrv9t
814 名前：デフォルトの名無しさん mailto:sage [2012/02/04(土) 21:31:49.62 ]: >>813
add one smoothingで、+len(male) や +len(female)が小さいほうが有利になっている。
v = len(set(male.keys()+femail.keys()))
としておいて、+len(male)や+len(female)を+vに置き換えてみたら？
815 名前：デフォルトの名無しさん mailto:sage [2012/02/05(日) 14:04:54.80 ]: >>814
修正しました、ありがとうございます。
一度データの数が少ない辞書を用意して確認してみます
816 名前：デフォルトの名無しさん mailto:sage [2012/02/06(月) 12:20:00.19 ]: サンプルコードなんだろうけど
wordsでforを二回回してるのが気持ち悪い
817 名前：デフォルトの名無しさん [2012/02/11(土) 19:21:09.78 ]: 文系のプログラマなんですが質問です。
Excelファイルのデータクリーニングをしているのですが、名前の入力間違い(仲村と中村など)や入力形式が違う電話番号といったレコードが多く、データの紐づけに手間がかかっています。

機械学習を用いて解決できないでしょうか？

何か参考になるツールやサイトがあれば教えて頂けないでしょうか？
818 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:14:34.38 ]: いやです
819 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:21:15.23 ]: それは機械学習使うとこなんのか？
正規表現使う場面では？
820 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 20:27:05.12 ]: うんそれは機械学習を魔法の箱かなんかと勘違いしてる
泥臭く正規表現でやれるはず
821 名前：817 mailto:sage [2012/02/11(土) 20:56:39.37 ]: >>820
はい、勘違いしてました。ありがとうございます。
822 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 21:02:52.10 ]: 機械学習でも正規表現でも無理。
仲村と中村の正解をどうやってするんだ?
本人の正しい漢字を知らなかったら無理。
紙のカードなどに書き出してデータにミスないか本人に確認して貰うとか手動が確実にいる。
すでに確認済の正しいデータがあればそれ使え。
823 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 21:51:45.60 ]: 一方で電話番号はよっぽどのことがない限り置換（数字のみに）で済むと思う
824 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:25:06.29 ]: >>817
そういえば年金記録が損なわれたとき、修復は人手で行ったそうだし、
信頼性が必要ならそうするしかないのでは？何したかを参考にするなら次のページ。

ja.wikipedia.org/wiki/%E5%B9%B4%E9%87%91%E8%A8%98%E9%8C%B2%E5%95%8F%E9%A1%8C
825 名前：デフォルトの名無しさん mailto:sage [2012/02/11(土) 22:55:22.70 ]: 03-0000-0000
03(0000-0000)
0300000000

これを同一判定したいなら泥臭く正規表現でいけるじゃないかな

中村まさお
仲村まさお

萬田次郎
万田次郎

これを同一判定するなら人手でja.wikipedia.org/wiki/%E4%BA%BA%E5%90%8D%E7%94%A8%E6%BC%A2%E5%AD%97みたいな感じのデータを整備してマッピングするしかない
いずれにせよ「機械学習」に対して質問者が抱いているボンヤリとしたブラックボックスにデータを投げて解決する問題では無いと思います
826 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 10:59:15.53 ]: 古典的な名寄せ処理
827 名前：817 [2012/02/12(日) 11:08:48.17 ]: 皆さんありがとうございます。
的外れな質問だったのに、ありがとうございます。
828 名前：デフォルトの名無しさん mailto:sage [2012/02/12(日) 11:27:05.23 ]: 下げます。
829 名前：『２ちゃんねる』：海外からのデータマイニング？(2) [2012/02/23(木) 19:50:19.59 ]: >>36、>>95に関連してです。

『Wikipedia』の「２ちゃんねる」を参照しました。
（以下一部引用）
『運営：2011年現在、主としてアメリカ合衆国カリフォルニア州
サンフランシスコ365 Main社運営のデータセンターにある、
Pacific Internet Exchange所有スペースにある約60台のサーバ群で運営されている。
OSにはFreeBSDを用い、数年にわたって改良が続けられてきた投稿を受け付ける掲示板システム群
（各ユーザはこれらの入っているサーバにアクセスする）と、各種ロギングや投稿チェック、
そして「実況」と呼ばれる最大で秒間数百以上にのぼる大量投稿を捌く…などの役割を与えられた
バックエンドシステムによって構成されている。』（以上引用）

>>95に関連して、下記を参照してください。
『アメリカ経由の通信情報ローンダリング手法』の確立可能性と傍聴法の無力化』
infowave.at.webry.info/201010/article_2.html

盗聴法改正案が２０１１年に提出され、もし成立していれば、基本的に米国のインターネット･サービス
を利用するユーザーは、国の区別なしに米公安機関による通信傍受の対象となる。これは
意外な落とし穴となるだろう。たとえば、東京から大阪までスカイプで電話をした場合、
もしその通話が米国の管理サーバーを経由していれば、理論上、米国公安当局は傍受をできる
ことになる。同様に、日本の知人や友人同士が楽しくフェースブックで交流していても、
そのメールやアップロードした写真、書き残したメモなどが米国のサーバーにある限り、
米国の公安当局が傍受あるいは閲覧することができるようになる。

さて、ひろゆき氏がトラブル回避のために『２ちゃんねる』サーバーを手放したことは
日本国内『２ちゃんねる』ユーザーにとっていい影響がでているのか、それとも・・・？
830 名前：インターネットで個人情報の追跡ビジネスが急成長＝WSJ調査 [2012/02/24(金) 07:46:07.10 ]: このような調査が掲載されていました。
『インターネットで個人情報の追跡ビジネスが急成長＝WSJ調査』（下記）
headlines.yahoo.co.jp/hl?a=20100803-00000007-wsj-int
(以下引用）
「本紙が独自に調査を行った結果、インターネットで最も急速に成長している
ビジネスのひとつが、インターネット・ユーザーのスパイ事業であることが判明した。
（中略）
o消費者の追跡は一般に認識されているよりもはるかに広範囲かつ徹底的に行われている
ことが明らかになった。具体的には、以下の点が確認された。
o米国の上位50のウェブサイトが平均して64の追跡テクノロジーを、訪問者のコンピュータ
にインストールしている。ほとんどの場合、警告は行われていない。
追跡テクノロジーは、以前よりも高機能化し、深く入り込むようになっている。これまで
モニター行為には、ユーザーが訪問したウェブサイトを記録する「クッキー」ファイルが使用
されることがほとんどだった。本紙の調査によって、ウェブページ上でのユーザーの行動を
リアルタイムでスキャンし、アクセス場所、所得、買い物の嗜好（しこう）、さらには健康状態
までを即座に算定する新しいツールが使われていることが明らかになった。一部にはユーザーが
削除を試みても後で密かに復活するツールもある。
o　これらの個人情報のプロファイルは、常に更新され、1年半ほど前に誕生した、株式市場の
ような取引所で売買されている。』（以上引用）

ライフログが売買されるようになると、個人情報保護法も無力化しますし、本来の目的も
失われます。下記参照してください。
『ライフログ集合体と個人情報・プライバシー問題（『思考盗聴』とよばれる現象の一種について）』
infowave.at.webry.info/201001/article_2.html

また、警察官や自衛官もプライバシーを無視してよいとは考えていないと判断してよいようです。
『ユビキタス・クラウドコンピューティング時代の情報セキュリティと電波首輪理論』
infowave.at.webry.info/201001/article_1.html
831 名前：デフォルトの名無しさん mailto:sage [2012/02/24(金) 08:07:14.52 ]: うぜえ
832 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 06:46:42.63 ]: スレに常駐するキチガイさんです
833 名前：デフォルトの名無しさん mailto:sage [2012/02/25(土) 11:55:55.34 ]: おすすめNGEX

TargetURL=0
TargetURLBody="2ch.net/test/read.cgi/tech/1286200810/"
Name=1
NameBody="デフォルトの名無しさん"
Mail=4
MailBody="^$"
Msg=0
MsgBody="http"
834 名前：【実証】つぶやきだけで個人の特定は可能 [2012/03/21(水) 20:04:08.26 ]: 『つぶやきだけで個人の特定は可能？』URL↓
r25.yahoo.co.jp/fushigi/jikenbo_detail/?id=20120319-00023177-r25&vos=nr25nn0000001
（以下概要）
①お笑いサイトの「オモコロ」が、「つぶやきだけで個人を特定できるのか？」という企画に挑戦！！
　　　　　　　　　　　　　　　　　　　↓
②「渋谷なう」とつぶやいているアカウントを検索し、そのなかからさらに詳しい個人情報をつぶやいているユーザーを追跡。
　　　　　　　　　　　　　　　　　　　↓
③居場所、ファッション、持ち物などから「この人だ！」との確信を持ったら、「○○さん（アカウント名）ですよね？」と声をかける。
　　　　　　　　　　　　　　　　　　　↓
④わずか1時間半で2人のツイッターユーザーを捕捉することに成功！！
835 名前：Twittwr Facebook Mixiと集団ストーカー [2012/03/21(水) 20:05:03.98 ]: 『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について』
infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。

※重要※　「GPSを使った携帯を用いた場合」
携帯で撮った写真を携帯からMixiなどに投稿→写真に位置情報が記載されているので、自宅や職場から写真投稿すると
「職場」や「自宅」という個人情報（固定位置情報）が流出しているのと同じ行為になる。

※重要※　「GPSを使った携帯を用いた場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート（つぶやき）をしてしまう。→「職場」や「自宅」という個人情報（固定位置情報）が流出しているのと同じ行為になる。

※重要※　「TwittwerとFacebookやMixiを連携している場合」
Twittwerで自宅や職場から「自宅なう」とか「職場なう」とツイートしたり、それに類似する自宅や職場にいる内容の
ツイート（つぶやき）をしてしまう。→「職場」や「自宅」という個人情報（固定位置情報）を流出させているだけで
なく、Facebookを通じてプロフィール等の情報も流出してしまう。
　　　　　　　　↓
　　　　　　　　↓
「集団ストーカー」の原因である個人のライフログ情報（プライバシー情報）流出の大きな
原因となってしまっている。

参考：『ライフログ集合体と個人情報・プライバシー問題（『思考盗聴』とよばれる現象の一種について）』
infowave.at.webry.info/201001/article_2.html

２０１１年９月２０日にも同様の警告がされています。
『スマートフォンで自分の居場所がバレるサービス＆アプリに気を付けろ！』
r25.yahoo.co.jp/fushigi/wxr_detail/?id=20110920-00021515-r25

個人的には現状Facebook Twittwer Mixiはしていません・・・。
836 名前：Facebookに内在する危険性が顕在化している [2012/03/21(水) 20:06:10.75 ]: 『フェイスブック、情報公開に注意…悪用の恐れ』読売新聞 2月25日(土)14時45分配信
headlines.yahoo.co.jp/hl?a=20120225-00000405-yom-sociを参照しました。
（以下一部引用、個人名は＊＊＊＊にしてあります。）
『「初期設定では、個人情報の公開範囲が『すべてのユーザー』となっている項目が多く、知らない間に自分の情報を
世界中にさらしてしまう人もいる」。日本ＩＢＭのシニア・セキュリティ・アナリスト＊＊＊＊さん（３８）はこう警鐘を鳴らす。
＊＊＊＊さん自身も、昨年１２月、過去の投稿や活動状況を簡単に時系列で閲覧できるサービス「タイムライン」を使い始めたところ、
これまで書き込みや写真投稿の際に登録した約５００件の位置情報が地図上に一覧表示されてしまった。「いつ、どこで何をしたか簡単
にチェックできる。滞在回数の多さから自宅や勤務地域が予想できるので、ストーカーに悪用されかねない」海外ではフェイスブックの
情報が、就職前の学生の素行調査や、交際相手の浮気調査に使われたりしているという。「利用者は一度、自分のプライバシー設定を
見直した方がいい」と＊＊＊＊さんは指摘する。「実名や所属、関心事などの様々な情報が入手できるため、特定の個人や組織を狙う標的型
のサイバー攻撃の『下調べ』に使われる恐れがある」と警戒するのは、情報処理推進機構・セキュリティセンターの＊＊＊＊調査役だ。』
（以上引用）

『位置情報とソーシャルネットワーキングサービスを利用したストーキングの実例と個人情報漏洩の流出について』
infowave.at.webry.info/201108/article_1.htmlの参照おねがいします。

個人的には現状Twitter Facebook Mixiは使用していません。
837 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 14:05:03.30 ]: またかよ
838 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 03:06:23.27 ]: 個人情報を情報量としてとらえれば、全員が互いの個人情報を晒していれば、
その情報が持つ価値なんて、すごく低いはずなんだけど
839 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 08:54:14.38 ]: TもFもmも情弱のツールだろ
840 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 11:06:08.23 ]: 2chやってるやつが言うこっちゃないけどな
841 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 11:26:16.42 ]: 漏れはVC6も現役
842 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 21:27:37.97 ]: shark machine learning libraryですが
ttp://sourceforge.net/projects/shark-project/files/Shark%20Core/Shark%202.3.4/
のwin32.exeをインストールしてvisual studio2010で
使用しようとしてもinternal errorが出ます.
shark.libはきちんと読み込めてるようなのですが.
なんのでしょう?
843 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 23:20:12.53 ]: ttp://shark-project.sourceforge.net/FAQ.html
ここをみるとVSでのtempファイルを削除しろとかサービスパック入れろとか書いてありますが
うまくいきません
844 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 23:29:24.28 ]: 作者に聞けや
845 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 23:57:59.67 ]: すごく今更なのですが>>776は
wikiwiki.jp/cattail/?%CE%E0%BB%F7%C5%D9%A4%C8%B5%F7%CE%A5
のような形で解くものだと自己解決しました。
846 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/09(月) 20:09:15.71 ]: 機械学習や自然言語処理に関する初歩的な質問をするのに適切な場所をご存知でしょうか。

一般的なプログラミングに関する質問なら「はてな人力検索」でかなり適切な回答を頂けるようですが、機械学習のような専門ジャンルとなると厳しい模様です。
実際機械学習に関する質問は10年でたったの4件のみで、しかも回答は「門外漢なのでよくわかりませんが～」といった具合です。

全くの門外漢の文系卒社会人が機械学習を学ぶには独学でコツコツとテキストを読むしか無いのでしょうか。
847 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 02:03:52.71 ]: ここじゃだめなのか？
848 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 02:45:30.87 ]: >>846
大学に行くか独習できる程度に基礎を積むのがいいと思うけど
ヤフー知恵袋だったら答えてくれる人はいるかもね
849 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 17:02:11.86 ]: >>846
英語ができるならQuoraがいいんじゃない？

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef