【統計分析】機械学習・データマイニング12

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2ch.scのread.cgiへ]
Update time : 04/12 02:26 / Filesize : 244 KB / Number-of Response : 1022
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sageteoff [2017/01/21(土) 23:26:48.63 ID:nFM+9kDb.net]: 機械学習とデータマイニングについて何でもいいので語れ
人工知能考察は未来技術板の技術的特異点スレで語れ

■関連サイト
機械学習の「朱鷺の杜Wiki」
ibisforest.org/
DeepLearning研究 2016年のまとめ
qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング11
echo.2ch.net/test/read.cgi/tech/1482227795/
175 名前：デフォルトの名無しさん mailto:sage [2017/01/26(木) 22:48:13.87 ID:gfpPy35K.net]: >>170
あの本は著者の講義の副読本だから
厳密なことは書いてない
176 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 01:18:06.74 ID:sVTHVTwX.net]: 機械学習に数学はいらない
177 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 01:33:13.62 ID:3pui5nOJ.net]: 実際そういう人は実務で機械学習やってる人の中にゴロゴロしてるだろうな
178 名前：デフォルトの名無しさん [2017/01/27(金) 05:37:36.14 ID:QjYJmuyM.net]: 数学で演繹的にアルゴリズムを構築できるの？
できないでしょ
179 名前：デフォルトの名無しさん [2017/01/27(金) 05:41:52.26 ID:QjYJmuyM.net]: >>168
これNICTのエンジンで所？
ゴミっぽい
180 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 06:47:38.19 ID:sOrVpnzk.net]: >>174
ちゃんと演繹的に構築された機械学習アルゴリズムなんかいくらでもあるがな
181 名前：デフォルトの名無しさん [2017/01/27(金) 07:16:24.11 ID:H9uRlrvM.net]: 現状
人工知能（実際は無能）→目的の為にパターンを学習→有力な結果を表示

理想図
人工知能→目的の為にパターンを学習→有力な結果を表示→溜まった結果を踏まえて自身を書き直す
以下ループ
182 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 07:41:28.61 ID:P3UmSpp+.net]: >>177
学習自体が自分を書き直す事じゃね？
隠れ層の要素数を増減させるくらいはすぐ出来そう
その他のハイパーパラメータも変化させるのはできるだろうし
183 名前：デフォルトの名無しさん [2017/01/27(金) 08:09:36.47 ID:H9uRlrvM.net]: >>178
学習自体はデータ量の増大（蓄積）だと思ってる。
（データ量と反応パターンが増える）

自身を書き直すとは、単純に書くと、
最初はネストしないif文とfor文連打から、ネストする
if文とfoo文にする（自身を書き直す）

これにより、既存データ量の減少（不要なデータの破棄）や
もっと、複雑になって行く。かんじ？

難しいな、
データ量の増大→評価されたデータから有力なデータを出力して、
評価上位結果だけが残る→低評価データの破棄（次の学習で学習しない様にする工夫が必要）

思ったより、説明するのが難しい。
分かり難いと思う。
184 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 08:23:25.27 ID:IY0OOPBk.net]: >>179
kNNでいうと、代表的な点の付近にある冗長な値や明らかな外れ値を優先的に削除していくとか?
うまいことバランスよく削除対象を選択できる評価関数さえあれば比較的簡単に継続的に運用できそうだけど、そういう研究あるのかな
185 名前：デフォルトの名無しさん [2017/01/27(金) 08:38:25.95 ID:H9uRlrvM.net]: 普通の評価関数（他人のだけど）
data.gunosy.io/entry/2016/08/05/115345

削除対象を選択は難しい。
有効な出力を残そうとして、評価項目の設定を変えて行くと、帰ってデータ量が多くなる。
5項目なら100,100.100,100,100次に100,100,100,100.99+(トータル値)

上記見たいに、精度を上げる段階で膨大に増えるかも知れない
186 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 12:57:23.69 ID:P3UmSpp+.net]: >>179
実現する手段が違うけど
外から見たら同じじゃね？

自動的に出力が改善されていくんだから
187 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 15:53:14.85 ID:IlNtMqM2.net]: そういう話だったら、強化学習でハイパーパラメーターを調整していく方法をGoogleはやってるみたいよ
計算資源がクソかかるみたいだけど
188 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 15:56:08.79 ID:IlNtMqM2.net]: googleのとは別だけどこんなんもあるね
techon.nikkeibp.co.jp/atcl/news/16/012405925/?ST=SP
189 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 21:10:35.78 ID:Ftuc5Z8r.net]: chainer最強だな
tensorflowでかなり時間がかかる処理を4時間で終わる神アップデート入ってる
もうtensorflowをオワコンだな
190 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 21:15:17.54 ID:oKibH99X.net]: すげーーーー。
tensorflow使うわ。
191 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 21:32:14.65 ID:amAo/3dT.net]: >>185
PFNの深層学習フレームワーク「Chainer」が大幅な高速化へ、分散処理に対応
itpro.nikkeibp.co.jp/atcl/news/17/012700269/
>PFNの西川社長はChainerの性能が高くなった理由について、
>「分散処理の仕組みとして『MPI』を採用し、
>　ノード間通信では『InfiniBand』に最適化したため」と説明する。

Message Passing Interface
https://ja.wikipedia.org/wiki/Message_Passing_Interface

分散バージョンのChainerがAWSで効率的に動くなら当分はユーザーが増えるだろう。
でも他のフレームワークもMPIを採用できるからオワコンはない。
192 名前：デフォルトの名無しさん [2017/01/27(金) 21:47:10.78 ID:OMtiIkq3.net]: 分散処理なんてtensorflowに前からついてるじゃないか
193 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 22:26:20.65 ID:sOrVpnzk.net]: 機械学習って比較的大きな粒度で並列化しやすいからそんなに厳密に同期しなくていいしデータもでかいから、
MPIなんかに拘るよりもっと緩い制御の方が向いてると思うけどね
いかにも学者崩れのオナニーって感じがする
194 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 22:51:50.76 ID:K7nE30F2.net]: tensorflowが遅いのは確か
つかリンク先に速度比較乗ってる
195 名前：デフォルトの名無しさん [2017/01/27(金) 22:59:58.43 ID:OMtiIkq3.net]: じゃあすぐにtensorflowが高速化してしまうだろうな
引き続き頑張ってくれ
196 名前：デフォルトの名無しさん mailto:sage [2017/01/27(金) 23:20:17.07 ID:K7nE30F2.net]: なんでそんな喧嘩腰なんだろう
197 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 00:05:01.04 ID:e1/iMbc/.net]: オッパイそれは宇宙の理
198 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 01:07:39.43 ID:pTPUb4iL.net]: 今更 chainer なんか使うかよw
199 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 01:12:19.60 ID:lAN98u4l.net]: >>192
恣意的なデータセットによるいい加減な速度比較を信じる奴がいるからじゃないか？w
200 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 01:15:54.59 ID:+BLLOypB.net]: 速度気になるならC++で書けばいい
高速な行列演算ライブラリもあるし最適化も優秀なコンパイラがいっぱいある
201 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 01:20:16.41 ID:mVogE1ql.net]: TF の後追いで playground やら分散やるのもいいけど、日本語ドキュメントを作ればいいのにな
どうせ日本人ユーザしかおらんのだから
202 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 02:09:27.10 ID:BCr/Oho6.net]: >>187
さくらインターネット、演算に特化した「高火力コンピューティング」への取り組みを開始
～Infiniband接続による大規模なGPUクラスタをPreferred Networks社と共同構築～
https://www.sakura.ad.jp/press/2016/0126_gpu/

『InfiniBand』に最適化ということはさくらのGPUクラスタでテストしたのだろう。
さくらのGPUクラスタでChainerの性能がTensorFlowの5倍以上なら
2017年は「さくらでChainer」が流行るかもしれない。
203 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 02:14:53.95 ID:BCr/Oho6.net]: >>195
Deep Learning framework速度比較
mscorpmedia.azureedge.net/mscorpmedia/2016/01/cntk-speed-comparison.png
https://qiita-image-store.s3.amazonaws.com/0/38290/bb09ac09-70a7-db38-b153-286ddf34cc36.png
Distributed TensorFlowの話
qiita.com/kazunori279/items/981a8a2a44f5d1172856

TensorFlowが遅い事は以前から指摘されていた。
そしてGoogle以外はGoogleのJupiterネットワークを使えない。
204 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 02:23:03.60 ID:mVogE1ql.net]: >>199
一年前の記事を持ってくるな wwwww
205 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 02:29:29.55 ID:lAN98u4l.net]: >>198
何だかなぁ。５倍以上というけど、Chainer 以外のフレームワークのコードが
32ノード/128GPU に最適化されているとはとても思えないんだが？
あと、さくらのクラスタは 32ノード/128GPU でお幾らなの？初期化コストも含めてな。現実的なの？

>>199
TensorFlow はマイナーバージョンアップ毎に高速化してるよ。
206 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 02:36:15.45 ID:pTPUb4iL.net]: chainerユーザが増えないのは速度の問題じゃないんだがな…
207 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 03:07:12.49 ID:0PzyDmFt.net]: ぶっちゃけフレームワーク戦争なんて大した学習コストも無いしどうでも良い
むしろユーザーとしては、競合が多い方が専制的にならないから嬉しい
208 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 03:07:37.27 ID:e1/iMbc/.net]: >>197
マジでこれなw足元をおざなりにする馬鹿って感じ
209 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 03:30:48.92 ID:BCr/Oho6.net]: >>201
さくらが大量演算向け「高火力」サーバ正式提供開始、時間課金も
ascii.jp/elem/000/001/241/1241091/
>来年3月には現在の月額課金制に加えて時間課金制も提供開始する予定。

「さくらの専用サーバ高火力シリーズ」の料金表
ascii.jp/elem/000/001/241/1241088/160930_Sakura_02_700x447.jpg
Quad GPUの1時間あたりの利用料金が267円だから、
32ノード/128GPUだと1時間あたりの利用料金は267 × 32 = 8224円だね。
時間課金の初期費用が明確になるのは今年3月かな。
210 名前：デフォルトの名無しさん [2017/01/28(土) 05:06:27.19 ID:4gnc6irW.net]: え、735,000円じゃないの？
初期費用
211 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 06:15:45.16 ID:IJ6CDSDI.net]: >>199
フレームってなんの単位なの？
212 名前：デフォルトの名無しさん [2017/01/28(土) 06:40:24.77 ID:4gnc6irW.net]: PFNとPFIって同じなの？
213 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 08:31:27.88 ID:BCr/Oho6.net]: GCPは8GPUまで分単位の課金で気軽に使えるようになるはずだけど、
それにしてもいつからGPUが利用可能になるのだろうか。

Graphics Processing Unit (GPU) | Google Cloud Platform
https://cloud.google.com/gpu/
クラウド GPU が 2017 年から利用可能に
https://cloudplatform-jp.googleblog.com/2016/11/gpu-2017.html
>NVIDIA Tesla P100 および K80 GPU も提供します。
>仮想マシン（VM）インスタンスごとに最大 8 GPU のダイを接続できます。
>Google Cloud の VM と同様に、GPU の料金は分単位で課金され、
214 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 08:57:40.55 ID:CMqXCA8h.net]: >>197
>>204
母国語で読めるというのは高いアベレージなのにね。
それにユーザーのメモ帳のようなブログ記事に任せずに
公式本や資料を充実させればいいのに。
もしくは相手がやっていないJavaやC/C++版も充実させるとか。

あそこは初学者でも何でも積極的に広めようというより
いいのを作れば意識高い人が使って自然に広まるという考えなんだろうけど。
閉じた研究グループ活動ならともかく商売なのに下手なやり方よね。
215 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 09:04:24.28 ID:bB5QxUSC.net]: 速度比較って意味あるのか?
コーディングのうまさに強烈に依存してるだけだろ
216 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 10:12:09.35 ID:0PzyDmFt.net]: chainerアンチくんそろそろ自演はやめよう
217 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 14:33:19.45 ID:BCeOr5Jl.net]: Wekaでクロスバリデーションを行う場合、
テストデータがどのように分割されたかと、
=== Predictions on test data ===
inst#,actual,predicted,error,prediction
の部分で元データの何行目がどれなのかを知る方法はありますか？
218 名前：デフォルトの名無しさん mailto:sage [2017/01/28(土) 22:51:19.43 ID:twSmrXR/.net]: 高いアベレージ
219 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 00:03:11.04 ID:/6WgD/vk.net]: chainerとか関係なくこういうの作れるのええな
https://togetter.com/li/1075134
220 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 02:30:04.51 ID:B6CaMCDG.net]: せめてタイトルくらいかけよ
そんなのアフィリエイトの誘導にしか見えない
221 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 03:22:37.85 ID:Fhhd3neK.net]: >>215
技術だけを気にしていると理論系の記事しか読まなかったりするけど
機械学習の普及には一般受けする応用を考えるのも大事だね。
TensorFlowで実装して翻訳記事を書いた人までいて影響力が桁違いだ。

初心者がchainerで線画着色してみた。わりとできた。
qiita.com/taizan/items/cf77fd37ec3a0bef5d9d

>>216
タイトルは書く方が親切だけど、
下記Webサービスの反響まとめだから見て損はない。

chainerで線画着色をwebサービスにして公開してみた
qiita.com/taizan/items/7119e16064cc11500f32
222 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 05:08:02.08 ID:/6WgD/vk.net]: togetterのURL貼ってアフィとか言われたの初めてだわｗ
NAVERまとめかなんかと勘違いしとるんか？

>>216さんは親切なお人やね～
223 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 05:37:08.12 ID:+BHcORgf.net]: >>217
これ初心者（PFN所属）なんだよなw
224 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 06:38:32.99 ID:Q7KrlIOA.net]: >>212
chainer信者… www
225 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 06:46:58.42 ID:RoGFabqg.net]: >>210
禿同。
226 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 07:01:27.04 ID:Q7KrlIOA.net]: >>209
GCP でも使えるのか、Cloud ML だけだと思っていたわ。
これは楽しみだな、AWS は１時間単位だから嫌w

>>210
良いものを作れば自然に広まるという考えは企業初心者の陥る罠なんだよなぁ…
過去に同じ考えの会社が Microsoft に駆逐されまくったのを知らないわけじゃないと思うのだが。
227 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 07:07:59.64 ID:Q7KrlIOA.net]: >>211
前提条件を絞れば意味がないことはないだろうけど、
問題の質やコーディングの上手さに大きく影響を受けるのはその通り。
特に GPU 絡みの分散コードなんて TF で勉強した人もいるだろうけど、職人芸。
228 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 07:19:36.92 ID:MoBdBOkH.net]: ディープラーニングすごいっていってるやつは、ニューラル冬の時代を知らないのかな

ディープすごい！人工知能すごいって盛れるのはせいぜいあと三年だろ、
まーたそのあとは人工無能だって発覚していつものごとく終わりだよ

科学にもとづかない馬鹿みたいな前提でそれをもとにビジネス組み上げる馬鹿なんていねえよヴぁーか

数学と科学と統計学の区別もつかないスクリプトキディ様乙
229 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 07:43:20.48 ID:wnIP30dh.net]: 人間様に扱えない判断基準で物事を裁く馬鹿はまずいねえんだよね

ディープに新規性はないし、ハードウェアが変わった、昔のポンコツ環境とは違うといくらいったところで、君の妄想を実現するのに何年かかるのか

いくらハードウェアが進歩したからといってあのニューロンモデルに、現実世界でおこる問題の(真なる)モデルをエミュレートさせようとしたときに発生するモデルの複雑性、計算能力の必要性

これを統御するすべがディープには存在しない、だから児戯に終わる

ディープには計算力必要、分散システムつかってからが本番とか言いだしてる時点で、モデルを救いようのないまでに複雑にしますって言ってるようなもんなのにそれも理解してないよね

挙げ句の果てにディープにパフォーマンスは重要じゃないとかコードの善し悪しの問題とか言いだしちゃうんだよね、意味がわからない
ただでさえディープの設計思想はくそなのに、その頼りないディープの設計思想からして、パフォーマンスは何よりも重要なことぐらいわかるだろ

この意見に反論する奴はまず機械学習やマイニングを理解していないのに、tfとかのライブラリをただ単に走らせて喜んでる、科学的素養のないキッズだよな

ディープは単なる投機対象にすぎないってことをまず理解してからライブラリ使おうね
あとコンピュータにできる限界も理解してからね
230 名前：デフォルトの名無しさん [2017/01/29(日) 07:45:07.64 ID:pWwOatcm.net]: >>210
>母国語で読めるというのは高いアベレージなのにね。

高い平均・・・？
231 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 09:41:57.54 ID:Fhhd3neK.net]: >>210
母国語で読めるというのは大きなアドバンテージだね。
高火力コンピューティングでさくらを巻き込んだのだから
分散バージョンChainerの日本語ドキュメントを出して
高火力コンピューティングの営業に協力してもいいと思う。

>>224-225
ディープラーニングは万能ではないが有用だから普及する。
ム板住人にとってこの技術はとても役に立つ。
>>217がペイントソフトの標準機能になる未来はすぐそこだ。
232 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 11:39:08.60 ID:UPfWW/c8.net]: 機械学習マンは統計学の用語をわざわざ格好いいものに置き換えているのは気のせいだろうか

回帰・分類 → 教師あり学習
説明変数 → 特徴量
応答変数 → ラベル
233 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 11:43:30.82 ID:bGkeaMzi.net]: 統計と対応してないんだから当たり前。
234 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 11:47:43.17 ID:JmcO/odY.net]: >>228
それらの用語どころじゃないくらい多い。
カッコつけしいなんだわ
235 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 11:55:07.02 ID:Urob8xZw.net]: >>228
成立ちが違うんだから用語が違うのは当たり前だ
同じような概念が違う用語で表される事もあるだろう
236 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 12:07:34.99 ID:/NIxq7a6.net]: 統計学ってうさん臭いあいまい過ぎる定義多いから
測度論の用語で統一して欲しい
237 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 12:11:16.01 ID:Urob8xZw.net]: >>232
自分でやってみよう
238 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 13:48:32.98 ID:7+btt6kI.net]: 統計ぎょり機械学習のほうがよっぽど胡散臭いだろ…
239 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 14:22:07.78 ID:dDPkJyTp.net]: 機械学習に数学はいらないからね
仕方ない
240 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 14:44:25.03 ID:EQKp/5y7.net]: >>232
例えば？
241 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 14:44:38.18 ID:I5gnIMbX.net]: >>219
なんだこいつPNFの人間だったのかw
ドッチラケだはw
242 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 15:50:11.01 ID:Urob8xZw.net]: >>235
使うための技術として数学が必要なものは流行らないんじゃね
243 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 15:52:09.99 ID:tmPNbfWl.net]: 最近はTensorFlowばっか使ってるけど、よく考えたら数年前にWekaを使ってた頃としてることが何も変わってなかったでござる
244 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 16:03:23.35 ID:JmcO/odY.net]: この分野だけの用語が多い。
イメージでラベル化されると
人はそれ以上のことを考えなくなる
『特徴抽出』、『過学習』、『教師有り/無し学習』
>>235みたいなやつを量産させる
245 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 16:12:42.74 ID:SmTDa/S0.net]: >>228
その右の語を左よりカッコイイと思ってる時点でコンプレックス丸出し情け無い
246 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 16:54:59.68 ID:dIgMNnA2.net]: >>239
そうだよ、今回の大惨事ブームに乗った大企業様のただのゲームチェンジだから
247 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 17:08:09.33 ID:VKGZhMkE.net]: 一部専門家しか使えなかった技術がある程度の頭があれば誰でもできるようになってしまった。
専門家は相当危機感持ってるよ。
248 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 17:35:57.25 ID:9Kw4+t4B.net]: 脳内評論家
249 名前：デフォルトの名無しさん mailto:sage [2017/01/29(日) 17:43:47.34 ID:R9/nKqS/.net]: 同じ概念を学術分野が違えばまったく別の言葉で呼んでるのはよくあることだから
250 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 00:32:20.99 ID:l67CaF8/.net]: 文系事務職から児の業界に転職して、Pythonデータサイエンスを終えて、パイソンでちょっとした何かを作れるようになったレベルなんですが
もっとレベル上げるにはどうすればいいですか？
統計にしても、数学にしてもチンプンカンプンなので、高校レベルから勉強し直してます
251 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 00:48:24.16 ID:tWAIhpxB.net]: ビジネス系なら普通に統計を勉強するのがいいと思うよ
ツールもPythonよりRやSPSSあたりを優先的に学んだ方がいい
機械学習に手を出すのは労多く実り少ないのでおすすめできない
252 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 01:13:08.50 ID:4FvUirHY.net]: 数学できないこのスレの連中にきいても無駄
253 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 01:59:30.86 ID:h/BDIaGY.net]: 文系かつビジネス系の人になんでRすすめるの？
Pythonでいいじゃない
254 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 03:41:19.89 ID:On5YDKLg.net]: >>246
データ分析職の新人で下記の本を終えたという事でいいのかな?

Pythonデータサイエンス -可視化、集計、統計分析、機械学習
https://www.amazon.co.jp/dp/4865940588

Pythonで行くならJupiter notebookを武器にすればよい。

Python でデータサイエンス
pythondatascience.plavox.info/
IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集
https://www.oreilly.co.jp/books/9784873117485/
IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集
https://www.amazon.co.jp/dp/4873117488

ところで「六本木で働くデータサイエンティストのブログ」は知っているよね?

データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは
tjo.hatenablog.com/entry/2015/03/13/190000
255 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 03:50:53.78 ID:On5YDKLg.net]: × Jupiter Notebook
○ Jupyter Notebook
256 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 03:57:50.00 ID:Jndv2t4J.net]: 機械学習に数学は不要だから文系にこそピッタリだと思うよ
統計は普通に数学使うからおすすめしない
257 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 05:06:05.81 ID:EgTXqXG9.net]: >>248
なんでこのスレ見てるの？
258 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 12:50:55.77 ID:C+FwTjKN.net]: >>158こんなレスあったのか

そんな仮定しない。
各パラメータが独立してるなら、個々で考えたらいいだけ。Excel処理で十分

各パラメータの相関関係を見たいから機械学習してるのに何のためにry
259 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 20:01:59.26 ID:3e3wkvn4.net]: それもそうだw
260 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 20:18:20.98 ID:YD4jdzUM.net]: >>254
説明変数の多重共線性のことじゃね
261 名前：デフォルトの名無しさん [2017/01/30(月) 20:48:56.95 ID:UgHR9LmJ.net]: 学習済みのオートエンコーダがあってテストしたい時、
特定次元のみ値が不明という場合は、その次元はどんな値にして入力すればよいでしょうか？
262 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 21:00:42.04 ID:YD4jdzUM.net]: >>257
乱数でもなんでも
そこから学習させればいいんじゃね

他の所は学習させなければ早いだろう
263 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 21:01:49.05 ID:YD4jdzUM.net]: >>257
勘違いしてた
テストしたい時か
バイナリだったら反転とかじゃねーの
264 名前：デフォルトの名無しさん [2017/01/30(月) 22:06:13.87 ID:UgHR9LmJ.net]: >バイナリだったら反転
連続値です
265 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 22:10:23.20 ID:f7p1Vz7u.net]: >>246
児の業界ってなに？
266 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 22:37:14.20 ID:FqtHhB2j.net]: >>256
何を指摘して言ってるのかさっぱりなんですが‥‥
用語を使わずに説明してもらえますか？
267 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 22:43:18.40 ID:7QLXVWYX.net]: >>262
ごく簡単に言うと重回帰分析とかで説明変数同士に相関があると結果が正しくならないことがあること
268 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 22:46:00.40 ID:7QLXVWYX.net]: wikipediaとかでは、重回帰は説明変数の無相関を仮定してると書いてはあるけど、実際はどうなんだろう
269 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 22:47:56.19 ID:FqtHhB2j.net]: >>263
いや用語の説明じゃなくて文脈上何を指摘してるの？？
>>73で当てはめて説明するとどういうこと？
270 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 22:48:00.40 ID:7QLXVWYX.net]: 統計的学習の基礎みて探してるけど、相関が結果に悪影響を及ぼすとか、高い相関は良くないとは書いてあるけど、明示的に無相関は仮定してないように見える
詳しい人教えて
271 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 22:51:37.34 ID:7QLXVWYX.net]: >>265
俺は256じゃないけど、
73で確率密度関数の値同士をかけ算してるが、事象が独立でないこともあるから駄目だって指摘に対して、そもそも重回帰分析の場合でも説明変数同士は独立と仮定してるから、73の手法においても独立を仮定してもいいんじゃないって意味でしょ
272 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 23:02:18.14 ID:FqtHhB2j.net]: 説明変数なんて
273 名前：知らなかったけどwikiで調べたら、『説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある』 って書いてある。 つまり独立じゃない場合があるからその仮定は気をつけてねってことでは？ []: [ここ壊れてます]
274 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 23:33:21.95 ID:4DZGSucb.net]: このスレのレベルがここまで低いとは…
道理で「機械学習に数学はいらない」とかいいはじめるわけだ

結論だけ書いておくと説明変数同氏は相関していてもよい
multicolinearityというのは x_k = (x_{k 1}, ..., x_{k n})' と
したときにベクトル x_1, ..., x_k, ..., x_K が一時従属になることをいっている
この場合,、X' X が非正則になって逆行列が定義できずに例えば
最小二乗法も計算できない

統計的独立と一次独立の概念をごっちゃにしているからこういうことになる
ただし、相関係数の絶対値が1になると当然、一次従属になるので、
相関係数の値が非常に大きくなると実質的にmulticolinearityとなる
275 名前：デフォルトの名無しさん mailto:sage [2017/01/30(月) 23:39:26.17 ID:4DZGSucb.net]: 数学わからないこのスレの連中のためにより初等的な説明しておくと
y = a + b x_1 + c x_2 + epsilon (a, b, c はパラメータ)
として、multicolinearityというのはx_1 = k x_2 と両者の間に線形関係が
成立していると生じる。
なぜなら、このとき
y = a + b (k x_2) + c x_2 + epsilon
= a + (b k + c) x_2 + epsilon
となって、b, c が単独では識別できないから

x_1とx_2が線形の関係ではない(例えばx_1 = k x_2^2)みたいな
場合はx_1とx_2には相関はあるがさっきみたいな現象はおこらない

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef