[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2ch.scのread.cgiへ]
Update time : 08/19 23:27 / Filesize : 245 KB / Number-of Response : 1025
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【統計分析】機械学習・データマイニング26



1 名前:デフォルトの名無しさん mailto:sage [2019/09/15(日) 09:23:06.34 ID:bjsiNRs40.net]

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured

111 名前:デフォルトの名無しさん [2019/09/30(月) 15:17:21.06 ID:RcGMqML5M.net]
blocksはオワコンかしら?

112 名前:デフォルトの名無しさん mailto:sage [2019/09/30(月) 20:55:03.50 ID:m19D9tLr0.net]
プロト書かせても汚過ぎたらリファクタリングはできんし、
リファクタリングする方もある程度の理屈はわかってないとできん。
tensorflow なんかとくにモジュールがぐっちゃになってて、
結局両方わかるやつがいないとどうにもならんということになる。

113 名前:デフォルトの名無しさん mailto:sage [2019/09/30(月) 21:02:45.96 ID:lchn4+U/M.net]
個人的に前処理用の関数や、モデルおよびパラメーター調整用の関数
はコード汚くても全然いい

114 名前:デフォルトの名無しさん [2019/10/01(火) 01:45:26.93 ID:iqt4HZRA0.net]
>AIで初のカラー化 
何年も前にモノクロ映画のカラー化ってやったじゃん
別にって感じだよ

115 名前:デフォルトの名無しさん [2019/10/01(火) 03:55:33.18 ID:yPgD2oOI0.net]
全くの知識ゼロは何から勉強すればいいの

116 名前:デフォルトの名無しさん [2019/10/01(火) 08:47:56.00 ID:+UPFCPY9M.net]
マジレスするとExcelの使い方から。
データ整理でよく使うんだよ。

117 名前:デフォルトの名無しさん [2019/10/01(火) 11:08:22.62 ID:gKinUVIwM.net]
クレクレ君かよ

118 名前:デフォルトの名無しさん [2019/10/01(火) 12:40:44.98 ID:yogeS95od.net]
>>113
伊勢湾台風の映像が初のカラー化ってことでしょ。

119 名前:デフォルトの名無しさん [2019/10/01(火) 12:41:12.18 ID:yogeS95od.net]
>>114
ゼロから作るディープラーニング



120 名前:デフォルトの名無しさん mailto:sage [2019/10/01(火) 16:32:31.25 ID:IzwYx3El0.net]
>>114
猿でも分かる真相学習

121 名前:デフォルトの名無しさん [2019/10/02(水) 10:11:48.00 ID:hWitUTMNd.net]
>>119
そんな書籍あるの?

122 名前:デフォルトの名無しさん mailto:sage [2019/10/03(木) 06:44:24.24 ID:mNCtBXnn0.net]
>>120
サルでもわかるディープラーニングでしょ。理論やプログラミングに触れないやつだよ

123 名前:デフォルトの名無しさん mailto:sage [2019/10/03(木) 08:13:41.26 ID:d+Cb0QN6a.net]
機械学習概論〜ディープラーニングGAN、本格的に学べる全20時間の大学講義が無償公開
https://www.atmarkit.co.jp/ait/articles/1910/03/news013.html

124 名前:デフォルトの名無しさん mailto:sage [2019/10/04(金) 19:27:29.82 ID:HvucvIji0.net]
>>122
ありがとう
わかりやすくおもしろい

125 名前:デフォルトの名無しさん [2019/10/05(土) 10:12:00.74 ID:g+cVNt8G0.net]
画像を入力してキャッサバとマンジョカの違いを見分けられるかな

126 名前:デフォルトの名無しさん mailto:sage [2019/10/06(日) 13:50:13.78 ID:R4FTujg8r.net]
>>124
キャッサバは芋でマンジュオカは粉

でいいのかな

127 名前:デフォルトの名無しさん [2019/10/06(日) 14:04:07.98 ID:3Bwj9Rk40.net]
猫の種類を識別できてるからねえ

128 名前:デフォルトの名無しさん mailto:sage [2019/10/06(日) 16:39:42.63 ID:O2SqL9Wwa.net]
砂糖と塩は?

129 名前:デフォルトの名無しさん mailto:sage [2019/10/06(日) 16:45:43.54 ID:xEniyG0f0.net]
画像の分類に関しては人間の精度を超えたことになってるから人間ができるものはだいたい識別できるでしょ



130 名前:デフォルトの名無しさん [2019/10/06(日) 17:14:50.01 ID:pvG0vkV+F.net]
片栗粉白玉粉8:2のとマンジョカとキャッサバとタピオカを全部一緒だと判定するかな

131 名前:デフォルトの名無しさん mailto:sage [2019/10/06(日) 17:23:27.35 ID:vW1W4Flv0.net]
答え タピオカ

132 名前:デフォルトの名無しさん mailto:sage [2019/10/06(日) 18:02:00.68 ID:WtwvCzV0a.net]
人間が見て判別できないぐらい酷似した見た目の画像を用意されても判別は難しいだろう
でも人間にもできないんだから仕方がない

133 名前:デフォルトの名無しさん mailto:sage [2019/10/06(日) 18:37:58.28 ID:7syR3WRm0.net]
紫外線や赤外線、テラヘルツ波など人間の目が捉えていない領域を取得したデータで学習したら区別できるかもね

134 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 01:53:57.56 ID:i7jiIDbz0.net]
https://youtu.be/o3LK_rLG_D8

135 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 01:55:32.75 ID:i7jiIDbz0.net]
>>132
そんな対象に複素ネットワークをうまく利用したいですね

136 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 07:22:36.56 ID:R1WvvUd4r.net]
>>132
このアイデアがあったのか。ありがとう

137 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 07:45:45.80 ID:rds9MmBYa.net]
>>132
ただの測定やん!
にならないくらい難しいものを判定しないとな

138 名前:デフォルトの名無しさん [2019/10/07(月) 12:51:32.67 ID:wQEZJZvJM.net]
でも美人とブスは判別できないだろ?
教えてやらないと。
俺は教わらなくても、立つほうが美人だとわかるからな。
AIは、立つ部分がないから

139 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 13:15:17.48 ID:R68jeLYK0.net]
親子判別機作りたいんだけどどこかに教師データ無いかな?



140 名前:デフォルトの名無しさん [2019/10/07(月) 13:39:13.16 ID:nnDn0jE7F.net]
色盲とか弱視のひとは
色を見分けられないんじゃなくて
特定の色には激しく反応出来るので
普通の人では観えないものが観えたりする

141 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 13:59:50.76 ID:JTQO9o2aa.net]
>>137
ネット上にたくさん画像がある方が美人なのかもしれない

142 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 14:05:01.74 ID:jwAP9iy30.net]
地味にブスの画像を集めるのって苦難の道だよな
ネット上にあるのは奇跡の一枚物ばかりだし

143 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 14:47:53.66 ID:1thZo56ha.net]
美醜判定の研究は心理物理実験で人が行って分けた画像に対して特徴を求めるのが一般的

144 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 15:39:41.65 ID:i7jiIDbz0.net]
https://youtu.be/UPjmZheyYTk

145 名前:デフォルトの名無しさん [2019/10/07(月) 18:59:23.04 ID:fNQWuTFbM.net]
シンメトリー具合が客観的かと思われるけど
美醜は基準が変わるだろ

146 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 19:38:18.06 ID:uR6CZd4Z0.net]
顔データならリクルートとかめちゃくちゃ持ってそう

147 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 19:58:20.16 ID:R68jeLYK0.net]
リクルートは死ぬべき企業の一つ

148 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 20:53:26.67 ID:rCvXE9Ys0.net]
標準的な顔が美男美女だという研究結果が昔あったなあ

149 名前: mailto:sage [2019/10/07(月) 20:58:00.90 ID:T0peqJ1N0.net]
>>147
標準的、というか個体差を集めてその中間を取ったという意味の平均顔でしたね



150 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 21:37:55.32 ID:mqLxFODTM.net]
Deeplooksとかあったな

151 名前:デフォルトの名無しさん [2019/10/07(月) 22:27:15.98 ID:XIT3E9Qaa.net]
>>147
データの次元が増える程、外殻部の密度が高くなり中心部は疎になる
次元の呪いの現れ

152 名前:デフォルトの名無しさん mailto:sage [2019/10/07(月) 22:54:06.69 ID:WyRvg0cv0.net]
>>150
その解釈があってるかどうか知らんけど面白いね

153 名前: mailto:sage [2019/10/07(月) 23:20:52.55 ID:T0peqJ1N0.net]
>>150
ユークリッドノルムは高次元では無意味、という経験ならあります…

154 名前:デフォルトの名無しさん [2019/10/08(火) 01:24:12.36 ID:yvLQ2KO90.net]
だからさ、立つ写真と縮んでしまう写真を
集めて学習させるのさ。

155 名前:デフォルトの名無しさん [2019/10/08(火) 13:08:31.09 ID:pQwzHIwwM.net]
ヒューズの現象と次元の呪い

156 名前:って違うの? []
[ここ壊れてます]

157 名前:デフォルトの名無しさん mailto:sage [2019/10/08(火) 13:38:33.16 ID:EX96gh2V0.net]
黄金比が審美医療で使われてるから顔のパーツの比を計測すれば美醜の判別は数値的にできると思う
あとはエントロピーの低い顔は美人なはず
ダウン症などの奇形顔はエントロピー高いから

158 名前:デフォルトの名無しさん [2019/10/08(火) 17:22:33.79 ID:73qw8B0jr.net]
>>155
何の、何に対するエントロピー?

159 名前:デフォルトの名無しさん mailto:sage [2019/10/08(火) 21:40:37.04 ID:kGAGzuS00.net]
平均的な顔がいいっていうデマね。
実際は美人バッカ集めて平均取った方が圧倒的に良かったとかそういう結果。



160 名前:デフォルトの名無しさん [2019/10/09(水) 04:18:18.15 ID:+iZUlLJa0.net]
そりゃーブサが平均に寄れば綺麗に見えるわ

161 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 12:43:17.12 ID:DoX5+3oi0.net]
機械学習やるなら、Cかjavaかpythonだよなあ

データサイエンティストおよびクラウド系のデータエンジニアならpython
大規模開発およびローカル系のデータエンジニアならjava
ローカル系および組み込みならC

javaの領域は今後すこしずつ縮小していく見通しだから、
新規で入るならpythonかCがオススメ

162 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 12:57:38.63 ID:8Gadabtv0.net]
>>159
出来合いのライブラリを使う話?
スクラッチでつくる暇人はいないか

163 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 16:41:52.12 ID:IFGahd8r0.net]
Geforce一択?

164 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 18:03:33.95 ID:joEVXQiz0.net]
巷で売れてるkaggle本買いました
これから勉強します

165 名前:デフォルトの名無しさん [2019/10/09(水) 19:06:25.13 ID:/Xo+Y8M3M.net]
統計学の勉強を本気で始めたら
恐ろしく難しいということがわかってきた
どうしたらいい?

166 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 19:07:25.32 ID:qJaHnW7l0.net]
参考書を変える

167 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 19:11:04.90 ID:fonAqmctr.net]
>>161
amdも意外と使えるらしいけど、情報ないし疲れるよ。動かないとき常にうたがっちやうしね

168 名前:デフォルトの名無しさん [2019/10/09(水) 19:19:32.23 ID:4X2jyJQLM.net]
古典統計学とベイズ統計学をちゃんと学びたい

169 名前: mailto:sage [2019/10/09(水) 20:05:21.59 ID:K/FCWkI00.net]
>>166
統計論と確率論は違うものですか?



170 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 20:14:54.29 ID:fTI0icewa.net]
統計学の中で使われる道具の1つが確率論

171 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 20:23:04.27 ID:ZvOECUeE0.net]
>>161
まずはawsかgcpでやってみろ。
はじめからグラボなんか購入しても必ず後悔する。

172 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 21:11:35.20 ID:MK+5GX/v0.net]
古典統計とは集合論と位相空間論から測度論に発展して確率論との関係性のあたり?

173 名前:デフォルトの名無しさん [2019/10/09(水) 22:40:50.59 ID:+iZUlLJa0.net]
わかんない

174 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 22:44:05.44 ID:zMnGtdTv0.net]
アホ

175 名前:デフォルトの名無しさん mailto:sage [2019/10/09(水) 22:58:19.23 ID:Qjd49VQKa.net]
現実問題として、測度論まで必要になることはあるかなあ?
まずは連続量ではなくて離散量での理解が先かと思われる
それならそんなに難しくないでしょ

176 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 00:11:01.13 ID:O5ET7Lyz0.net]
規定関数の概念と関数のノルムさえ理解していればいらん。

177 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 00:11:57.40 ID:O5ET7Lyz0.net]
逆にそれがわかってない研究者はくそ

178 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 00:14:30.11 ID:O5ET7Lyz0.net]
それ=『規定関数の概念と関数のノルム』な。

179 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 00:17:00.40 ID:O5ET7Lyz0.net]
わら。×規定
自分がわかってませんでした。



180 名前:デフォルトの名無しさん [2019/10/10(木) 02:31:31.78 ID:eF+ihzDEM.net]
グレブナー基底は重要だな

181 名前:デフォルトの名無しさん [2019/10/ ]
[ここ壊れてます]

182 名前:10(木) 06:52:08.55 ID:H/x/U9NKM.net mailto: >>160
勉強のためにスクラッチで書くならpythonがオススメ。ネットに情報が多いから
仕事のためならC一択
[]
[ここ壊れてます]

183 名前:デフォルトの名無しさん [2019/10/10(木) 06:53:03.85 ID:H/x/U9NKM.net]
>>169
何故そこでcolabが出さない

184 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 10:19:46.41 ID:xGOoNgUAa.net]
統計学を理解できていないのに理解したと思い込んだ人はこういう頓珍漢なことを平気で言い出す

@Inetgate:
@usukutilife @u874072e 一般的な統計処理において、標本数が30を超える場合には正規分布を仮定できますが、
えん さんが調べた結果だと全然正規分布になってないので、食べログの数値操作疑惑、真っ黒じゃねーかと。

https://twitter.com/Inetgate/status/1181488204068749312
(deleted an unsolicited ad)

185 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 10:23:07.08 ID:H/x/U9NKM.net]
母集団の分布が正規分布に従うと"仮定"すれば、間違ってない意見だな
仮定すれば

186 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 10:25:56.74 ID:H/x/U9NKM.net]
って、もとのグラフをみたらbin数がやばかった・・・

187 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 14:07:25.58 ID:9SEfnsqfa.net]
標本抽出の仕方がランダムサンプリングで
母集団が正規分布の時だけに成り立つことを言っているな

188 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 18:30:07.85 ID:7gKn5Xz20.net]
競馬あてて見たいんだけど特徴量として前5走を使いたいんだけどどんな実装にすればいいのかな
どなたかヒントいただけないでしょうか

189 名前:デフォルトの名無しさん [2019/10/10(木) 18:50:01.66 ID:i+8+28k+F.net]
前走の結果より血統でやった方が良いって先輩は言ってた



190 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 18:56:00.12 ID:cL0M7hVK0.net]
入力で与えるのが出馬一覧とかで順番の意味を無くしたいならPointNetとかの構造を真似したりすればいいんじゃない

191 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 21:27:00.23 ID:aZnaY5Is0.net]
>>180
あれ、逆にわかりずらいと思うんだが。
環境設定がすげーわかりずれーわ。

192 名前:デフォルトの名無しさん mailto:sage [2019/10/10(木) 23:11:06.33 ID:bdrwblpoa.net]
>>185
ググればソースコード付きでいろいろ出てくるが

193 名前:デフォルトの名無しさん [2019/10/11(金) 08:18:38.76 ID:mCGV3tUv0.net]
>>184
中心極限定理の話しで
標本数を30にした平均値の分布は
元の分布に関係なく正規分布とみなせるって事だよな

食べログの分布もその分布から標本を30取り出して
平均値を求める操作を10000回繰り返して
平均値の分布を描くと正規分布に近くなるはず

194 名前:デフォルトの名無しさん mailto:sage [2019/10/11(金) 11:53:47.65 ID:BrwAZKhG0.net]
>>186
血統も絡めてるよていだけど、前走も大事かなと思いまして。

>>187
前走ではAの馬に負けてるから今回も厳しそう、とかの特徴を抽出したいなと思いまして、順序はそれなりに大事なのかなと考えています。

>>189
巷にあるコードよりも、より順序を重視する方法が無いものかなと。

数値やカテゴリーなどの特徴ではなく、多次元特徴を一つの特徴量として扱うことができないかなという感じです。

195 名前:デフォルトの名無しさん [2019/10/11(金) 11:58:01.09 ID:hkXt1GtmF.net]
重量ハンデは?

196 名前:デフォルトの名無しさん mailto:sage [2019/10/11(金) 14:41:23.78 ID:uWNk0GcMM.net]
アルバイトでデータ解析やってる人間の意見としては、
とにかく役立ちそうな特徴量を選択せずにぶち込めるだけぶち込んで、
一度xgbかcgbを回してみればいいんじゃない
そうすれば重要な特徴量が何か抽出できるでしょ
話はそれからよ

勝ち馬をよく当てる人が何を大切にしているか調べることからはじめるべき

197 名前: mailto:sage [2019/10/12(Sat) 10:11:52 ID:UGc1lgsI0.net]
馬を株の銘柄に置き換えてリターンとリスク(分散)を元に
共分散使って有効フロンティアの曲線を引いて
無差別曲線と接する部分の比を見てパーセンテージの高い順に馬を買うってのは?

198 名前:デフォルトの名無しさん (ワッチョイ 653c-b92j [118.240.95.156]) [2019/10/13(Sun) 00:20:47 ID:kaSZg9r20.net]
>>184
すでに指摘されているが、母集団の分布は正規分布である必要はない

>>190
中心極限定理の話(前半の話)はそうだけども、後半の部分は何が言いたいのかよく分からない

食べログの評点は一人当たり整数値の1~5を付けられる(ある店舗における点数分布をAとする)
各店舗は添付ごとにN人の評価の平均を平均点として算出する(各店舗の平均点分布をBとし、これが話題となっている分布)

Aの採点を行うのが一般人であると仮定すると、各店舗は同一の母集団確率分布に従うものと仮定でき、各店舗の確率変数X1, X2, …, XNは同一の母集団確率分布からのランダムサンプルと考えられる
大数の法則により、標本平均(分布Bのこと)は母集団の平均に近づき正規分布になる

標本数30以上というのはNが30以上ということで、この部分は残念ながら自明ではない
ある焼肉屋の評価は67件から構成されているが、別の焼肉屋は2件となっている

つまり最大限「食べログ」を擁護するのであれば、標本数が30以上ではないため前提条件が間違っている、ということだろうか

199 名前:デフォルトの名無しさん mailto:sage [2019/10/13(日) 00:57:27.47 ID:0ePwtCDKa.net]
各店の平均化する前の採点が同一母集団に従うという仮定に無理がありすぎる
例えばラーメン屋とスイーツ店の採点者が同じ傾向の採点するなんて仮定は不自然



200 名前:デフォルトの名無しさん mailto:sage [2019/10/13(日) 00:59:42.54 ID:kaSZg9r20.net]
>>196
すまん、焼肉屋しか見てなかった
実にその通り

201 名前:デフォルトの名無しさん [2019/10/13(日) 06:54:46.01 ID:ObLeezZqa.net]
>>159
Juliaでしょう。

202 名前:デフォルトの名無しさん (アウアウウー Sac9-KA+R [106.161.128.168]) [2019/10/13(Sun) 06:56:55 ID:ObLeezZqa.net]
>>160
Flux

203 名前:デフォルトの名無しさん [2019/10/13(日) 07:21:13.99 ID:Fxu1r5BT0.net]
>>195
大数の法則は標本数を増やすと標本平均が母平均に近づくということ

中心極限定理は平均値の分布に関する定理
食べログの評価の数が30になった時点で平均値を計算して
一度リセットするのを繰り返す
その平均値の分布は正規分布に近づく

今の評価の分布がその店に行く人の評価の分布を表している
のであれば今の評価分布から30標本を取って平均値を求める
操作を復元抽出で繰り返しても同じような結果になるだろう

204 名前:デフォルトの名無しさん [2019/10/13(日) 07:23:54.12 ID:Fxu1r5BT0.net]
ある店の評価分布は標本数が多くなっても正規分布になるとは言えない
分散が広くなるのはその店のサービスや品質が安定していない事が原因になりうる
その店の特徴が分布に反映される

同様に店を評価する側の特徴も反映されるだろう

205 名前:デフォルトの名無しさん mailto:sage [2019/10/13(日) 07:58:04.98 ID:S6cUkNQoM.net]
深層学習の凄いことのひとつは特徴量を人が設計する必要がない、と本とかに書いてありますが、どう理解すればいいのか分からず教えてください!

ここでいう深層学習とはニューラルネットのことですか?(線形回帰やSVMと違って説明変数を人間が決めてないから? )

206 名前:デフォルトの名無しさん mailto:sage [2019/10/13(日) 08:07:52.14 ID:A69S9ntC0.net]
レビューを投稿する行動を取る時点で母集団にサンプルバイアス

207 名前:デフォルトの名無しさん mailto:sage [2019/10/13(日) 08:55:43.76 ID:kaSZg9r20.net]
>>201
言ってることの一つ一つは正しいことは理解できるんだけど、何が言いたいのか理解できないんだ

食べログが評価を操作しているかどうか、は今説明してくれた事を駆使すれば判別できるんだろうか?

あるいは、Twitterの書き込みのおかしさ、は今説明してくれた事を駆使すれば、ココがおかしいと指摘されるんだろうか

208 名前: mailto:sage [2019/10/13(Sun) 09:26:19 ID:vNAU+AUMa.net]
>>201
各店舗の分散は各店舗の分布には影響しても全店舗の平均値の分布には影響しないでしょ

209 名前:デフォルトの名無しさん mailto:sage [2019/10/13(日) 10:08:21.52 ID:uKg8mtfTa.net]
中心極限定理はあくまで「同一の母集団から得た独立な確率変数であれば、十分な数の平均値を集めたものの分布が正規分布に近似できる」というもの
全店舗の採点者が同一の基準に従う採点を行うという前提が成り立たなければ成立しない定理



210 名前: mailto:sage [2019/10/13(Sun) 10:56:42 ID:kaSZg9r20.net]
>>206
個々の採点者が同じ基準でないのに中心極限定理を持ち出しているのがおかしいと主張しているわけか、なるほど

同じ基準ではないにしろ、少し幅をつけてみよう
個々の採点者はある得点を中心に正規分布で配点する、もしくは一様分布で採点する、あるいは同じ点数しかつけないものとする

正規分布で採点する者は、正規分布の合成が正規分布になることから、平均値の分布もまた正規分布
一様分布で採点する者は、分布関数の底上げにはなるが平均値には影響を与えない
同じ点数しかつけない者も、平均値そのものをずらす事にはなるが正規分布の形は歪めない

つまるところ上記の前提が成り立つ場合には、平均値の分布は厳密に正規分布になる
毎回1点で、たまに4点をつけるような人が大量にいないと、この評点と言う平均値分布を正規分布から歪めるのは難しいように思う

211 名前:デフォルトの名無しさん mailto:sage [2019/10/13(日) 12:13:54.05 ID:pJwii1Hg0.net]
>>202
多分、画像データを深層学習(ニューラルネット)で学習することを念頭に置いてる話だろう。
もっと広い文脈で使えるときもあるがたいていは画像でうまくいった話を誇張して言ってることが多い。






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<245KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef