1 名前:132人目の素数さん [2008/11/18(火) 13:14:26 ] 理論的な話題から実務上の疑問点まで。 学校の宿題は自分で考えましょう。 前スレ: 統計学なんでもスレッド8 science6.2ch.net/test/read.cgi/math/1211786770/ 統計学なんでもスレッド7 science6.2ch.net/test/read.cgi/math/1193183539/ 統計学なんでもスレッド6 science6.2ch.net/test/read.cgi/math/1169836298/ 統計学なんでもスレッド5 science5.2ch.net/test/read.cgi/math/1145362721/ 統計学なんでもスレッド4 science4.2ch.net/test/read.cgi/math/1123896809/ 統計学なんでもスレッド3 science3.2ch.net/test/read.cgi/math/1097491056/ 統計学なんでもスレッド2 science3.2ch.net/test/read.cgi/math/1068288283/ 統計学なんでもスレッド science.2ch.net/test/read.cgi/math/1012782106/
2 名前:132人目の素数さん [2008/11/18(火) 13:14:56 ] 関連スレ: 統計学なんて数学じゃないだろ science6.2ch.net/test/read.cgi/math/1173876727/ = 統計解析フリーソフト R 【第2章】 = science6.2ch.net/test/read.cgi/math/1152449095/ =統計解析= SASプログラミング science6.2ch.net/test/read.cgi/math/1184762259/ 統計学 academy6.2ch.net/test/read.cgi/sociology/982489314/ 経済学で使う統計学スレッド academy6.2ch.net/test/read.cgi/economics/1094012265/ 生物学での統計学スレ science6.2ch.net/test/read.cgi/life/1127772845/ ◆統計学について語るスレ science6.2ch.net/test/read.cgi/sim/1012828891/ 統計・解析ソフトについて pc11.2ch.net/test/read.cgi/bsoft/1012298063/
3 名前:132人目の素数さん mailto:sage [2008/11/25(火) 16:10:37 ] 早く立てるのなら後のこともちゃんとやってくれ
4 名前:統計初心者^^; [2008/11/25(火) 21:37:39 ] 初めまして★早速ですが質問があります>< もし、わかることがありましたら少しでも良いので教えてください。 えっと「平均の分布」と「分布の平均」というのがありまして、この二つは具体的にどう違うのかがさっぱりわかりません><
5 名前:132人目の素数さん [2008/11/26(水) 21:00:28 ] >>4 「ヒモのパンツ」と「パンツのヒモ」の違いがわかれば簡単よ
6 名前:132人目の素数さん mailto:sage [2008/11/26(水) 21:23:05 ] うるさい。
7 名前:132人目の素数さん [2008/11/27(木) 20:02:30 ] >>5 king of kings がわかればの方がよくないか?
8 名前:132人目の素数さん [2008/11/27(木) 20:09:03 ] >>5 算術平均と幾何平均の違いが判りません。 同じ平均なのになぜ違う値なのですか? なにか面白い回答希望。
9 名前:132人目の素数さん mailto:sage [2008/11/27(木) 21:51:17 ] VIPへ行け屑
10 名前:132人目の素数さん [2008/11/27(木) 22:09:14 ] 塩ラーメンと醤油ラーメンは、同じラーメンでも味が違うけどね
11 名前:KingMind ◆KWqQaULLTg [2008/11/28(金) 00:09:52 ] Reply:>>7 私を呼んでないか。 Reply:>>8 同じ平均ではない。
12 名前:132人目の素数さん [2008/11/28(金) 21:48:33 ] ベイズの手法のメリットとして、新たに得たデータを これまでのデータに追加して分析を行えるというbayesian updateが ありますが、この方法は、新たなデータをこれまでのデータに追加して、 頻度理論の手法で分析することと、どう違うのでしょうか。
13 名前:12 [2008/11/28(金) 21:53:15 ] ちなみに、面白い回答は希望しません。
14 名前:132人目の素数さん mailto:sage [2008/11/29(土) 02:29:59 ] 式の形が違う
15 名前:132人目の素数さん [2008/11/30(日) 01:02:36 ] ブートストラップ法とは要するに、 少ないデータからさらにサンプル抽出して、 統計量を計算することを繰り返し、 その繰り返しの平均値をもって近似解が得られたとする手法のことですか?
16 名前:132人目の素数さん [2008/11/30(日) 02:00:47 ] 平均値だけじゃなく、 統計量の分布そのものがほぼ十分な精度で得られるから、 期待値だろうが信頼区間だろうが、何でも求まるよ。 しかも数式じゃなく数値の固まりだから、計算も楽(コンピュータなら)。
17 名前:132人目の素数さん [2008/11/30(日) 13:52:22 ] データx(1〜1,000の)平均値をブートストラップ法で求めたいです。 下記方法でよろしいでしょうか?(エラーになりますが・・・) また、ブースとラップ法とは意味があることなのでしょうか? 単純にmean(x)で良いような気が・・ > x <- 1:1000 > boot( x , mean , R = 1000 )
18 名前:132人目の素数さん mailto:sage [2008/11/30(日) 18:04:47 ] >>16 つまり数学的素養がない人でも結果だけは使えるように よく使うと思われる部分だけを抜き出したのが「〜法」 ってことでいいの?
19 名前:132人目の素数さん [2008/12/01(月) 03:50:49 ] >>17 線形統計量の期待値に限らず、理論的にわかってるものを 自力導出させても意味ないよ。 理論的に解かれてないとか、理論化しようにも複雑すぎて 見当も付かないような問題で威力を発揮する。 >>18 言ってることは違ってるような希ガス 統計分布の密度関数は、式を書くだけなら簡単だけど、 積分値とかその逆関数を求めるのが大変なんだよ。
20 名前:132人目の素数さん mailto:sage [2008/12/01(月) 06:14:03 ] 計算式なんて線形計算しかないからMATHEMATICAに突っ込めば一発
21 名前:132人目の素数さん mailto:sage [2008/12/01(月) 13:42:42 ] 少しモンテカルロ法と 似てるな。
22 名前:132人目の素数さん [2008/12/01(月) 15:21:48 ] >>20 線形計算て何の話? >>21 パラメトリック・ブートストラップだと 母数を推定値にした同サンプルサイズのモンテカルロ
23 名前:132人目の素数さん [2008/12/03(水) 01:27:24 ] 大学のレポート(回帰分析)の質問です。統計学初心者の馬鹿でごめん。 回帰式の決定係数(R^2)が0.1と求められたのですが、 この式の回帰係数(β)について、t分布やP値による仮説検定を有意水準5%で行った結果 どちらも有意となってしまいました。 決定係数が0.1なのにこのような結果になることはあり得ますかね?
24 名前:132人目の素数さん [2008/12/03(水) 02:05:19 ] 観測個数が多ければ(数百以上とか)起きるよ。 データが十分沢山取れれば、どんな微妙な影響でも しっかり検出できるからね
25 名前:132人目の素数さん [2008/12/03(水) 02:58:03 ] サンクス! サンプル数は47です。 考察書きにくいけど、そういうことって起きるんですね・・・
26 名前:132人目の素数さん mailto:sage [2008/12/03(水) 17:04:35 ] まず、標準正規分布に従う乱数をいくつか作成します。 さらに、その乱数を用いて自由度nのカイ二乗分布に従う乱数を作成します。 そうして作成された乱数の平均値と分散を求めたところ、 理論上は平均値はn、分散は2nとなるはずですが、 実際に抽出するデータにはばらつきがあるため、 平均値と分散も理論上の値からややばらつきますよね。 そこでそのばらつきのある値が統計的に有意であることを示したいのですが、 そのためにはどういった証明の仕方が考えられるでしょうか?
27 名前:132人目の素数さん [2008/12/03(水) 17:18:13 ] >>26 言ってることが良くわからない。
28 名前:132人目の素数さん [2008/12/03(水) 17:20:54 ] >>25 もしかして、そのレポートの提出期限は明日までではないか?
29 名前:132人目の素数さん mailto:sage [2008/12/03(水) 17:31:44 ] >>27 なるべく分かってもらえるように書いたつもりなんですが・・・理解が曖昧ですいません。 標準正規分布に従っていくつか作成というのは、エクセルによってランダムに生成するということです。 表現の誤用等ありましたら指摘お願いします。
30 名前:132人目の素数さん mailto:sage [2008/12/03(水) 17:36:44 ] あと実際に抽出するデータとはランダムに生成された乱数のことを指します。 連続レス申し訳ない。
31 名前:132人目の素数さん mailto:sage [2008/12/03(水) 17:40:19 ] >>26 χ^2分布に従う乱数を 生成したのなら平均、 分散は理論値になる んじゃないの? 生成に問題があって 近似とかそういう話 なのかもしれないけど。
32 名前:132人目の素数さん mailto:sage [2008/12/03(水) 18:11:09 ] >>31 χ^2分布に従う乱数すべての平均や分散を取ったら確かに理論値にならないとおかしいと思いますが、 χ^2分布に従う確率変数の一部をランダムに生成しただけでは理論値と一致する可能性は低く、 若干のばらつきが生じると思うのですが、いかがでしょうか? つまり今回の質問では、そのばらつきが生じた値がどの程度信頼できるものであるか (有意性があるか)を検証する手段をお聞きしたいということです。 分かりにくくて申し訳ないです。
33 名前:132人目の素数さん mailto:sage [2008/12/03(水) 18:17:16 ] χ^2分布に従う確率変数 から得られたデータ であれば、 理論値と一致する と思うけど。ただし、 局所的にはχ^2分布 だけど全体としては 微妙に違う あるいはその逆 とかいうケースであれば 話は違ってくる。
34 名前:132人目の素数さん [2008/12/03(水) 19:00:11 ] >>26 本当は分布の検定だけど、知識なさそうだから 信頼区間を求めて入ってるかどうかで判定すれば?
35 名前:132人目の素数さん [2008/12/03(水) 19:50:51 ] >>28 と同じ大学で同じ授業でワロタ 困ったときは2ちゃんねるwww
36 名前:132人目の素数さん [2008/12/03(水) 19:52:07 ] >>35 おまえら大学どこだよ
37 名前:132人目の素数さん mailto:sage [2008/12/03(水) 20:05:14 ] もう>>23 の家に集まってやれよw
38 名前:132人目の素数さん mailto:sage [2008/12/03(水) 21:10:45 ] 大学の宿題を2ちゃんに 投げるのはいかがな ものかと。まあ>>23 は いいけど丸投げもたまに あるからなあ。
39 名前:24 [2008/12/04(木) 01:32:38 ] >>25 観測個数47って、そういうケースとしては少ないなあ と思ってたんだけど、今気が付いた。47って都道府県別データか? だと北海道(変数による)とかを除いて推定したら、有意じゃなかったりしてw 大学のレポートなら、P値だけじゃなく、グラフも見ろよという例かもね。 もう提出期限すぎて手遅れみたいだけどw
40 名前:25 [2008/12/04(木) 21:32:28 ] >>39 いろいろサンクス。 提出する直前に周りの奴の見せてもらったら、 他にも似たような結果になっている人も多かったので、多分単位は大丈夫です。 なぜそうなるのか、ってとこまで考えて本当の勉強なんだろうけどww
41 名前:132人目の素数さん mailto:sage [2008/12/05(金) 00:18:01 ] 分布の検定ってどうやるの?
42 名前:132人目の素数さん mailto:sage [2008/12/05(金) 03:19:44 ] 稲垣宣生著 数理統計学を授業でやってるんですが、 ついていけないので自習しようかと思ってます。 この本は演習の解答が省略されすぎで自習できないので で、この本のレベルについていける演習所とか問題集ってありますか? 本屋でざっと探したところ、レベルの低いものしかなかったんですが・・・
43 名前:42 mailto:sage [2008/12/05(金) 03:21:44 ] 言葉が抜けた この本は演習の解答が省略されすぎで、この本だけでは自習できないので
44 名前:132人目の素数さん mailto:sage [2008/12/05(金) 12:27:42 ] >>41 適合度検定
45 名前:132人目の素数さん [2008/12/05(金) 14:15:58 ] >>40 この時期に単位が出ると大学といえば、 国内で限られてくるよね。ニヤニヤ
46 名前:132人目の素数さん mailto:sage [2008/12/05(金) 14:49:15 ] このスレの住人はルベーグ積分はなにで勉強しましたか? やっぱ伊藤清三先生の本とか?
47 名前:132人目の素数さん mailto:sage [2008/12/07(日) 13:18:06 ] オマンチン
48 名前:132人目の素数さん mailto:sage [2008/12/08(月) 15:22:31 ] ゆとり用の統計学テキストおしえてください 経済分析のための統計的方法って本読んでるけどワケワカメ IQ20でもわかるゆとり本を教えてください ネバーギブアップ
49 名前:132人目の素数さん mailto:sage [2008/12/08(月) 17:41:02 ] >>48 つ www.amazon.co.jp/dp/4274065707/
50 名前:132人目の素数さん mailto:sage [2008/12/08(月) 19:24:22 ] 出ると思ったw
51 名前: ◆9Btz0kAixw mailto:sage [2008/12/08(月) 21:21:28 ] すみません。 非定常データ(予算支出)を定常化したいのですが、 adf.test(x)とpp.test(x)とでp値が違うのがよくわかりません。 両方とも、 帰無仮説:単位根あり 対立仮説:単位根なし ですよね?変化率に変換することで定常化されたか確認したいのですが、これは、どうなのでしょうか。 > x <- Dataset$V2 > pp.test(diff(x)/x[1:length(x)-1]) Phillips-Perron Unit Root Test data: diff(x)/x[1:length(x) - 1] Dickey-Fuller Z(alpha) = -39.5082, Truncation lag parameter = 3, p-value = 0.01 alternative hypothesis: stationary > adf.test(diff(x)/x[1:length(x)-1]) Augmented Dickey-Fuller Test data: diff(x)/x[1:length(x) - 1] Dickey-Fuller = -2.3884, Lag order = 3, p-value = 0.4181 alternative hypothesis: stationary
52 名前:132人目の素数さん mailto:sage [2008/12/08(月) 21:52:21 ] >>48 岩田さんの本ね。 つうことは慶応かな? あの本は院生向きなんで 初心者向けじゃない。 ただ全部が全部理解不能 ってこともない と思うが…。
53 名前:132人目の素数さん mailto:sage [2008/12/08(月) 22:37:50 ] 貴方一体なにもの!? くわしすぎ・・・w あの本は難しすぎます・・ でもマンガの本は簡単すぎます・・
54 名前:132人目の素数さん mailto:sage [2008/12/08(月) 23:54:09 ] 独立な確率変数x,yが、それぞれ区間[-1,1]の一様分布に従う時、 以下の確率変数u,vについて共分散、独立性を調べよ。 u=x+y v=x-y
55 名前:132人目の素数さん mailto:sage [2008/12/09(火) 02:12:25 ] ___,,,,,..... -一ァ / ̄;;;´;;、;;;ヾ;;;, -──--、,! . /'´|;;;;,、;;;;;;;;;;/ ,! . /:.:.:.レ´:.ヾ;;;;;;i 断 だ ,! /:.:.:.:.:.:.:.:.:.:.:ヾ;i る が ,! . /:.;.イ:.:.:.:.:.:.:.:.:.:..ヽ ,! . /レ' ;|:.:.:.:.:.:.:,:ィ:.:.:.:〉 __,.,! /-、ヽ,:|:.:.:,/ /:.:.://.:,:ィ:.:.:.,! /'ヽ、ヾi ゙´.: /__;:;:-'"´ ,;|:.:.:.,! . /ゝ-`';:/ .:〈ニ=-=ニ二 ̄ヽレ',! /::::;;;;;/ ' ,, ニ`ー-,、__\〉ィ,! . /;:::::/ ::. ::.,,\_ゞ;'> 〈;,! /i!:::::iヾ-'、::.. '';~ ,;:'/,! . /;;;i!fi´l_、,.` .: ,;:' ,! /;;;;;i' ('ー、ヽ ..: ,;:'' ,! ヽ、jゝ、`ヾ:、゙、 ,..:'.:'" .: ,! ``ヽ.、_ ¨` ,:' (_r:,! ``ヽ.、.. ノr;ソ~,! ``ヾ、 / 7,! ``ヽ,!
56 名前:132人目の素数さん mailto:sage [2008/12/09(火) 02:30:37 ] ゆとり用つったから書き込み式の本とかを探してるのかと思ったよ。 とりあえず東京大学出版会から出てる奴とかを読めば良いんじゃない?
57 名前:132人目の素数さん [2008/12/09(火) 12:54:56 ] >>54 >・・・調べよ。 >>55 は断わったけど、俺は調べたよ。でも教えない
58 名前:132人目の素数さん mailto:sage [2008/12/09(火) 21:46:48 ] >>56 じっくり読んでる時間がないので目がちかちかするような本じゃなくてハンバーガーの本買いました どうもありがとうございました
59 名前:132人目の素数さん mailto:sage [2008/12/10(水) 00:37:42 ] 質問です "ある調査機関は、25%の世帯が過去三年間に少なくとも一度は引越ししていると発表した ところで、500世帯に対してインタビュー調査をしたところ、 120世帯が過去三年間に一度は引越ししたことがあるという結果を得た 有意水準5%でこの調査機関の発表が正しいか検定せよ" という問題についてなんですが 自分がやったやりかたでは 25/100-120/500 ――――――――=0.523 √120*380/200^3 となり正解の統計量-0.5155と違います 何が間違っているのか教えてください
60 名前:132人目の素数さん mailto:sage [2008/12/10(水) 07:20:11 ] RのライブラリMASSの中にあるBostonデータで、どんな地域で犯罪発生率が高いのかを 調べたいのですが、どのような分析をしたらいいですか? > Boston crim zn indus chas nox rm age dis rad tax ptratio black lstat medv 1 0.00632 18.0 2.31 0 0.5380 6.575 65.2 4.0900 1 296 15.3 396.90 4.98 24.0 2 0.02731 0.0 7.07 0 0.4690 6.421 78.9 4.9671 2 242 17.8 396.90 9.14 21.6 3 0.02729 0.0 7.07 0 0.4690 7.185 61.1 4.9671 2 242 17.8 392.83 4.03 34.7 ------------------- 504 0.06076 0.0 11.93 0 0.5730 6.976 91.0 2.1675 1 273 21.0 396.90 5.64 23.9 505 0.10959 0.0 11.93 0 0.5730 6.794 89.3 2.3889 1 273 21.0 393.45 6.48 22.0 506 0.04741 0.0 11.93 0 0.5730 6.030 80.8 2.5050 1 273 21.0 396.90 7.88 11.9 crim 人口あたり犯罪発生率 zn 一定面積以上の宅地の割合 indus 小売以外のビジネス用の土地の割合 chas Charles川に面しているか(yes=1,no=0) nox 窒素酸化物の濃度 rm 平均部屋数 age 1940年以前建築物(自家用)の割合 dis 5つのボストン中心部(職場)への距離の加重平均 rad 放射線状のハイウェイへのアクセスの容易さ tax 不動産税率(1万ドルあたり) ptratio 生徒と先生の比率 black 黒人の比率をBkとするとき、1000(Bk - 0.63)^2 の値 lstat 下層階級の人口比率(%) medv 住宅価格の中央値
61 名前:132人目の素数さん mailto:sage [2008/12/10(水) 13:59:39 ] >>59 分母が違う。分子も逆。 あと微妙に模範解答の 数値も違う気がするが まあ誤差の範囲だろう。 すぐ人に聞くのは やめて、教科書の 母比率の検定の部分 を再度読み直す ことを勧める。
62 名前:132人目の素数さん mailto:sage [2008/12/10(水) 21:52:50 ] なんであなたはそんな 変な改行の仕方をする んですか?読みづらくて 仕方がありません。
63 名前:132人目の素数さん mailto:sage [2008/12/11(木) 00:23:26 ] 携帯だからだろう
64 名前:132人目の素数さん [2008/12/11(木) 13:34:35 ] 重回帰分析の際に独立変数間に強い相関があると多重共線性の問題が生じますが、 偏相関分析ではそのような問題は生じないのでしょうか? 例えば、AとBに強い相関があるとき、Bを制御変数にしてAとCの偏相関を求めると 係数が不安定になるなどの問題は起こるのでしょうか? 数式を見てもよくわかりません……。ご教授ください。
65 名前:132人目の素数さん mailto:sage [2008/12/11(木) 13:46:53 ] >>64 その場合だと 偏相関係数は A-B,B-C間の相関性の 影響は取り除かれる ような数式のはず。
66 名前:132人目の素数さん [2008/12/11(木) 15:27:45 ] Excel VBAでのガウシアンフィッティングの仕方について教えて下さい。 A1・・・A1001にx軸の値が B1・・・B1001にy軸の値が入っているとします。 このデータをグラフ化したのちに、ガウシアン関数y=a+b*exp(-(x-c)^2/d^2)に対してフィッティングを行い、それぞれの定数を算出及び、その算出されたグラフを上に乗せるということをしたいのですが、 Excel VBAを使ってどのようにすれば良いのでしょうか? また、ピークが1本ではなく2本ある場合Multipeak Gaussian fittingというものでそれぞれのピークに対してフィッティングすることもできるそうなのですが、できればその方法についても教えて頂けないでしょうか? 自分でひな形くらい作って質問したいところですが、全くどうやって作れば良いのか検討もつかないのでどなたかよろしくお願い致します。
67 名前:59 mailto:sage [2008/12/11(木) 17:44:35 ] >>61 ありがとうございます
68 名前:132人目の素数さん [2008/12/11(木) 19:15:47 ] 計量経済学を学んでいる者です。 確率・統計の数学テキストを探しています。 しかし、巷にあるテキストや入門書だと、 証明を抜かしていたり、適当な説明で終わっていて 消化不良になってしまう。 そこで、少なくとも集合の基礎から書き起こしてあるくらいの、 解説のしっかりした確率・統計のテキストが欲しいと思っています。 なにか、定評のある、お勧めのテキストはご存じないでしょうか。
69 名前:132人目の素数さん mailto:sage [2008/12/11(木) 20:17:15 ] >>66 こんなページはあるぞ。 nuclear.phys.tohoku.ac.jp/~ykoba/latex2html/gaussian-fitting/
70 名前:132人目の素数さん [2008/12/11(木) 21:22:56 ] >>64 AとCの偏相関係数の式で、ABの相関係数を 1 に近づけてみればわかるよ。
71 名前:132人目の素数さん mailto:sage [2008/12/11(木) 21:50:26 ] >>68 つ www.amazon.co.jp/dp/0340614307/
72 名前:132人目の素数さん mailto:sage [2008/12/11(木) 22:17:05 ] >>71 いきなり英語で書かれた数学文献とは、なかなか厳しい しかも2万3千円とは・・・
73 名前:64 mailto:sage [2008/12/11(木) 23:55:37 ] >65 レスありがとうございます。 そうだとは思うんですがどうも確証がもてなくて質問した次第です。 >70 ABの相関が高くなるとACの偏相関は小さくなっていく…ということでしょうか。 そもそも重回帰を数式レベルで理解していないので 偏相関との違いがわからず、多重共線性がなぜ生じるか(実際にどう係数が不安定になるのか) というのがピンと来ないんですよね…。 重回帰のほうも勉強してきます。
74 名前:132人目の素数さん mailto:sage [2008/12/12(金) 01:08:26 ] >>71 ちょw ケンドールかよ… この本出されたら平伏すほかない
75 名前:132人目の素数さん [2008/12/12(金) 01:17:30 ] 今のテキストはヤワだかんな。 昔は大学院1年目のテキストが ケンドール&スチュワートの第一巻だったとか、、、
76 名前:132人目の素数さん mailto:sage [2008/12/12(金) 02:03:55 ] >>73 マルチコリニアリティ(多重共線性) は経済系の統計本に 載ってることが多い。 一例として 東大出版会の 「人文社会科学 の統計学」。 偏相関も重回帰も、 もっと言えば分散分析も 手法は違うが、発想的 には同じなんだけどね。 偏相関と回帰については 田中勝人さんの 「計量経済学」が 分かり易いと思う。
77 名前:132人目の素数さん [2008/12/12(金) 20:39:45 ] 場違いであるとは重々承知しておりますが、わたくし、宝くじ板の 【甲第弐拾五号証】ロト6・宝くじ・イカサマの可能性 というスレから お邪魔させていただきます。 皆さんはどう思われますか。 392 :なんでだろー:2008/12/12(金) 18:33:46 ID:4phcCKn1 偏りのない数字に、理論値にかなり近い結果となりました。 第424回(08.12/11)03・13・17・25・40・41・B04 販売実績 22,388,787口 理論値 実際 1等 3.7口 5口 (理論値×1.35) 2等 22.0口 22口 (理論値×1.00) 3等 793口 774口 (理論値×0.98) 4等 36,688口 37,821口 (理論値×1.03) 5等 570,695口 575,531口 (理論値×1.01) 393 :なんでだろー:2008/12/12(金) 18:36:46 ID:4phcCKn1 となると、第409回とかやっぱり不思議。 第409回(08.08/28)06・13・17・27・28・36・B33、キャリーオーバー発生中 販売実績 25,854,451口 理論値 実際 1等 4.2口 6口 (理論値×1.43) 2等 25.4口 44口 (理論値×1.73) 3等 916口 1,497口 (理論値×1.63) 4等 42,367口 59,388口 (理論値×1.40) 5等 659,036口 805,669口 (理論値×1.22) 今回と特に変わらんような並びの数字と思うが、理論値をかなり上回る… なんでだろー
78 名前:132人目の素数さん [2008/12/12(金) 22:07:41 ] >>73 「プログラミングのための線形代数」ってのが、オーム社からでてる。 プログラミングのためのと書きながら中身は線形代数のわかりやすい教科書。 この中に画像処理の具体例でマルチコの問題点が示してある。 具体的には犬の画像を行列で変換する、それにノイズを乗せた上で 逆行列で元に戻す。これって、回帰分析とやってることは一緒。 ある情報(上記では変換されてノイズの乗った画像)から、ある情報 (基の犬の画像)を推定(再現)するってことね。 著者としてはデジカメとかの画像処理の話として説明しているけどね。 このとき、行列に含まれるベクトル(行または列ってこと)が似たよう な状況(向きが近いってこと)だと、基の画像を再現するときに、ノイズ が拡大されて、基の画像がうまく再現できなくなる。 マルチコってのは、似たようなベクトルを使って基の状態を再現しようと するために、ノイズを拡大させてしまうこと。 行列の変換と面積の関係を理解した上で、逆行列をかけるとどうなるか と考えるとわかりやすいと思うよ。
79 名前:132人目の素数さん mailto:sage [2008/12/13(土) 01:09:54 ] >>77 どんな理論値かそれが正確でないだけだろ。
80 名前:132人目の素数さん [2008/12/13(土) 16:45:41 ] >>78 線形空間なら、一次独立なベクトルの組(基底)と空間の次元で 終わってしまう話。 あとは、データと浮動小数点形式仮数部有効桁数の限界を どう回避するか、と言った情報処理技術の問題だよな。 線形代数学や数値解析を知らないで、多変量解析を扱うのは、禁止すべき
81 名前:132人目の素数さん mailto:sage [2008/12/13(土) 17:30:19 ] ルベーグ積分はどの本で学んだ?
82 名前:132人目の素数さん [2008/12/13(土) 17:36:12 ] >>80 経済学、経営学でマルチコを教えるときに、変に数学的な説明を回避 するのでおかしなことになる。 一次独立なベクトルが取れなければ逆行列が計算できないので、俗に いうマルチコは、基底を似たような方向で取ると逆行列による変換で サイズの変化が大きくてデータにノイズがある場合は信頼性が失われ る、ってだけなんだよね。 そこに検定を絡めてどれくらいなら許容できるかを考えないといけない のはあるけど、基本的な発想を抜きにマルチコ、マルチコいってるのが 経済、経営に多いのが現状。 線形代数を学べば、自明で終わる話。
83 名前:132人目の素数さん [2008/12/13(土) 19:57:08 ] 質問させてください。 ある薬の効果があったものが A群は14人中6人 B群は25人中3人 この両群の間に有意差があるのかどうかを求める場合には どのような手法でどうやったらいいでしょうか?
84 名前:132人目の素数さん mailto:sage [2008/12/14(日) 00:49:48 ] 母比率の差の検定
85 名前:132人目の素数さん mailto:sage [2008/12/14(日) 01:16:34 ] 1要因3水準の分散分析を行ったところ,主効果に有意な差が認められた 次に多重比較を行ったら有意な差が認められなかった 一体,どういう事なんだろうか? 教えてエロイ人
86 名前:77 [2008/12/14(日) 02:21:05 ] >>79 レスありがとうございます。 理論値は、販売実績に各等の確率をかけて適当なところで四捨五入しました。 ロト6では、購入者が作為をもって6つの数字を選ぶわけですから、 なかなか理論値通りにいかないのは当然と思いますが、それでも第409回は あまりに異常なんではないかと感じてしまう次第です。 特に当せん数字が偏ってるわけでもないのに。
87 名前:132人目の素数さん mailto:sage [2008/12/14(日) 04:21:33 ] 質問お願いします。 ベイズ確率と物理って何か関係あるんですか? たとえば統計物理学とか。
88 名前:132人目の素数さん mailto:sage [2008/12/14(日) 12:41:33 ] >>85 たぶん多重比較はTukey法だろう。 そうだとすると簡単な説明で言うと分散分析の棄却域は○型で 多重比較の棄却域は□型。うまく重ならないところで そういうことは起こりうる。 そういうもんだと諦めるか、もっと高度な多重比較法を使う。
89 名前:132人目の素数さん mailto:sage [2008/12/14(日) 12:47:22 ] >>86 ネットを探せばあると思うが、選ぶ数字の好き嫌いは結構偏りがあり、 それは数字の見かけの偏りだけではない。 たとえば、後者は6つの数字の内、5つがカレンダーに出てくる数字。 (自分の誕生日やなんらかの記念日を入れたいと思う人は多いらしい。) そういった影響(他にもあると思う)があるのだろう。
90 名前:132人目の素数さん mailto:sage [2008/12/14(日) 12:54:29 ] >>87 「ベイズ統計と統計物理」でぐぐれ。
91 名前:85 mailto:sage [2008/12/14(日) 17:51:41 ] >>88 レスサンクスです ちなみに統計処理はSASで多重比較はTukeyでした しかし、卒研でこの部分の結果と考察はマジ書き辛い どう言葉で説明してよいやらorz
92 名前:132人目の素数さん mailto:sage [2008/12/14(日) 19:51:02 ] >>91 SASは今のバージョンだと高度な多重比較はできないんだっけ? 見てくれる人がその高度な多重比較を理解してくれているなら 手動でやる手もあるんだが。
93 名前:77 [2008/12/14(日) 21:09:02 ] >>89 なるほど。そのお答えでもう頭を悩ますことはやめます。 ありがとうございました。
94 名前:132人目の素数さん mailto:sage [2008/12/14(日) 21:29:38 ] >>90 Thx よく見たら本棚に眠ってたよその本。これから読んでみる。
95 名前:132人目の素数さん mailto:sage [2008/12/14(日) 21:29:44 ] >>83 #分割表でいかがでしょう? 分割表 14.000000 6.000000 20.000000 25.000000 3.000000 28.000000 39.000000 9.000000 48.000000 期待値 16.250000 3.750000 22.750000 5.250000 検定統計量χ2はこれらの総和 0.311538 1.350000 0.222527 0.964286 帰無仮説:各群の母比率に差はない χ2乗 = 2.8483516 P値 0.0914677 chi(0.05,1) = 3.8414651 帰無仮説を採択 続く
96 名前:132人目の素数さん mailto:sage [2008/12/14(日) 21:30:39 ] イエーツの補正(連続性の補正)を適用した場合 帰無仮説:2群の母比率に差はない χ2乗 = 1.7230769 P値 0.1892972 chi(0.05,1) = 3.8414651 帰無仮説を採択 注意 期待値が5未満のものが20%以上あります フィッシャーの正確確率検定を適用 フィッシャーの正確確率検定(二項分布にもとづいて計算をする) 帰無仮説:2群の母比率に差はない 片側検定のP値 9.5387756618744282e-02 帰無仮説を採択 両側検定のP値 1.3657118428676662e-01 帰無仮説を採択 行と列に対応がある場合 b+cが充分大きい場合、マクネマー検定(χ2乗検定)でも良い ここでは、二項分布にもとづいて計算をする 帰無仮説:行と列で変化はない 両側検定のP値 8.7791029363870621e-04 帰無仮説を棄却 #「行と列に対応がある場合」は不要かも知れない。 #あなたが、判断しておくれ。 #の無い行は、PCからの出力。コーディングはおいらなので、とても怪しい。
97 名前:132人目の素数さん [2008/12/15(月) 13:42:48 ] 来年統計学の研究所でなにか研究するんだけど、 卒業研究の課題で面白い課題ない?
98 名前:132人目の素数さん mailto:sage [2008/12/15(月) 15:07:27 ] >>95 14人と6人の合計20と 25人と3人の合計28人 を何に使ったの?
99 名前:132人目の素数さん mailto:sage [2008/12/15(月) 20:09:31 ] >>97 ジョークだよな? それとも研究室の間違い?
100 名前:132人目の素数さん [2008/12/16(火) 01:36:31 ] 正規分布、平均50SD10の、30〜100の平均値とその計算式が分かりません。 65ではなく、いわば面積です。 学校の宿題ではないので、ご教授頂けると幸いです。 失礼あるかと思いますが、よろしくお願いいたします。
101 名前:132人目の素数さん [2008/12/16(火) 08:24:25 ] >>100 とりあえず、ちょっと遠まわしに 基準化して、30と100にあたるところを正規分布表で探す。 で、100にあたるところから30にあたるところを引けば面積がわかる。
102 名前:132人目の素数さん mailto:sage [2008/12/16(火) 10:20:13 ] >>100 なんで面積(確率値) なのを平均値って 言ってるんだ?
103 名前:132人目の素数さん [2008/12/16(火) 11:10:38 ] >>102 たぶん、テストかなんかで0点から100点で平均が50点、標準偏差が10の時に、 30点以下を除外(不可かな?)したときの平均点が知りたいんだと思う。
104 名前:132人目の素数さん [2008/12/16(火) 12:57:24 ] >>97 「卒業研究における、自主的な課題選択の系時的変化と地域性」 なんてのどうだ
105 名前:132人目の素数さん mailto:sage [2008/12/16(火) 13:04:18 ] >>103 サンクス。 そうじゃないかなとは 思ったけど…。 質問者の意図が 掴みにくい ことがあるね。 できる限り正確に お願したい。
106 名前:132人目の素数さん mailto:sage [2008/12/16(火) 13:54:52 ] >>103 そうか、偏差値ね。 >>100 偏差値30→素点A を求め 素点A 以上の点数の人だけの平均値を計算 じゃないかな
107 名前:132人目の素数さん mailto:sage [2008/12/21(日) 00:28:26 ] 数学的にきれいなので各種分布とかを全部連続関数に直して使ってるんだけどどんな問題がある?
108 名前:132人目の素数さん mailto:sage [2008/12/21(日) 09:09:29 ] いみふ
109 名前:132人目の素数さん mailto:sage [2008/12/21(日) 13:31:09 ] 離散を連続ってことか。 ケースバイケースだろうな。
110 名前:132人目の素数さん mailto:sage [2008/12/21(日) 17:08:45 ] >>107 例えば、ベルヌーイ分布 X=0, 1, P(0)=1-p, P(1)=p を「連続化」したとして、 それを何に使うんだ?
111 名前:132人目の素数さん mailto:sage [2008/12/21(日) 23:29:38 ] >>110 最尤法とか?
112 名前:132人目の素数さん mailto:sage [2008/12/22(月) 00:10:03 ] 107と目を合わせちゃダメーーー!
113 名前:132人目の素数さん mailto:sage [2008/12/22(月) 00:29:28 ] 超準解析を確率論に、ってとこ?
114 名前:132人目の素数さん mailto:sage [2008/12/22(月) 01:12:49 ] >>98 んーとね、たぶん期待値のところ。
115 名前:95 mailto:sage [2008/12/22(月) 01:52:16 ] おっと、読み違えてたのね。 分割表 6.000000 8.000000 14.000000 3.000000 22.000000 25.000000 9.000000 30.000000 39.000000 期待値 3.230769 10.769231 5.769231 19.230769 検定統計量χ2はこれらの総和 2.373626 0.712088 1.329231 0.398769 帰無仮説:各群の母比率に差はない χ2乗 = 4.8137143 P値 0.0282343 chi(0.05,1) = 3.8414651 帰無仮説を棄却 続く
116 名前:132人目の素数さん mailto:sage [2008/12/22(月) 01:52:52 ] イエーツの補正(連続性の補正)を適用した場合 帰無仮説:2群の母比率に差はない χ2乗 = 3.2323571 P値 0.0721968 chi(0.05,1) = 3.8414651 帰無仮説を採択 注意 期待値が5未満のものが20%以上あります フィッシャーの正確確率検定を適用 フィッシャーの正確確率検定(二項分布にもとづいて計算をする) 帰無仮説:2群の母比率に差はない 片側検定のP値 3.7815029650643352e-02 帰無仮説を棄却 両側検定のP値 4.7455563484725571e-02 帰無仮説を棄却 行と列に対応がある場合 b+cが充分大きい場合、マクネマー検定(χ2乗検定)でも良い ここでは、二項分布にもとづいて計算をする 帰無仮説:行と列で変化はない 両側検定のP値 2.2656250000000000e-01 帰無仮説を採択
117 名前:132人目の素数さん mailto:sage [2008/12/22(月) 02:17:34 ] 外の人なので、スルーを推奨。 と、自分で言っておこう。 統計は計算量が多いので、近似で済ませることが多い。 教育現場でも、0〜100しかないし、左右対象でもないのに、正規分布に近似して、偏差値出すし。 おいらが学生の頃は自由度に小数ついたものは、教えてくれなかった。
118 名前:132人目の素数さん [2008/12/23(火) 11:48:27 ] 有斐閣の『統計学 (New Liberal Arts Selection)』って 入門書プラスαとして結構いい感じだ エクセルの使い方も学べるし、ボリュームもある あれ一冊でかなりカバーしてると思う
119 名前:132人目の素数さん mailto:sage [2008/12/23(火) 19:27:54 ] >118 aoki2.si.gunma-u.ac.jp/Hanasi/excel/ oku.edu.mie-u.ac.jp/~okumura/blog/node/2287
120 名前:132人目の素数さん [2008/12/23(火) 20:31:32 ] 初歩的な質問すみません。 確率変数Xと関数gに対して、 g(X)の期待値を E(g(X))=∫g(x)f_X(x)dx (f_X:Xの密度関数) と定義すると書いてあったのですが これってY=g(X)自体を別の確率変数と見て(その密度関数は新たにf_Yとなりますが) E(Y)=∫xf_Y(x)dxを計算しても、実は同じ結果になるってことですか? でないとwell-definedじゃないですよね?
121 名前:132人目の素数さん mailto:sage [2008/12/23(火) 20:56:28 ] >>120 積分の変数変換を思い出せ
122 名前:132人目の素数さん mailto:sage [2008/12/23(火) 21:28:06 ] >>121 ありがとうございます。とりあえずgが同相写像の場合はできました。
123 名前:132人目の素数さん mailto:sage [2008/12/23(火) 21:35:31 ] >>120 E(Y)=∫y*f_Y(y)dy を面積要素に注意して 変数変換すればいい。 面積要素を忘れやすい から注意。
124 名前:チャコ [2008/12/23(火) 22:43:19 ] 高一の冬休みの宿題教えて下さい!! 等式(12−ルート3)a−(1−2ルート3)b=ab+3cルート3 を満たす正の整数の組(a,b,c)をすべて求めよ。 全然分からないので、できれば解き方と一緒に答えを教えて下さい
125 名前:132人目の素数さん mailto:sage [2008/12/23(火) 23:01:24 ] >>124 難しすぎてわからない
126 名前:132人目の素数さん mailto:sage [2008/12/23(火) 23:27:06 ] 経済分析の統計的方法 とかいう本は数学科の学生でもそれなりに満足できる内容ですか? 回帰分析の説明が詳しいという話を聞いたんですが
127 名前:132人目の素数さん [2008/12/23(火) 23:40:06 ] >>126 「経済分析のための統計的方法 第2版」岩田 暁一 ならば、いい本だよ。 ただし、実際の分析手法ではなくて、数理統計的な理論的背景を説明している本という意味ね。 特に回帰分析が詳しいとは思わないけど、行列を使った説明も含めてそれなりに満足できる本だと思う。
128 名前:132人目の素数さん mailto:sage [2008/12/23(火) 23:43:22 ] >>127 わかりました。ありがとうございます
129 名前:132人目の素数さん mailto:sage [2008/12/24(水) 00:08:24 ] ちょっと経済学の要素が強いけど、回帰分析なら「計量経済学の基礎」(戸田山田)東大出版 がオヌヌメ。matlabの擬似ソフトoctaveの使い方も説明されてる 計量経済学なんて書いてるけど 理論に偏ってるから経済学以外の人もいいと思う
130 名前:132人目の素数さん mailto:sage [2008/12/24(水) 02:06:18 ] >>126 結構難しいけどね。 ただ岩田さんの本に 限らず、回帰分析自体 が線型代数の知識が ないと深くは理解 できないと思う。 Σ計算だけでも 出来なくは ないだろうが、 多変数になると 複雑すぎる。 線型代数は微積と 同じくらい重要。
131 名前:132人目の素数さん mailto:sage [2008/12/24(水) 12:06:25 ] 多変量二項分布ってありますか? 例えば, X1 〜 B(n1,p1) X2 〜 B(n2,p2) で X1 と X2 は互いに独立ではないとして、 離散のデータの組 (x11,x21),(x12,x22)…(x1m,x2m) からモーメント法(じゃなくてもいいですが)で (X1,X2) の確率関数を推定したいのですが、 どうしたらいいでしょうか? 変数変換したら多項分布とみなせるのでしょうか? 質問が多くてすみません。ヒントや参考になりそうな本がありましたら お教えください
132 名前:132人目の素数さん [2008/12/25(木) 01:56:30 ] 《124 a=1 b=11 c=1/3を代入して見てください。合っていたら解法書きます。
133 名前:132人目の素数さん mailto:sage [2008/12/25(木) 02:44:15 ] オレは、118 じゃないけど。 >>119 スゲーな、それ。 Excel の危険性の具体的なものを、初めて知った。 もっと周知させるべきだ。 経営者が、販売分析などやって痛い目にあうのは、ありえる。 向上心のある農家でも、統計とか使いそうだし。 医療関係だともっと怖い。
134 名前:132人目の素数さん mailto:sage [2008/12/25(木) 04:05:32 ] >>133 www.forest.impress.co.jp/article/2007/10/11/excel2007patch.html こっちの方も怖いです。
135 名前:132人目の素数さん mailto:sage [2008/12/25(木) 04:19:48 ] Excelのひどさが認識されるのは良いことだな。 ただし問題は「MSという企業がダメ」なのではない。(確かにダメダメだがw) 「オープン・ソースでないソフトウェアが持つ宿命」だということ。 世の中はソフトウェア著作権保護ややアルゴリズム特許(人類の自殺行為)とかで、 これに完全に逆行しているが、その行き着く先はMSワールドだという警鐘。 Rが良いのはオープン・ソースだから。これはもう決定的な違いと言って良い
136 名前:132人目の素数さん mailto:sage [2008/12/25(木) 06:41:02 ] >>124 マルチ
137 名前:132人目の素数さん [2008/12/25(木) 08:18:49 ] いま経済統計のお勉強で、 正規分布の確率密度変数を使っているんだけど この複雑な式の意味がさっぱりわからない どの教科書見てもさらっとすまされていて この式の記号がなにを意味してるかわからない 統計の数学全般についていえることだが、教科書が消化不良をおこすようにできてると思う もっと詳しくよく納得できるような確率・統計の本ってないの?
138 名前:132人目の素数さん mailto:sage [2008/12/25(木) 12:59:13 ] そこにはまっちゃったか・・・ >詳しくよく納得できるような 理数系出身ではなさそうなので、数理的な解釈に走ろうとなるとこりゃ大変 う〜〜ん
139 名前:132人目の素数さん mailto:sage [2008/12/25(木) 13:35:09 ] >>137 統計学で正規分布の「式計算」は必要ないから、「実はこんな式だよ」と紹介するだけの本ばかりなのはしょうがない。 式の意味がわかりたくて、もし指数関数の微積分すら知らないレベルならあきらめるか、高校の理系教科書から始めるしかない。 指数関数を知ってるなら、正規分布の確率密度関数はeの肩が2次関数になっただけだから、それほど複雑な関数ではない。 いちばん簡単な2次関数はx^2。だからいちばん簡単な正規分布はe^(x^2) …と言いたいとこだけど、 これじゃxが大きくなるといくらでも大きくなって発散してしまうからマイナスのほうの2次関数でないとだめなので、e^(-x^2) 本質的にはこれだけだけど、確率密度ってことで積分して1にならないといけないから、e^(-x^2)の積分値で割っておく。 ちょうどベクトルを自分の長さで割って単位ベクトルにするようなもん。 その"規格化定数"が1/(√(2π))というのはちょっと難しい計算がいるけど、しょせん定数倍の調節にすぎない。 中心の位置や広がり具合が変化した一般の場合は、 2次関数で頂点の位置や開き具合が変化したものが a(x-p)^2+qになるのと同様。 ただし原点を通る2次関数しか考えないので、qはなくって、a(x-p)^2 でよい。 だから一般の正規分布は、要するに e^{-a(x-p)^2} という関数。 ただしa>0なのと、eの上に乗ってるせいで「aが小さい方が広がる」ことになるので、 aのかわりに1/σ^2と書く(こうすれば自動的に正だしσが大きいほど広がる)。 あと頂点のx座標はpじゃなくてmとかμを使う習慣。 なので e^{-(x-m)^2/σ^2} と書くことになるが、文字が変わっただけでしょ。 それと、積分値を1にするための調節の定数倍が、σの影響を受けて、1/(√(2π)σ)になる。 で結局1/(√(2π)σ)・e^{-(x-m)^2/σ^2} となる。 たしかに文字はいっぱいあるけど、定数・e^{2次関数}で、2次関数が平方完成された-a(x-p)^2の形になってるだけだろ? 傾き1で減点が頂点なら √(2π)・e^{-x^2} と簡単になるし(標準正規分布)、 一般の場合はこれを変数変換しただけ。
140 名前:132人目の素数さん mailto:sage [2008/12/25(木) 14:07:13 ] 正規分布の 確率密度関数の 証明はモーメント母関数 によるのが 解りやすいかな。 数理統計の教科書には 大抵載ってると思う。 1回は証明を理解 した方が良いかな。 自分で証明できんでも いいけど、気持ち悪い でしょ。出来る限り 丸覚えは避けられたい。
141 名前:132人目の素数さん mailto:sage [2008/12/25(木) 14:56:12 ] 式が分かっても、おそらく、じゃあ何でそんな関数に持っていくのか? というところから気持ち悪いんだと思うぞ。
142 名前:132人目の素数さん mailto:sage [2008/12/25(木) 14:56:44 ] >>131 iidじゃないが ベルヌーイ分布に従う 複数の確率変数… 多項分布? 多変量2項分布って 多項分布じゃ ないのかなあ…。 互いに排反事象と 言える必要があるが。 それに詳しい本は 不勉強で申し訳ないが 知らない。 β分布やディリクレ分布 を勉強してみると い%
143 名前:132人目の素数さん [2008/12/25(木) 15:00:15 ] >>137 というか、それを理解できるための準備に時間をかけるよりも、とりあえずは そういうものだっていう形で進めないと、講義が終わらんのよ。 疑問に思ったのなら、それよりも難しい本を読んで勉強しなさい。 それと、正規分布の形が真ん中(平均)が厚くて、すそに行くほど薄くなるって のは式の形から読めるので、正規分布の形(釣鐘型)になってるなってのがわか ればOK。 全区間(−無限から+無限まで)を積分して1になるってのも、数学できるんなら計算 すればわかる。 仮に、上に書いたことがわからないようだと、そもそも数学の基礎が弱いということ なので、なおさら説明に時間をかけても無駄です。
144 名前:132人目の素数さん mailto:sage [2008/12/25(木) 15:00:20 ] >>131 iidじゃないが ベルヌーイ分布に従う 複数の確率変数… 多項分布? 多変量2項分布って 多項分布じゃ ないのかなあ…。 互いに排反事象と 言える必要があるが。 それに詳しい本は 不勉強で申し訳ないが 知らない。 β分布やディリクレ分布 を勉強してみると いいかも…。
145 名前:132人目の素数さん [2008/12/25(木) 15:03:35 ] >>143 の書いているなんでそんな形になんて話になると、誤差と最尤法の話になるから もっとわからんと思う。 とりあえず、使ってみてなれておいて、それから考えた方がいい気はするね。 (んなこといいながら、私は気持ち悪いので納得するまで調べたが。w)
146 名前:132人目の素数さん mailto:sage [2008/12/25(木) 16:01:05 ] >>137 ということで、 正規分布は良く出てくるので式を理解したい気持ちはわかるが 裏には恐ろしい理論がかくれている(文系では、まずお手上げ)というのが 実態。 二項分布とかで、分布とは何かを理解して。 >>143 の言っているようなことを、 前提に利用を考えることが必要。 でないと、>>145 のような世界まで入らないと理解はできない。 ね〜〜、その方向に入ると、そら恐ろしいほど大変そうでしょ。 ちゃ〜〜んとした本が一冊かける理論になっちゃう。 まずは利用に徹しよう!!
147 名前:137 mailto:sage [2008/12/25(木) 16:42:58 ] 一から出直してきます
148 名前:132人目の素数さん mailto:sage [2008/12/25(木) 19:10:01 ] >>147 だから利用が無理というわけじゃないからね。 利用できるように正規分布の理論を用意してくれていると考えていいよ。 言い換えれば、そこまで理解しなくても、統計を使う・利用することはできる ということ。 数理統計が専門なら別だけど、応用分野の人は専門家でも多くは そういうレベルと思っていいよ。
149 名前:132人目の素数さん [2008/12/25(木) 19:52:36 ] >>139 ∫ e^{-x^2} dx = 1 / √π あれっ?
150 名前:132人目の素数さん mailto:sage [2008/12/25(木) 19:54:00 ] 蒸し返すつもりは 全くないけど>>137 も 一般的な数理統計の 本に書いてある証明 くらいは理解した方が よいと思う。 釣り鐘型の一般的性質や 誤差の議論なんかは まあ興味があればだけど。 式にある√(2π)とかも 重積分知ってれば 理解しやすいし、 モーメント母関数とかも 超重要だからね。 強要するつもりは ないのでただ使えれば いいと言うなら別だが、 興味があるなら高校の 数VC辺りからでも 地道にやることを 勧めたい。急がば回れ。
151 名前:149 mailto:sage [2008/12/25(木) 20:28:42 ] あぁぁ.. orz ∫ e^{-x^2} dx = √π
152 名前:132人目の素数さん [2008/12/26(金) 10:49:06 ] >>146 文系では、まずお手上げ 旧帝レベルなら十分に解るよ。
153 名前:132人目の素数さん mailto:sage [2008/12/26(金) 11:01:31 ] >>149 ,>>151 >>139 ではx^2の係数に一貫して1/2が抜けてるね。
154 名前:132人目の素数さん mailto:sage [2008/12/26(金) 13:05:30 ] ちょっと中心極限定理 と勘違いしてた。 正規分布の確率密度 の証明はベルヌーイ分布から 導くことができる。 中心極限定理だと モーメント母関数を用いる んだったかな。 関係性は高いが。 >>152 地底とかでも そうなんだが理論自体 というより所謂 文科系学生は 前提となる数学知識 が圧倒的に不足してる ケースが多い。例えば重積分 も知らないとなると 上記の話はどうにも 説明できなくなる。 数VCも未習となると もはや何も理解できない に近い。
155 名前:132人目の素数さん mailto:sage [2008/12/26(金) 22:34:00 ] >>152 旧帝レベルでも、文系の数学しかやってないと、積分のスキルが足りないので 全区間で積分して1になるが導けないと思うよ。
156 名前:132人目の素数さん [2008/12/26(金) 23:42:58 ] 今はPCが使えるから、数値積分で確かめさせれば良いと思う。 ソフトは表計算(ただしエクセル以外w)で十分だし、、、 それで数理構造に興味を持った奴だけが、 解析学と線形代数を勉強してから、統計理論をマスターする。 あと、統計コース修了資格も作って、上と下の資格は区別するとかね
157 名前:132人目の素数さん [2008/12/28(日) 08:27:50 ] 素人質問ですみません。 区間I = [0,1]において x=1 のとき確立P=1 0<=x<1のとき確立P=0 の場合の確立密度関数f(x)はもとめられないんでしょうか? どうも ∫ f(x) dx = 1 となるような関数が作れそうにないんです。
158 名前:KingMind ◆KWqQaULLTg [2008/12/28(日) 08:36:16 ] 素人質問ですみません、確立とはなんでしょうか。
159 名前:132人目の素数さん [2008/12/28(日) 08:49:44 ] δ(x-1)
160 名前:132人目の素数さん [2008/12/28(日) 09:02:02 ] 157です。 >> 159 回答、感謝です。 デルタ関数というものがあるんですね。
161 名前:132人目の素数さん mailto:sage [2008/12/28(日) 10:39:07 ] >>157 確率論の研究者を目指すのでもなければ、デルタ関数を持ち出したりせず、 確率密度関数は存在しない、と解釈しておいた方がいいと思う。
162 名前:132人目の素数さん mailto:sage [2008/12/28(日) 15:57:32 ] δ使えば >>107 みたいに連続と離散を区別する必要なくなるけどね
163 名前:132人目の素数さん mailto:sage [2008/12/28(日) 17:20:18 ] 連続と離散の区別を避けるため(だけ)に超関数を持ち出す、というのは鶏に牛刀かと。 カントールの分布(連続でも離散でもそれらの混合分布でもない)とかもあるし、 中途半端であまり実りが無いアプローチだと思う。
164 名前:132人目の素数さん mailto:sage [2008/12/30(火) 12:52:52 ] 初心者の質問で申し訳ないんですが 1つの群(20人)にA課題(データ@、データA)・B課題(データ@、データA) ・C課題(データ@、データA)をさせてA・B・Cのそれぞれのデータを 比較するには何の統計を使ったらいいんでしょうか? EXCEL統計を使ってなんですが、ウィルコクソンとかマンホイットニーとか どれを使ったらいいか分からないもんで・・・
165 名前:132人目の素数さん mailto:sage [2008/12/30(火) 14:01:01 ] どうでもよいがVistaはExcel統計に対応しているのか?
166 名前:132人目の素数さん mailto:sage [2008/12/30(火) 15:07:39 ] >>164 不明瞭すぎ。 まず、「何と何を」比較するのか?A課題について、データ@の「点数」とデータAの「点数」を比較する、B、C課題についても同様、か? A課題のデータ@とB課題のデータ@は、いずれも「データ@」と呼ばれているが、同じデータを指しているのか? 「点数」は連続値なのか順序カテゴリー値なのか名義カテゴリー値なのか?
167 名前:164 mailto:sage [2008/12/30(火) 16:21:48 ] >>166 レスありがとうございます 知りたいのは、 A課題のデータ@とB課題のデータ@を比較した際の有意差(BとC、AとCにおいても) A課題のデータAとB課題のデータAを比較した際の有意差(BとC、AとCにおいても)です。 データに関しては同じデータを指しています。 カテゴリー値については知らないため分からないのですが、データはそれぞれの被験者の ある角度の測定をしたものです(データの測定方法は一緒で、課題を行った際の変化を比較しようと考えています)。
168 名前:132人目の素数さん mailto:sage [2008/12/30(火) 17:57:51 ] まず、データ@について(データAについても同様に行えばよい)。 各個体(各被験者)について、A課題とB課題の値の差を求める。 20個の値が得られるはず。 それを符号付順位和検定(一標本Wilcoxon検定)すればよい。 B課題とC課題、C課題とA課題についても同様。 検定の多重性を考慮する必要があれば、有意性を判断する際に シェイファーの方法(Shaffer's method)などを用いる。 可能なら、専門家に相談した方がいい。 実験の目的やデータの素性を説明すれば、正しい解析方法を教えてくれるだろう。 上述の解析方法は、「おそらく正しい」やりかたにすぎないので。
169 名前:164 mailto:sage [2008/12/30(火) 18:49:39 ] >>168 わざわざありがとうございました。 年末年始で相談が困難なため、一応それですすめてみて 年明けに教えをいただいている方に確認してみようと思います。
170 名前:132人目の素数さん mailto:sage [2008/12/30(火) 21:59:48 ] >>158 スレ違い。 ”確立"は、もしあったら、哲学板。
171 名前:132人目の素数さん [2009/01/01(木) 20:06:08 ] 一般化線形モデルについて質問です。 一般化線形モデルは、リンク関数と確率分布が肝になっていると思います。 そこでよく解らないのが、確率分布は観測値そのものの変動を表しているのか、 それともリンク関数で変換後の値を表しているのかということです。 例えばポアゾン分布の場合、 y = exp(aX1 + bX2 + c) の y の分布を表しているのでしょうか? それとも logy = aX1 + bX2 + c の logy の分布を表しているのでしょうか? どちらでしょう?
172 名前:132人目の素数さん mailto:sage [2009/01/01(木) 20:56:24 ] >>171 まちがって理解していないでしょうか。 Logistic 回帰が一般化線形モデルの一種であることは知っていますか? Logit(E(Y)) = aX1 + bX2 + c というように、「期待値を」リンク関数(ここでは logit)で 変換したものが共変量の線形結合で書ける場合に一般化線形モデルといいます。 Logistic 回帰モデルで個々の観測値 Y は二項分布に従いますが、 期待値 E(Y) は X1 や X2 が与えられたもとでは定数です。
173 名前:132人目の素数さん mailto:sage [2009/01/01(木) 21:45:23 ] なるほどLogistic回帰の場合、 > Logit(E(Y)) = aX1 + bX2 + c 変換前の Y が2項分布に従うということですね? その上で Y は確率変数だが、 その期待値のE(Y)は定数であるとおっしゃっていますよね? ここまではお陰さまで理解できたのですがまた疑問が生まれました。 Y のLogit変換後の変数はどんな分布に従うのでしょうか? そもそもYの期待値をLogit変換するのだから、 Yの分布を論じるのは的外れなのでしょうか? (そういえばロジット変換後に最小二乗方でパラメータ推定していた、 レポートを見た記憶があります。よろしくはないと思うのですが・・・)
174 名前:132人目の素数さん mailto:sage [2009/01/02(金) 00:48:20 ] >Y のLogit変換後の変数はどんな分布に従うのでしょうか? 自分で考えてみましたか? Logistic 回帰なので、Y は 確率 p で 1、確率 1-p で 0 となる変数です。 Logit 1、Logit 0 の値は?実数ではないですね。 >Yの分布を論じるのは的外れなのでしょうか? でしょう。統計学の研究者にとっては意味があるかもしれませんが… >よろしくはないと思うのですが・・・ よろしくない理由を突き詰めて考えると勉強になりますよ?
175 名前:132人目の素数さん [2009/01/02(金) 01:33:41 ] 【1】>Logit 1、Logit 0 の値は?実数ではないですね。 実数ではないので、1や0の場合は、0.001など微小な数字を加減してLogit変換をしていました。 そうした後は期待値が直線になることは確認済みです。 でもその分布がどうなるかが解らないのです。 数式を展開する能力もないのでヒントでもご教授いただけるとありがたいです。 【2】>>Yの分布を論じるのは的外れなのでしょうか? >でしょう。 Yの分布を論じるのが的外れだというのなら最尤推定が成り立たないと思うのですが・・・ 【3】よろしくない理由は、Logit変換後の変数が正規分布でないからですよね。 2の質問に繋がると思うのですが・・・難しいです。
176 名前:132人目の素数さん mailto:sage [2009/01/02(金) 03:07:24 ] >数式を展開する能力もないのでヒントでもご教授いただけるとありがたいです。 解なし、です。考える意味が無いのです。混乱させたら申し訳ない。 >Yの分布を論じるのが的外れだというのなら最尤推定が成り立たないと思うのですが・・・ 「右辺が aX1 + bX2 + c + ε で ε が正規分布」、でないことはお気づきですね。 実は、logit(E(Y)) = aX1 + bX2 + … + c は「確率的でない」方程式であり、 誤差とか確率とか統計とか、考える必要はないのです。 で、E(Y) が定まったからといって、Y は定まりません。定まるのは、Y の分布です。 最尤法は、E(Y) (これは X の関数です) と、Y の実現値を結ぶときに使われます(ここが確率的)。 試しに、単回帰分析や logistic 回帰分析を一般化線形モデル流に書いて考えてみてはどうでしょう?
177 名前:132人目の素数さん mailto:sage [2009/01/02(金) 11:33:34 ] なるほど。お陰さまですっきりしました。 ただ、まだすっきりしない点もあるので、勉強を続けたいと思います。 ありがとうございました。
178 名前:132人目の素数さん mailto:sage [2009/01/02(金) 15:44:06 ] 初心者で大変申し訳ございませんが、 テレビの視聴率は関東地方で600世帯を対象として調査されるという条件の下、 ある番組のスポンサーが世帯視聴率が10%に達しなければ番組を 打ち切りにしろと言っているとき、最低限何%の世帯視聴率を取れば 番組が打ち切られずにすむか、どうやったら解けるでしょう。 (スポンサーは統計学の正しい知識をもっており、 有意水準1%で判断するものとし、 世帯視聴率が10%に達しないという対立仮説を採択せずに すむにはどうすればよいかを考える問題です。) 仮説検定を逆から考えるのが出来ない、 つまり全然理解が出来てないってことで萎えてますorz
179 名前:132人目の素数さん mailto:sage [2009/01/02(金) 15:54:32 ] >>178 ・関東地方の世帯視聴率か? ・全部で何世帯あるとするのか? という点は置いておくとして 世帯視聴率が10%に達しないという対立仮説を採択せずにすむにはどうすればよいか ではなくて 世帯視聴率が10%に達しないという対立仮説を棄却するにはどの程度の視聴率が必要か という話じゃないのか?
180 名前:132人目の素数さん mailto:sage [2009/01/02(金) 16:15:23 ] >>179 関東地方の世帯視聴率です。 僕の問題文の解釈では、 10%に達しないという対立仮説を棄却するために必要な視聴率 を出せばよいと考えています。 60万−2.326×√(不偏分散/n) とかでしょうか・・・
181 名前:132人目の素数さん mailto:sage [2009/01/02(金) 16:15:36 ] >>179 関東地方の世帯視聴率です。 僕の問題文の解釈では、 10%に達しないという対立仮説を棄却するために必要な視聴率 を出せばよいと考えています。 60万−2.326×√(不偏分散/n) とかでしょうか・・・
182 名前:132人目の素数さん mailto:sage [2009/01/02(金) 18:06:56 ] >>181 検定でなく推定で考えたら? 600世帯での標本比率がx%だったとき、有意水準1%での推定誤差は±2.58×√(x(1-x)/600)だから、 真の視聴率が最悪でも10%以上のはずと(1%の危険で)言えるためには 10≦x-2.58×√(x(1-x)/600) であればよい。 (なお、2.326は上側1%点だけど、片側にできる理由がわからんので 両側1%点である2.58を使うべきジャマイカ)
183 名前:132人目の素数さん mailto:sage [2009/01/02(金) 18:12:46 ] >>182 1-xのところ、100-xだ
184 名前:132人目の素数さん mailto:sage [2009/01/02(金) 18:39:47 ] >>181 帰無仮説をH0:「視聴率はちょうど10%である」とすると、 標本比率がx%のとき、H0のもとでのp値は (x-10)/√(10(100-10)/600) となるので、これが>2.236であれば、H0は有意水準1%で棄却される。 xが大きい方への誤差だけ考えているので、片側でよく、 このとき対立仮説「視聴率は10%より高い」が採択される。 すなわちx>10+2.326√10(100-10)/600)であればよい。 >>182 とあまり変わらない式だが、標本分散の部分にxでなく 仮説値を使っているので式が簡単なのと、 パーセント点に2.58でなく2.326を使っている点が異なる。 自分も自信があって書いているわけではないので (片側検定と両側検定の区別がイマイチわからない)、 専門家がいたらこれでいいかどうか教えてホスィ…
185 名前:132人目の素数さん mailto:sage [2009/01/02(金) 18:53:55 ] >>184 俺もこういう場合片側でいいのかと思ったんだが。 対立仮説が不等号な分けだし。 ただ(100-10)がなんでだか分からないのだが・・・ 600は600万の間違い?
186 名前:132人目の素数さん mailto:sage [2009/01/02(金) 19:47:45 ] 統計学をかじったことはないので、分かりにくければすみません。 テスト管理の実務についての疑問です。 2つの100点満点のテストA,Bがあります。 1000人がAのテストを受けました。 100人がBのテストを受けました。 Bのテストの受験者にはAのテストの受験者も含まれていますが、 全員がそうというわけではありません。 私はBのテストの主催者で、以下のことを知っています。 ・受験者全員のBのテストの得点 ・Aを受験した生徒についてはその得点 ・Aの平均と標準偏差 このとき、 ・Aを受験していないある生徒がBのテストで獲得した得点と偏差値 から ・もしその生徒がAを受験した場合獲得できる得点と偏差値 を知ることはできるでしょうか。もしできるのでしたら方法を教えてくだされば幸いです。
187 名前:186 mailto:sage [2009/01/02(金) 19:55:06 ] ちなみに現在は、 A,Bの標準偏差を stdA,stdB、平均値を avgA,avgB Aを受けたBの生徒のA得点の平均,偏差値を innerAvg,innerStd 求めたいある生徒のBのテストでの得点を score とすると、 得点 score' = (score - avgB) / stdB * innerStd + innerAvg 偏差値 dev' = (score' - avgA) / stdA * 10 + 50 と求めています。 しかし、もっと正確な方法がありそうですね…
188 名前:132人目の素数さん mailto:sage [2009/01/02(金) 21:02:25 ] 年末年始だがいつもにも増して質問ラッシュだね…
189 名前:132人目の素数さん mailto:sage [2009/01/02(金) 21:17:18 ] >>175 正規分布仮定がなくとも確かBLUEは満たすんじゃなかったか?だから最小自乗法自体を適用してはならないとは言えない気が。正規分布仮定がないと確かに推定値の推定や検定は行えないが…。 線型モデル式自体は線型代数を学んでないと解りにくいだろう。通常は説明変数が基底をなしている仮定が置かれている。ベクトルの線型独立や基底の概念が解らないといまいち捉えにくいだろう。
190 名前:132人目の素数さん mailto:sage [2009/01/02(金) 23:56:46 ] どうしてBLUEを満たすのさ?何の略語だか知ってる?
191 名前:132人目の素数さん mailto:sage [2009/01/03(土) 00:46:08 ] >>185 xを0≦x≦1の小数(つまり本当の比率)とするなら x>0.1+2.326√0.1(1-0.1)/600) だが(つまり本来の公式では√の中はp(1-p))、パーセントを単位としたため全体が100倍されているだけ。 (√の中では0.1と(1-0.1)の両方が100倍される) 分母の600は標本数n
192 名前:132人目の素数さん mailto:sage [2009/01/03(土) 00:56:00 ] >>185 >対立仮説が不等号な分けだし。 いや、対立仮説は恣意的に決めてよいわけではないでしょ。 帰無仮説p=0.1が棄却されたとき、対立仮説としてp>0.1を採用していいのか、 p<0.1の可能性はまったくないとしていいのかってこと。 それはデータが出る前に状況から確定していなければならないはず。 データxが0.1よりかなり大きく出る条件のことを考えているので片側でいいような気もするが、 データがでる前から「ちょうど0.1か0.1より大きいかどちらかのはずだ」とは 確信できないように思うんだ、この場合。
193 名前:132人目の素数さん mailto:sage [2009/01/03(土) 01:05:08 ] >>189 重回帰分析は(正規分布が指数型分布族なので)一般化線形モデルの一種で、 たまたま最小二乗推定が最尤推定になりますが、一般の一般化線形モデルでは 最小二乗推定の性質は個別に検討する必要があり、例えば logistic 回帰の場合は 観測値の logit が存在しない時点でそもそも最小二乗推定が不可能、ということです。
194 名前:132人目の素数さん [2009/01/03(土) 02:35:06 ] 竹村『現代数理統計学』を読んでいるのですが、10章の問題4がどうしても 解けません。 \int_{a}^{b} \partial/\partial\psi f_{n}(w, \psi) dw | _{\psi=1} = 0 を部分積分することにより a f_{n}(a, 1) = b f_{n}(b, 1) を導け、という問題(f_{n}は、カイ二乗分布の密度関数を少しいじった もの)なのですが、いくら考えてもわかりません。 どなたか、何らかのご教示をいただけませんでしょうか。 宜しくお願いします。
195 名前:132人目の素数さん mailto:sage [2009/01/03(土) 04:21:25 ] 池◆◆◆田◆◆◆大◆◆◆作の本名はソ◆◆◆ン・テ◆◆チ◆◆◆ャク。 小◆◆泉◆◆純◆◆一◆◆郎、小◆◆沢◆◆◆一◆◆朗は朝◆◆◆◆鮮◆◆◆人。 9◆◆◆11では小◆◆◆型の水◆◆◆爆が使用されている。 r ◆◆◆i■ch◆◆◆ardk◆◆◆osh■im◆◆◆izu.at.we◆br◆y.in◆f◆o/ 創◆◆◆価の◆◆保◆◆◆険金殺◆◆◆人事◆◆◆件。 オ◆◆◆ウ◆◆◆ム事◆◆◆件は、統◆◆◆◆一・創◆◆◆◆価.北◆◆◆朝◆◆鮮の共◆同犯行である。 C◆◆◆I◆◆Aが監◆◆修している。 www15.o ◆◆cn.ne.jp/~oy■◆◆ako■◆◆don/kok_web■site/ir■ig◆◆◆uc■hi.h◆◆◆tm 与◆◆◆◆党も野◆◆◆◆党もメ◆デ◆◆◆ィ◆◆アも全◆◆部朝◆◆◆鮮◆◆◆人だった。 jb ■bs.li■vedo■or.jp/b■◆◆bs/read.c◆gi/ne◆◆◆ws/20■◆◆92/11◆◆57◆94◆■13◆◆06/ 2◆◆チ◆◆◆ャ◆ン寝るは「■とう◆◆◆◆一■教■■会■」が 運◆◆◆営して「個◆◆◆人じ◆◆ョ◆う◆ホ◆◆う」を収集してる。 駅◆◆前で「■手◆◆◆◆◆相を見せてください」 と「カ◆ン◆ゆう」してるのが「■と◆う◆◆◆一◆◆■教■■会■」。(カ◆◆◆◆ルト宗■教) ユ◆ダ◆ヤ権◆力の◆子◆分→2◆ち◆ゃ◆ん運◆◆◆◆営=「とう◆◆◆一◆教◆会」上層部=層◆化◆上◆層◆部=自■民党清■和会=野党の朝■鮮■人ハーフの政治家= 与党の朝◆鮮◆人ハーフの政治家=金◆正■■日(キ◆ム・ジ◆ョン◆◆◆イル )=読◆◆売サ◆ン◆ケ◆イ=小◆◆◆沢◆十◆朗。 毎◆日■■■新聞◆◆◆スレを荒◆◆◆らしてる◆奴◆◆らも「◆とう■■■一■教■■■会◆」。 荒らしは洗◆◆◆脳するために「ネ◆ト◆ウ◆◆◆ヨ」などのレ◆◆ッテ◆ル◆付◆けレ◆スを何◆千◆◆回もする。 現◆◆◆実には「ネ◆ト◆ウ◆◆◆ヨ」などは存◆◆在し◆◆ない。 c ◆ha◆ng◆◆◆i.2ch.net/te◆◆st/r◆ea◆d.cg◆i/m◆◆s/12◆30◆36◆◆◆33◆8◆5/
196 名前:132人目の素数さん mailto:sage [2009/01/03(土) 05:38:35 ] >>186-187 試験Bの得点から、同じ生徒の試験Aの得点を予想する問題なので、 統計的には「回帰分析」を使う。 1. まず散布図を描く 標本:試験A,B両方を受けた生徒全員 横軸:試験Bの得点(score_B)、縦軸:試験Aの得点(score_A) 2.散布図に当てはまる直線 score_A = 切片 + 勾配・score_B を推定すると、目的とする予想式(score_B → score_A)が得られる。 (Excelだと散布図の系列メニュー「近似曲線の追加」「グラフに数式を表示する」) 3.散布図が曲線的な傾向を持つ場合や、予想値が100以上や負の値になって マズい場合には、またここで相談する。
197 名前:132人目の素数さん [2009/01/03(土) 11:36:43 ] >>194 ψで偏微分すれば与式は ∫(n/2-w/2)f(w,ψ)dw = 0 となる。 ψ = 1を代入すると ∫(n/2-w/2)f(w,1)dw = 0 そして (d/dw)(wf(w,1)) = (n/2-w/2)f(w,1) となることから a f_{n}(a, 1) = b f_{n}(b, 1) を導けます。
198 名前:132人目の素数さん mailto:sage [2009/01/03(土) 12:33:36 ] >>193 よく読んでなかった。悪かった。
199 名前:194 [2009/01/03(土) 12:53:12 ] >>197 どうもありがとうございます。なるほど、納得しました。 これは、伺わなければわかりませんでした。聞いてよかった。
200 名前:186 mailto:sage [2009/01/03(土) 20:37:55 ] >>196 ありがとうございました。無事解決しそうです。 計算はこの式を参考にMySQLで行いました。 www.sys.wakayama-u.ac.jp/mc/IP2/IP2-2/kaikishiki.htm
201 名前:132人目の素数さん mailto:sage [2009/01/04(日) 04:28:06 ] >>189-190 >>193 最小自乗推定量が最小分散線形不偏推定量(BLUE)満たすかは誤差項の正規分布仮定でなく分散不均一か均一かによるのでは? 重回帰分析では最尤推定量と最小自乗推定量は一致し、確かに最尤推定量は誤差項の正規分布仮定がないと得られないが、最小自乗推定量自体は正規分布仮定がなくとも得られる。 最小自乗推定量は等分散仮定ならBLUEを満たすが、不均一分散なら不偏性は満たすが最小分散性は満たさない。 分散不均一の場合の一つのモデルがロジットモデルであり観測値が得られない場合は何らかの代替的処理が必要だが、加重平均最小自乗法なりに変える方が望ましいものの最小自乗法自体の適用は可能ではと思うのだが…。
202 名前:132人目の素数さん mailto:sage [2009/01/04(日) 13:28:08 ] 可能だけどBLUEじゃないってのは解ったんでしょ?それが結論では?
203 名前:132人目の素数さん mailto:sage [2009/01/04(日) 16:48:02 ] >>202 まあそうなんだけど通常の最小2乗法だと満たさないから、満たすような変形モデル(例えば加重最小2乗法)を設定するのも可能だと言いたかっただけだよ。勘違いしてるとこあったらスマン。
204 名前:132人目の素数さん [2009/01/04(日) 20:44:58 ] 統計の考え方というか解釈についてお尋ねしたいのですが, ある2つの条件AとBがあって, 条件Aではある測定項目間に有意な相関があったがBではなかったとき その条件の違いはそれらの項目間に相関関係を生じさせる効果がある という推論はどのくらい妥当なのでしょうか。
205 名前:132人目の素数さん [2009/01/08(木) 20:00:15 ] 最大値10.0 最小値3.5のデータの範囲は6.5ですが、 これを階級数6となるようにするには R/6 としないとだめなのですか? きりがわるくなってまうんですけど。
206 名前:132人目の素数さん mailto:sage [2009/01/08(木) 22:43:09 ] >>205 階級数7はだめなのか?
207 名前:132人目の素数さん mailto:sage [2009/01/08(木) 22:51:53 ] >>204 条件Aと条件Bに差があるかということならこれだけでは分からないでしょう。 たとえば、Aのp値が0.049でBもAと同じ符号の相関でp値が0.051とかなら 2つの条件に差があるとは思えません。
208 名前:132人目の素数さん mailto:sage [2009/01/09(金) 00:40:43 ] フォーマルな解答の載っている問題集(問題がいっぱい載ってる解説書でも)知りませんか? もちろん統計学の。
209 名前:132人目の素数さん mailto:sage [2009/01/09(金) 00:41:31 ] >>206 7にしてもいいのであればしたいのですが、 R/6以外のにしてもいいのですか?
210 名前:132人目の素数さん mailto:sage [2009/01/09(金) 01:28:00 ] なんで 6 にしないといけないと思ってるの? 階級数 6 にしないと切りが悪くなるという意味が良く分からん。 階級値の区切りも階級幅もなるべく切りの良い数字を取るというのが ごく基本的なルール。因みに階級の数は n をデータ数としたとき、 大体 1 + log(n)/log(2) と同じくらいになるようにするのが適切と言われてるので ベストな階級数はデータ数にも拠るとしか言いようがない。
211 名前:132人目の素数さん [2009/01/10(土) 01:32:04 ] 収束と極限ってどういう意味ですか?
212 名前:132人目の素数さん mailto:sage [2009/01/10(土) 02:40:41 ] 何でこのスレに? 文系の人かな。高校三年の数学教科書/参考書とか、 あと大学一年の微分積分の教科書とかに懇切丁寧に書いてあるよ。
213 名前:132人目の素数さん mailto:sage [2009/01/10(土) 18:59:52 ] >>210 まず問題が階級数6となるように区間幅を決定せよ、というものなんです。 データの最大値は10.0で最小値は3.5です。
214 名前:132人目の素数さん mailto:sage [2009/01/10(土) 21:01:55 ] こんばんは。 訳あって統計学を独学ではじめたのですが、基本書を調べても載ってなかったので 質問させてください。 標準偏差が平均値より大きくなってしまった場合の処理がよくわかりません。 例えば3人のテストの点数が1,2,100点として求めるとそのようになってしまいます。 そもそも、そういったデータは正規分布ではないから標準偏差を使って調べるのは適切 ではないということでしょうか。 よろしくおねがいします。
215 名前:132人目の素数さん mailto:sage [2009/01/10(土) 21:13:33 ] 標準偏差は別に正規分布でなくても使って良いよ。 そこから偏差値とかを計算して どのくらいの意味があるのかは分からないけど。 ただこういう場合はまずヒストグラムとか作ってみて 大雑把に分布を把握したりするのが先じゃないのかな。 ほとんどの場合はそれで充分だし。
216 名前:132人目の素数さん mailto:sage [2009/01/10(土) 21:14:05 ] >>213 一世代前の統計ソフトのような問題だな。w
217 名前:132人目の素数さん mailto:sage [2009/01/10(土) 21:22:25 ] >>215 そうなんですか、その場合マイナスになったらどう考えればいいんでしょう? 上の例の場合平均34点 標準偏差46点ぐらいになりますから、 34±46内にデータの66パーセントが・・と考えてもどうもしっくりこないんです。 単に0〜80点の間にと解釈していいのでしょうか? 平均と標準偏差の意味とか役割を説明しなきゃいけない問題なので、 平均点は同じなんだけど ひとつは平均点周辺の点数が多いデータ もうひとつは非常に偏った(1,2,100みたいな)データを用意して この二つは平均点は一緒だけど、ばらつきは測定できないから〜 という流れで標準偏差を持ち出したかったんです。 数値は出ているので、その負になる考え方が理解できない・・という感じです。
218 名前:132人目の素数さん [2009/01/10(土) 21:52:41 ] >>217 得られたデータに最もよく当てはまる正規分布を求めると いわゆる平均と標準偏差の計算の結果と一致するようになっている 得られた正規分布をどう解釈するかはまた別の話
219 名前:132人目の素数さん mailto:sage [2009/01/10(土) 22:03:50 ] >>217 66%も何もサンプル3人でしょ…。正規分布だと2σ区間(偏差値なら30〜70ね)が約95%のデータが入るけど3人じゃt分布とも言えないような…。離散データを正規分布みたいな連続分布で近似するのはサンプル数が多い場合だよ。 >>213 階級数と区間幅はケースバイケースだと思うけど…。目安的な階級数にはデータ数に基づくスタージェスとかテレル・スコット基準とかあるけど、例えばレンジ(範囲)とかによって階級数が画一的に決められるわけではない。
220 名前:132人目の素数さん mailto:sage [2009/01/10(土) 22:14:59 ] >>219 言いたい事を上手く伝えられるように簡単な表現で書きました。 実際に考えているものでは15個くらいのデータを使っています。 それでも少ないと言われたら私の考え方自体間違っているのかもしれないです。 問題を解く上でまだt分布という考え方は与えられていません。 自分の聞きたい事と返答が一致しているように思えないので たぶん私何か勘違いしてるみたいです。 明日勉強しなおします。色々教えてくれてありがとう。理解不足ですいません。
221 名前:132人目の素数さん mailto:sage [2009/01/10(土) 22:24:19 ] >>20 数学的には負になっても問題はないよ。データ数15じゃ正規近似は難しいね…。 ちなみにばらつきが大きくなるとイメージ的には正規分布の山型の裾がだんだん広がっていくんだよ。ばらつき∞なら分散0の分布(パルス)と丁度反対な水平線のイメージかな。
222 名前:132人目の素数さん mailto:sage [2009/01/10(土) 22:26:09 ] >>220 だった。ごめん。
223 名前:132人目の素数さん [2009/01/10(土) 22:52:47 ] 予習してこいといわれたのですがわかりません。 区間推定の問題なんですが、56,40,70,68,76で、信頼係数95%で計算しろという問題です。 まず、5つの平均値を出して62が出ました。 次に普遍分数を出さなければいけないと思うんですが、普遍分数の出し方ってどうやるんでしたっけ・・・?orz
224 名前:132人目の素数さん mailto:sage [2009/01/10(土) 22:58:50 ] >>220 あくまで目安だけど近似に際してはデータ数が30以上くらいじゃないと正規分布に当てはめるのは微妙だよね。それ以下ならt分布が妥当かな。何でもかんでも正規分布で説明できるわけじゃないということだね。
225 名前:132人目の素数さん mailto:sage [2009/01/10(土) 22:59:11 ] 普遍分数じゃなくて「不偏分散」だから。ぐぐれ。
226 名前:132人目の素数さん [2009/01/11(日) 00:00:25 ] In(OR)=(O-E)/V と近似できる理由を教えてください
227 名前:132人目の素数さん mailto:sage [2009/01/11(日) 20:52:36 ] >>217 >上の例の場合平均34点 標準偏差46点ぐらいになりますから、 >34±46内にデータの66パーセントが・・と考えてもどうもしっくりこないんです。 >単に0〜80点の間にと解釈していいのでしょうか? 平均±標準偏差×倍率 という相対度数の計算は、平均を軸に「左右対称な分布」で無いとダメ。 なぜなら、「±」という演算が、平均の右側と左側を対称に扱ってるから。 そのケースだと、分布に強い右歪みがあるので、おかしな結果になる。 統計的手法としては、端点を無限に引き伸ばして定義域の矛盾を無くし、 分布の歪みを軽減するような変換を使う。例えば、ロジット変換など。 つまり、分布が対称で変数の上下限を意識しなくて良い状況で「標準偏差」を 使うか、そうでない状況では「標準偏差」を使わずに目的を達成するか、 どちらかを選ぶということ
228 名前:132人目の素数さん mailto:sage [2009/01/12(月) 00:18:07 ] 統計学は習い始めたばかりなので質問させてください。 例えば、商品の売り方や商品の注文方法別の利益額、商品売上数等を計上し、 その結果に基づいて「売り方は○、注文方法は●のほうが最も多くの 利益をあげられる」という答えを導き出すことはできますか? ちなみに商品は1種類と考えた場合です。 先輩に聞いたところできることはできると言われましたが、 これは回帰分析や組合せ最適化あたりで導き出すのでしょうか。 よく分かりません。アドバイスお願いします。
229 名前:132人目の素数さん mailto:sage [2009/01/12(月) 01:12:43 ] 商売のことは、先輩に訊いたらよかんべ。
230 名前:132人目の素数さん mailto:sage [2009/01/12(月) 03:46:06 ] 度数分布表における階級度数fの求め方教えてよ。
231 名前:132人目の素数さん mailto:sage [2009/01/12(月) 06:47:14 ] >>230 階級の数が4以下なら、データを見ながら、第一階級を左手指、 第二階級を右手指、第三階級を左足指、第四階級を右足指で カウントしてゆく。 階級の数が5以上なら、誰かに手伝ってもらう。 チンコは使うな。筋肉痛になるから
232 名前:132人目の素数さん [2009/01/13(火) 16:03:03 ] 5段階評価についての問題で意味と計算例を〜という問題でました。 それだけならなんとかだけど 合計人数が40人のときの人数調整は「3」のレベルの人数で行えと…。 意味がよくわからないです・・
233 名前:132人目の素数さん mailto:sage [2009/01/13(火) 16:28:27 ] おそらく四捨五入とかで5段階に割り振ると、合計が40人にならないので 3のレベルを加減しろという意味だろう。
234 名前:132人目の素数さん mailto:sage [2009/01/14(水) 00:39:00 ] 馬鹿でごめん…。 3のレベルを加減がぴんときてないわ。 分類すると、2,8 9,6 15,2 9,6 2,8だし 3 9 16 9 3にすればいいんだろうか…。
235 名前:132人目の素数さん mailto:sage [2009/01/14(水) 19:25:25 ] 9.6の四捨五入は10ね. で、第3階級は普通に四捨五入すると15になるけど、 合計40にするために14とするってことだろう.
236 名前:132人目の素数さん mailto:sage [2009/01/15(木) 01:33:03 ] なるほど。 ありがとうございました。 単語でぐぐってもぴんとこないのが…。 年齢別による人口全体の3区分法。 0〜14歳を年少人口 15〜64歳を生産年齢人口 65歳以上を老年人口 ただこれだと3区分なだけな気もして。 高齢社会(高齢化社会とは別です) 特化係数 各経済活動別総生産の構成比率を全国の構成比率で除したもの この3つです。
237 名前:132人目の素数さん mailto:sage [2009/01/15(木) 13:05:59 ] >>236 無関係ではないが統計理論というよりどちらというと社会調査的な話だな。こういうのは厳密に正しい答えがあるわけじゃないから、すぐに連続で質問するんじゃなくて少し自分で色々と調べてみると良い。
238 名前:132人目の素数さん mailto:sage [2009/01/15(木) 22:01:14 ] >>236 今じゃなくて暇ができたとき、どこかで、数値の丸め方にも目を通しておくと良いよ。 工業的にあるていど精度が必要な場合には、学校で習った四捨五入 とは異なる形でデータを丸めるのが普通なんです。 その方が統計的にみれば正しいということからなんですけど。 JISの規約を見れば書いてあるとおもいますよ。取引なんかでも使われ ますので、知っておいた方がいいんじゃないかな〜。
239 名前:132人目の素数さん mailto:sage [2009/01/16(金) 13:30:38 ] 標本数が多い場合→母分散の既知未知関係なく正規分布 標本数が少ない場合→母分散未知ならt分布 って書いてあるんすけど 標本数が少なくて母分散既知の場合はどっちになるんですか?
240 名前:239 mailto:sage [2009/01/16(金) 13:36:51 ] やっぱ標本数少ないからt分布なんかなぁ・・ はっきり書かれてないから自信が持てない
241 名前:132人目の素数さん mailto:sage [2009/01/16(金) 15:48:31 ] 分散が何故か分かっているという非常に不自然な場合は 標本数が少なくても正規分布で大丈夫だよ。
242 名前:239 mailto:sage [2009/01/16(金) 16:01:56 ] 241さん、待ってました! あの後も色々しらべたんだけど、おっしゃるとおり、正規分布のほうでよいみたいですね 確認できて助かりました。ありがとう(^o^)♪
243 名前:132人目の素数さん [2009/01/16(金) 19:49:53 ] 正規分布N(0,1)の[-1.96, 1.96]上の切断分布から乱数生成することを考えます。 このとき、(-∞, ∞)の正規乱数を生成し、[-1.96, 1.96]の範囲外の乱数は 破棄するという方法は正しいでしょうか。
244 名前:132人目の素数さん mailto:sage [2009/01/16(金) 21:08:18 ] コンジョイント分析について質問させて下さい。 例えば3属性のうち1属性に5水準を設け、ダミー変数におきかえる場合のモデル設定は、 他の残りの属性と同じような扱いで(パラメータ×それぞれの属性)よいのでしょうか? また、対数尤度関数の一階と二階の条件を計算する時にも、他の3属性と同じような扱いをしてよいのでしょうか?
245 名前:132人目の素数さん [2009/01/17(土) 14:24:45 ] ウィキペディアでは一様分布の期待値がすべて(a+b)/2となってるけど 離散では(a+1)/2これはb=1ってこと? (0,a)上の一様分布の期待値は a/2 ? a+1/2 ?
246 名前:132人目の素数さん [2009/01/17(土) 18:42:14 ] ウィキペディアはすべてただしい
247 名前:132人目の素数さん mailto:sage [2009/01/17(土) 18:42:59 ] >離散では(a+1)/2これはb=1ってこと? 意味不明です。 >(0,a)上の一様分布の期待値は a/2 ? a+1/2 ? (0+a)/2 で a/2。a=1 の場合などを考えればすぐわかると思うのだけど?
248 名前:132人目の素数さん [2009/01/17(土) 18:56:28 ] >>247 離散のとき公式として?(a+1)/2と乗ってるけどこれは(1、a)上のときってこと?
249 名前:132人目の素数さん [2009/01/17(土) 19:43:05 ] すみません、他の人がやった実験を手伝うことになったのですが、 統計をあまりやったことがないのでわけわかめです。 調べたのですが、そもそも何を調べていいのかよくわかりません。。 アドバイスお願いいたします。 2人が組になったグループが4つあり 質問してYESとNOを数回ずつ聞きく実験を2回行います。 問題は、それぞれのグループが行った実験回数がバラバラだということです。 これを最初の実験のYESの数、NOの数、 二回目の実験のYESの数とNOの数で4グループにわけました。 (たとえば↓) 実験1回目 実験2回目 yes no yes no グループ1 7 3 4 3 グループ2 12 4 6 3 グループ3 15 8 13 8 グループ4 11 8 11 10 ここで、それぞれの実験がYESの数の割合の方が高く、 さらに実験2のYESよりも実験1のYESの方が 有意に割合が高いといいたいのです。 分散分析でやればいいのかなと最初は考えていましたが、 それぞれの回数がバラバラなので、単純に数ではなくて 割合とか点数に直した方がいいのかなど 考えていたら、さっぱり進まなくなりました。 大変初歩的な内容だと思うのですが、お力を貸してください。。
250 名前:132人目の素数さん mailto:sage [2009/01/17(土) 19:51:40 ] >>243 特定の分布から得られるデータから正規乱数(ただし[-1.96,1.96])を生成したいということかな。正しいと思いますが…。
251 名前:132人目の素数さん mailto:sage [2009/01/17(土) 19:58:32 ] >>245 一様分布の期待値の公式は離散でも連続でも変わらない。ただし分散は異なる。離散の場合さいころで、連続の場合は適当に(0,1)範囲の関数でも設定して実験してみればよい。
252 名前:132人目の素数さん mailto:sage [2009/01/18(日) 19:45:43 ] >>249 対数線型モデルでやってみたら?
253 名前:132人目の素数さん mailto:sage [2009/01/18(日) 20:06:37 ] 「有意水準」「第一種の過誤」の意味に関して聞きたいです。初心者なんですが、助けてください。例えば、ある試験の得点についてある母集団(正規分布しているとする)から無作為に抽出したとき、 得点が 【 16,24,32,35,36,43,47,49,55,63 】だとし、「母平均が50点である」という仮説を有意水準5%で検定します。 帰無仮説:μ=50 対立仮説:μ≠50 t=(標本平均ー50)/√(不偏分散/n)=(40−50/√(203.33/10)=-2.21766 -t0.025(10-1)=-2.262 より、帰無仮説は棄却されず、採択されました。 ■このとき、「有意水準」の解釈を以下の点で伺いたいです。 1.「どういった状況で」 2.「どのようなことを無限回繰り返したときに」 3.「何が起きる比率が5%なのか」 4.「上の例で帰無仮説は棄却されないという判断を下したが、これは現実に観測された結果をどう考えた結果なのか。」 ■以下が僕の解釈です。(特に3、4が疑問です) 有意水準とは、ある統計的仮説が正しいという状況の下で、無限回仮説検定を繰り返したとき、帰無仮説が正しいにも関わらず、測定値において正しいH0を捨て、正しくないH1を採択するという、「第一種の過誤」が発生する確率である。だから上のケースでは、 1.「母平均が50点である」という仮説が正しいという状況の下で、 2.「無作為に標本を抽出し、仮説検定を行う、ということを無限回くり返したとき」 3.「母平均が50点である」という帰無仮説が正しいにも関わらず、これを捨て、「母平均は50点ではない」という対立仮説を採択してしまう(第一種の過誤)が起きる比率が5%である。 ※そもそも帰無仮説は棄却する為の仮説?なので、第一種の過誤が起きる危険率を5%として帰無仮説を棄却できるか検定している。しかし、 4.この場合、「母平均は50点である」という帰無仮説は棄却されなかった。 これはどういうケースにぶち当たったということなんでしょうか?実際に「母平均は50点である」は真と判断したということでしょうか。 何度考えてもよくわかりません。宜しくお願いします。
254 名前:132人目の素数さん mailto:sage [2009/01/18(日) 20:13:02 ] 「母平均が50点である」という仮説が正しいという状況の下で というより、 テストが平均 50点の正規分布に従うという仮説が正しいという状況の下で のほうが良いかな。つまり実際に帰無仮説が棄却された場合には そもそもこの仮説は成り立ってないんだよね。 あと大雑把に言って仮説の棄却は背理法と同じ。 帰無仮説が棄却されなかたっというのは、あからさまに不自然なデータは 出ませんでした、というだけで、背理法で言うなら、 〜〜と仮定しても矛盾は起きなかった、ということ。 π+eが無理数だとする。こう仮定しても矛盾は起きない。 よってπ+eは無理数である、なんて証明にも何にもなってないよね。
255 名前:132人目の素数さん mailto:sage [2009/01/18(日) 20:39:45 ] >>253 レスありがとうございます!!助かります。 つまり4に関しては、 今回は「母平均は50点である」という帰無仮説を棄却できるデータではなかった、 (帰無仮説は棄却されない→対立仮説は採択されない かつ、帰無仮説が採択されるわけでもない) というだけということでしょうか。 またご指摘いただいた点以外で有意水準の解釈(1〜3の部分)は あっているでしょうか?
256 名前:132人目の素数さん mailto:sage [2009/01/18(日) 20:57:04 ] >>253 「母平均は50点である」は偽であるとは判断されなかった。 が正しい解釈です。 第二種の過誤が生じているかもしれない、と考えて下さい。 「本当は母平均が50から"ある一定の値以上"ずれているのに、帰無仮説を棄却しそこなった」 可能性があるわけです。 "ある一定の値"をてきとーに定めることにより、第二種の過誤の発生確率は データをとる前に(つまり、データを用いることなく)計算できます。 1. 2. 3. の解釈はあっています。
257 名前:132人目の素数さん mailto:sage [2009/01/18(日) 21:13:25 ] >>256 なるほど! 母集団すべてを分かるのが不可能な状況で、この標本から仮説検定で判断しようとしたとき、 「母平均は50点である」は棄却できず、偽であるとは判断できない、 ということですね。 第二種の過誤の確率は別の方法で求める、と。 逆にもし帰無仮説が棄却された場合は、 「母平均は50点ではない」を採択する(真であると判断する)が、 そのとき第一種の過誤が起きている確率(判断を間違えている確率) が5%だと。 わかった・・・と思いますw
258 名前:132人目の素数さん mailto:sage [2009/01/19(月) 01:24:46 ] ゼミでちょっとした実験をしまして分析をしてるところなのですが 教員からはまず分散分析をすればいいと聞いていたのでいざやろうとしてみたところ 一元配置と二元配置の判断がつきません。 もしよろしかったらご教授いただけないでしょうか。 行った実験の内容は3種類の違った音を被験者に聞かせて血圧や心拍数を測定するといったもので それぞれ音の群間での有意差について調べる、といったものです。
259 名前:132人目の素数さん [2009/01/19(月) 01:28:23 ] すみません・・ この問いをご教授いただきたいのですが・・ ある会社の株価収益率が日経平均株価収益率でどれくらい説明できるか。 最小2乗法を用いて検証しなさい 分からないのはβの値についてt検定する場合をexcelを使って何をどうやって回帰分析すればよいかということです
260 名前:132人目の素数さん [2009/01/19(月) 09:21:33 ] >>252 さん なるほど。 ありがとうございます!!! 調べてみます!!!!!!!!!!
261 名前:132人目の素数さん mailto:sage [2009/01/19(月) 09:41:45 ] >>258 音を聞かせる被験者が音ごとに違うグループなら一元配置、 同じ被験者にすべての音を聞いてもらうなら二元配置。
262 名前:132人目の素数さん [2009/01/19(月) 10:17:27 ] すみません。 コインを240回投げたとき、表が130回以上出る確率を求めよ とゆう問題で、中心極限定理を使うようなのですが、うまく解けないのでどなたか教えてください。 お願いします。
263 名前:132人目の素数さん mailto:sage [2009/01/19(月) 10:53:07 ] >>260 >>262 1参照 学校の宿題は自分で考えましょう。 本当に調べてわからなかったの? 似たような問題探したり、教科書きちんと読み直したり、 それでも全く解き方もわからないの? こう考えてこうなったんだけど、この部分がわかりません。 とかならわかるけど、考えもしない人が聞くのと同じような聞き方じゃ答えもらえないよ
264 名前:132人目の素数さん mailto:sage [2009/01/19(月) 12:03:03 ] >>261 さん 心より御礼を申し上げさせていただきます。ありがとうございました。
265 名前:132人目の素数さん mailto:sage [2009/01/19(月) 12:26:22 ] >>259 >>262 最小2乗法と回帰分析なら初歩。 まず基本はm^*(E+x)=m^*(E) これは絶対。 そしてルベーグ外測度なのかスティルチェス外測度なのかについてだが (x/1)+xってことは砧麺麭覆拿彙螺子の可能性もある。 コインを240回投げたとき、表が130回以上出る確率は簡単に中心極限定理を使えばよい。 まず知的ルサンチマン(=ルサウンチマン)のオランウータンビーツかもしれんが。 「(3) fがΣ可測でE⊂R^dならf_χ_EもΣ可測(但し,f_χ_Eは特性関数です)」で用いたf_χ_Eを考えればこのfは有界で非可測。 さらには堵虞慧螺、痲璽彙螺禰などとも並ぶね。 結構基本だよ。
266 名前:132人目の素数さん [2009/01/19(月) 12:55:14 ] >>250 質問文を換えますと、 [-1.96, 1.96]上の切断正規分布に従う乱数はどのように生成するかという問題です。 [-1.96, 1.96]上の切断正規分布の分布関数と、(-∞, ∞)上の正規分布の分布関数を [-1.96, 1.96]上で切断したものが異なったものになるので、どうすればよいか考えているのですが。
267 名前:132人目の素数さん [2009/01/19(月) 13:36:26 ] >>266 Zが標準正規分布にしたがう時、 条件 -1.96 < Z < 1.96 の下での条件つき分布 = [-1.96, 1.96]上 の切断標準正規分布 なので、標準正規乱数を発生して、条件外の値が出現したら捨てればいいんだよ。
268 名前:132人目の素数さん mailto:sage [2009/01/19(月) 13:58:04 ] >>266 >>250 読んだ?
269 名前:132人目の素数さん mailto:sage [2009/01/19(月) 13:59:34 ] >>266 すまん。読んでなかったのはこちらだった。しかしまたレポート期間になったんだなあ…。
270 名前:132人目の素数さん [2009/01/19(月) 14:11:08 ] >>267 , >>268 返答ありがとうございます。しかしながら、私の悪い頭では、 なぜそれで良いのかということが、頂いた回答文から理解できません。
271 名前:132人目の素数さん mailto:sage [2009/01/19(月) 14:32:56 ] >>258 少し補足だけど、血圧や心拍数の原因を音だけが原因(1因子)と考えるなら一元配置で、音のみならず被験者にもよる(2因子)と考えるなら二元配置で実験するとよいでしょう。
272 名前:132人目の素数さん mailto:sage [2009/01/19(月) 14:58:13 ] >>266 後半部分が少し引っかかる。異なるとあるけど、分布関数はどういう計算をしたのかな…?
273 名前:132人目の素数さん [2009/01/19(月) 15:20:47 ] >>272 [-1.96, 1.96]上の切断正規分布の分布関数 =0*I{x<-1.96}+(1/0.95)*N(0,1)*I{-1.96<x<1.96}+1*I{1.96<x} (-∞, ∞)上の正規分布の分布関数を[-1.96, 1.96]上で切断したもの =0*I{x<-1.96}+N(0,1)*I{-1.96<x<1.96}+1*I{1.96<x} I{}は指示関数。標準正規乱数を発生して、条件外の値が出現したら捨てる操作は、 後者に適用します。
274 名前:132人目の素数さん [2009/01/19(月) 15:23:27 ] 補足すると、例えば(5+c)×(4+2)÷(3×a)=X X+(4+3)×b+3+4+5+6・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ という数式が延々と続いてるのが「純粋理性批判」なのである。 例えば「超越論」という単語、例えば「超越論的観念論」という単語、 例えば「アプリオリ」という単語、例えば「分析判断」という単語、 「総合判断」という単語、延々と数十数百と続くこれらの単語を 数学の「変数aとかcとかc」と考えたまえ。そしてこの連立方程式は、 700ページにも及んでおり、変数の数は数十数百と続いている。
275 名前:132人目の素数さん mailto:sage [2009/01/19(月) 16:42:25 ] 274 を見て、脱線するが オレにとって、分析哲学は、哲学に興味を失うきっかけだったな。 従来の哲学は「四角い三角形」とか外延が存在しない概念を 駆使していたように思えて。 主に分析哲学の初期論文が載っている現代哲学基本論文集1 坂本百大編 勁草書房 を持っているんだけど。 オットー・ノイラートの「プロトコル言明」がショックだった。 ノイラート 「アインシュタインはバントゥー語を用いてなんとか表現できるけれども、 しかし、ハイデガーとなるとドイツ語が可能にするような言語的乱用を 導入するのでなければ表現できない。」
276 名前:132人目の素数さん mailto:sage [2009/01/19(月) 17:04:37 ] >>273 つまりあなたの見解は分布関数が異なるので>>267 の方法で正規乱数を生成できるか疑問がある、ということですね?分布関数の計算に問題があるんじゃないかなあ…?
277 名前:132人目の素数さん [2009/01/19(月) 17:20:07 ] >>276 質問の意図はその通りです。
278 名前:132人目の素数さん [2009/01/19(月) 17:59:31 ] >>273 後者の式だと、Pr{ x=-1.96 } = Pr{ x=1.96 } = 0.025 になるけど、 ヘンだよね。(理論的な意味での)正規乱数が、特定の実数値を 取る確率はゼロだから。 前者の式は、同様に Pr{ x=-1.96 } = 0.025/0.95 で、おまけに 1.96 - ε < x < 1.96 の区間で「分布関数値が1を超える!」w
279 名前:132人目の素数さん [2009/01/19(月) 18:32:12 ] >>278 すみません。273において、N(0,1)はすべてΦ(x)に置き換わります。 >>後者の式だと、Pr{ x=-1.96 } = Pr{ x=1.96 } = 0.025 になるけど、 ヘンだよね。 条件外の値が出現したら捨てる操作を行うためにΦ(x)を切断しているため、 仕方ないかと思われます。実際、この後者の関数の逆関数を求め、 一様乱数の実現値を返すわけですから、問題ないのではないでしょうか。 前者の式はその通りですね。 それでは、この場合の分布関数は、どうかけるのでしょうか。
280 名前:132人目の素数さん [2009/01/19(月) 20:36:16 ] >>279 捨てる=条件から外れた値は起きない=条件が確率1で起きる =条件内の確率合計が1 条件つき確率=全空間の確率/条件が起きる確率
281 名前:132人目の素数さん mailto:sage [2009/01/19(月) 21:54:38 ] >>279 Φ(x)は分布関数?確率密度関数?あと指示関数I{}だけど具体的に何を表しているのかな?直感的には前者の式の1/0.95に問題があるような気がするけど…。まあ正規乱数を生成する場合、逆関数(逆変換)法だときついよね。他のやり方のがいいんじゃないかとは思うよ。
282 名前:132人目の素数さん mailto:sage [2009/01/19(月) 23:15:23 ] 1, 4, 5, 8, 12, 15 こういうデータがあったとして 平均は9 分散は30.2 標準偏差は5.5 これで合っていますか?
283 名前:132人目の素数さん [2009/01/20(火) 05:41:52 ] >>280 (-∞, ∞)上の正規分布の分布関数を[-1.96, 1.96]上で切断したもの =0*I{x<-1.96}+\int_{-∞}^{x}\frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}*I{-1.96<x<1.96}+1*I{1.96<x} の値域が、[0.025, 0.975]から[0,1]となるように変換したものが、 求める分布関数だということを言ってますか? 仮にそうだとしても、条件外の値を除外して生成した乱数は、 変換した分布関数から求めた乱数と同じであるということが良くわからないのですが。 どうやって証明すればよいでしょうか。
284 名前:132人目の素数さん [2009/01/20(火) 05:44:05 ] >>281 Φ(x)は分布関数です。指示関数I{}は、 カッコ内が真のとき1,偽のとき0を取る関数と定義しています。
285 名前:132人目の素数さん [2009/01/20(火) 10:14:30 ] >>282 釣りはいいよ。変な質問増えるから。
286 名前:132人目の素数さん [2009/01/20(火) 13:06:54 ] 質問があります。大学を卒業すると視能訓練士の1年制専門学校に入学できるのですが 既卒の学校で統計学(数学含む)を履修していないと入学は出来ないのです。 放送大学での履修を考えていますが統計学(数学を含む)とは統計学、数学を 両方履修しなければならないのですよね?数学は高校以来、統計学に関してはまったく 勉強した事がありません。。。無知な私でも放送大学で60点C評価でかまわないので単位取れるものなのでしょうか? 分かる方教えてください。
287 名前:132人目の素数さん mailto:sage [2009/01/20(火) 13:07:42 ] >>284 ダミー変数みたいな感じね。とすると1*I{1.96<x}にも問題あるかな?{1.96<x}で分布関数は1とは言えないんじゃないかな。分布関数はx≒∞で1に収束するよね。
288 名前:132人目の素数さん [2009/01/20(火) 14:01:46 ] ベイズ識別と線形識別の定義. また, ベイズ識別かつ識別面が線形, ベイズ識別だと線形にならない, 線形にするとベイズ識別にならない, 例を教えてください.よろしくお願いします.
289 名前:132人目の素数さん [2009/01/20(火) 17:35:48 ] >>286 とれるよ
290 名前:132人目の素数さん mailto:sage [2009/01/20(火) 19:43:37 ] >>286 >放送大学での履修を考えていますが統計学(数学を含む)とは統計学、数学を >両方履修しなければならないのですよね? そういう大事なことを2chで聞いてはだめ。その専門学校に問い合わせるべき。 放送大学の「この」単位でいいのか、といったところまで聞いた方がいい。 >単位取れるものなのでしょうか? 大丈夫だろうと思うけど… 先回りして放送大学の教科書を買って読んでみたら? 本屋でも Amazon でも売っているはず。
291 名前:132人目の素数さん mailto:sage [2009/01/20(火) 21:29:43 ] t検定での両側検定と片側検定の違いがわかりません。 ttp://oshiete1.goo.ne.jp/qa2281682.html ここを読みましたがいまいち理解できませんでした。 たとえば、100人の風邪患者がいて回復までに要する日数の平均が5.5、標準偏差が1.5日で、 治るまでに要する平均日数の範囲を0.95の確からしさで求めよ。というような問題があったとします。 これは片側検定で求めるそうなのですがそれはどうしてでしょうか・・・・。
292 名前:132人目の素数さん mailto:sage [2009/01/20(火) 21:52:09 ] >>291 教科書読めと言いたいところだが、片側か両側かは対立仮説による。対立仮説を示したい(帰無仮説を否定したい)ということから考えると自ずから見えてこよう。
293 名前:132人目の素数さん mailto:sage [2009/01/20(火) 22:20:24 ] 仮説が「AはBより〜であるか」のような"大きさの違いを調べる"場合は片側検定 仮説が「AとBには差があるか」というような"差の違いを調べる"場合は両側検定 このような解釈でいいのでしょうか。だけどこれを>>291 に当てはめて考えてみようとしても理解できません。 同じような、範囲を求める問題でも片側を使っていたり両側を使っていたりしてわけがわからないんです・・・。
294 名前:132人目の素数さん mailto:sage [2009/01/20(火) 22:41:08 ] >>291 の問題は検定でなく推定(区間推定)に見える。 推定に片側も両側もないと思うが…? 検定なら、機無仮説は等式なので、対立仮説は必然的に不等式になるが、 状況からみて片側の不等式の可能性が無視できるなら片側検定、 どちら向きの不等式もありうる場合(つまり「≠」としか書けない場合)は両側検定。 検定者の希望で対立仮説を勝手に選べるわけではないことに注意(この点を誤解している人が多そう)。
295 名前:132人目の素数さん mailto:sage [2009/01/20(火) 22:55:23 ] >>294 標本というところでこの問題をやったんですが・・・。 仮説が〜というところは理解できました。ありがとうございました!
296 名前:132人目の素数さん mailto:sage [2009/01/20(火) 23:41:54 ] >>294 そうだよな。 あまつさえ検出力を上げるには片側にすればいいんだよと書かれている書籍を 見かけて目が点になった。w
297 名前:132人目の素数さん [2009/01/21(水) 01:39:00 ] ふと自分で思いついた問題です。 この店では必ず商品を1人で2個セットで購入すると決められています。 このとき、ある人が商品Aを購入している場合 そのときに商品Bが同時に購入している確率を求めるにはどのようにすればよいでしょうか? またその確率の確からしさ(検定?)を求めるにはどのようにすればよいでしょうか? ただし、この店の商品数は全200個で過去の来客数は6000人とします。
298 名前:132人目の素数さん [2009/01/21(水) 01:42:27 ] >>297 追加条件: 同じ商品は購入できないものとします。 必ず別の商品を1個つづ購入しなければなりません。
299 名前:132人目の素数さん [2009/01/21(水) 01:43:40 ] >>297 例えば、商品A,B,C,D,E、・・・ ある人は商品AとDを購入 ある人は商品BとCを購入 ・・・ です。
300 名前:132人目の素数さん [2009/01/21(水) 01:56:19 ] >>299 おいおい・・・それ基本的な間違いを犯してないか?w 同時に購入している確率なんだから結局は砧麺麭覆じゃん。 順を追っていくだけだと単なるオランウータンビーツになる気が・・・。 痲璽彙螺禰じゃないんだからw
301 名前:132人目の素数さん mailto:sage [2009/01/21(水) 02:00:17 ] .l''',! .r-、 .,、=@ .l''',! ./ー、,,,_ .r-, .广''''″.¨゙゙! .,,,丿 {,,、、, .v-l゙ .!-r/i、 广''''″.¨゙゙! .!、, l゙ | .} ,, .゙l---, ぃ" .| .| .| _,,{゙l .ヽ ヽ--i、 .ぃ" .,,,,,,,,二i" .,..-" .ヽl、゙l r---┘.―'i、 "',! ./ニニニ、  ̄| .L,,,,,゙l,,i´ .r---┘.―'i、 .| :,! | .l .|、 |__ ._,,,,} ノ .| | l゙ ./ ゙'i、 .|__ ._,,,,} "''''ツ ./ "''ト .|゙i、 ||、゙l .,―-" | .ノ .l゙ `"゙゙゙'" ,i´,〕゙゙^'i、 | .,―-" | ../ `i、 l゙ ,l゙ | |.゙l.,ノ .l゙ .,,,,,, .\ .l゙ .l゙ ,, .l゙ .|.} | | .| / .,,,,,, .\ ../ .,.i、 | l゙ .l゙ .| .,! .゛ | し,,l゙ .、 ゙,! ,l゙ ,l゙.i".゙゙'''''"! ゙l .″.|.,!'''゛ l゙ | .l゙,,,,l゙ .、 ゙,! ,/`/ .| ."'゙゙l ./ .l゙r┘,l゙ .゙l,__.,/`∪ ゙〃 .`ー--丿 .゙'--ヽ{,,,./ .゙l,,__,,/`∪ .゙l.,i´ .!,_,,,/ .l゙../ |__.,i´
302 名前:132人目の素数さん [2009/01/21(水) 02:02:30 ] 文章が変ですか? ある人がこの店を出てきた。 商品Aを見せてくれた。 もう1つの商品を当ててみろという。 確率、妥当性(検定)を元に商品を当てなさい。
303 名前:132人目の素数さん mailto:sage [2009/01/21(水) 05:47:53 ] >>297 前提条件が足りなさすぎでは? 「全ての客が完全にランダムに200種類の商品のうちから2種類を選ぶ」 「各商品の個数は十分にある」 を前提条件とすれば、 「ある人が商品Aを購入している場合そのときに商品Bが同時に購入している確率」は 1/199。 >>302 >確率、妥当性(検定)を元に商品を当てなさい 確率、妥当性、検定(統計的仮説検定)といった言葉を理解して使っていますか?
304 名前:132人目の素数さん mailto:sage [2009/01/21(水) 06:24:06 ] >>297 その問題、過去の来客数関係ないでしょ! 商品の種類が200個だとして、お客が6000人きたからなんなの? もしかすると、お客が6000人きて、その人たち全てに買った商品を見せてもらってる ってことなのかな? で、商品Aを買ってる人が、他に何を買ってるかの傾向がわかってるとかいう 情報があるってことかな?
305 名前:132人目の素数さん [2009/01/21(水) 08:27:09 ] すいません。書き直します。 まず6000人に店で商品を2種類購入してもらう。何を組み合わせて購入したかの、データは採取済みです。(誰が購入したかはわかりません) ここで6000人の中のある1人がクイズを出してきました。 私は商品Aを購入しています。あと1つの商品を6000人のデータから推定しなさい。 また当たっている確率、妥当性を検定しなさい。
306 名前:132人目の素数さん [2009/01/21(水) 08:54:18 ] 自分でも混乱してきました。 いままでのは、なしで、再度書きます。 【問題】 多数の方(合計人数不明)がある店で商品を2種類以上(限定品なので同一商品は必ず1個までしか購入できない)購入したデータ(同時に購入した商品がわかる)があります。 データから ・購入された商品の個数は全200種類、計6000個でした。 ・商品Aを購入した人の全組み合わせは (商品A、B、D、F、H) (商品A、C、H) (商品A、B、G、H) (商品A、D) の場合、商品Aと同時に購入した確率が高い商品はどれか?その確率と確からしさを求めなさい。
307 名前:132人目の素数さん mailto:sage [2009/01/21(水) 12:17:24 ] つうか自分で考えた問題ならまず自分でよく考えてみろよ…
308 名前:132人目の素数さん mailto:sage [2009/01/21(水) 15:50:40 ] >>306 2個しか買わない人と3個以上買う人の購入パターンは現実的な状況を想定すれば異なると考えられる。 そこで、商品Aとあともう一つ商品を買った集団を抜き出し、A に併せて購入された商品のうち、 最も多く買われた商品について、その集団における購入確率を点推定・区間推定する。おしまい。
309 名前:132人目の素数さん mailto:sage [2009/01/22(木) 04:52:38 ] 株式市場における価格変化率の自己相関の求め方を教えて下さい。 お願いします。
310 名前:132人目の素数さん mailto:sage [2009/01/22(木) 13:20:11 ] >309 株価だからと関係なく別に普通に自己相関求めればいいだろう。より詳しく調べるならダービンワトソン検定でもしなさい。
311 名前:132人目の素数さん mailto:sage [2009/01/22(木) 18:06:24 ] よく不偏分散をn-1で割る理由を自由度が1下がるからという説明を聞きますが ここでいう「自由度」とはどういうことなのでしょうか? よろしくお願い致します。
312 名前:KingGold ◆3waIkAJWrg [2009/01/22(木) 21:16:36 ] Reply:>>311 とりあえず、簡単のため正規分布の独立同分布に従う確率変数に限ることにして、n個の標本を採取するときの偏分散と不偏分散の期待値を計算してみよう。
313 名前:132人目の素数さん [2009/01/22(木) 21:30:44 ] こんにちは。 自殺の現状について調べています。性別によって差があるようなので、それが有意かどうか計算したいのですが、少ししか統計を習ったことがなく手がつけられません。 この情報で有意かどうかわかりますか? 2006年自殺数(日本) ・総数:29921 ・男性:21419 ・女性: 8502 上記の情報で出せるのなら、自分で計算してみたいので、計算式(Excel?)教えてください。 よろしくお願いします!!
314 名前:132人目の素数さん mailto:sage [2009/01/22(木) 21:34:21 ] >>311 線型従属という線型代数の概念から分かる。
315 名前:KingGold ◆3waIkAJWrg [2009/01/22(木) 21:35:07 ] 私を追う国賊が自殺せよ。
316 名前:KingGold ◆3waIkAJWrg [2009/01/22(木) 21:38:11 ] 念の盗み見による私の周りへの関与を阻め。
317 名前:132人目の素数さん [2009/01/22(木) 21:38:25 ] >>311 母分散μが既知なら観測個数が1でも分散が推定できる。 その推定値は (X1-μ)^2 で自由度1。 母分散μが未知なら標本平均で推定するので、観測個数が1の場合 分散推定値は (X1-X1)^2 = 0 になって推定できない。(自由度0) 観測個数が2になって、初めて推定できて (X1-Xbar)^2 + (X2-Xbar)^2 =2 [(X1-X2)/2]^2 … Xbar=(X1+X2)/2 を代入した結果 =(X1-X2)^2 / 2 となる。すでに2で割ってるからこれ以上割る必要がないし、 変動する偏差の二乗の項は1個しかない。つまり自由度1。 (観測個数が3以上は行列を使わないと式が面倒になるので略)
318 名前:132人目の素数さん mailto:sage [2009/01/22(木) 21:40:17 ] >>313 有意かどうかは検定によるけど、その情報からでも実行できる。同一母集団における二項分布の(成功率の)検定が妥当かな。よく選挙の得票率の有意差とかで使われる。やり方はそんなに複雑じゃないし、ググればたくさん出てくるはず。
319 名前:317 mailto:sage [2009/01/22(木) 21:41:49 ] ×母分散μ ○母平均μ
320 名前:132人目の素数さん mailto:sage [2009/01/22(木) 21:47:20 ] >>313 男女別の対象人口総数が必要。 男一人が1年間に自殺する確率 pm で、自殺すれば成功、しなければ失敗。 女一人が1年間に自殺する確率 pf で、自殺すれば成功、しなければ失敗。 この試行を男女別対象人口分行った結果、得られた成功総数がその数値。 あとは「母比率の差の検定」でググると、仮説 pm = pf を検定できる。
321 名前:132人目の素数さん [2009/01/22(木) 21:50:49 ] >>318 >>320 ご親切にありがとうございます! やってみます!!
322 名前:重回帰分析 [2009/01/23(金) 02:43:53 ] aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc017/017.html ↑ ここの41で述べられている結論って正しいのでしょうか? 40にデータが載ってます。 きれいな重回帰モデルを返すように思えるのは私だけ??
323 名前:132人目の素数さん mailto:sage [2009/01/23(金) 06:36:09 ] >>322 X1もX2も高度に有意だし、偏回帰プロット見ても問題ないね。 多重共線も強くなく、悪さもしてないから、何かの勘違いだと思う。 lm(formula = y ~ X...X1 + X..X2, data = Dataset) Coefficients: Estimate Std.Error t value Pr(>|t|) (Intercept) 773986 42466 18.23 < 2e-16 *** X...X1 34276 2270 15.10 < 2e-16 *** X..X2 -2471779 295666 -8.36 1.23e-10 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 45970 on 44 degrees of freedom Multiple R-Squared: 0.8392, Adjusted R-squared: 0.8319
324 名前:132人目の素数さん mailto:sage [2009/01/23(金) 11:16:19 ] >>314 >>317 標本値から推定するときには真の平均値が分からないってことが関係あります?
325 名前:132人目の素数さん mailto:sage [2009/01/23(金) 12:43:54 ] 最近質問多いな.レポート期間かな?kingによるものもあるが。
326 名前:132人目の素数さん mailto:sage [2009/01/23(金) 19:34:53 ] 卒業研究とかそんなのもあるんじゃね??
327 名前:重回帰分析 [2009/01/23(金) 23:30:13 ] >>323 ご回答ありがとうございます。 このdataでX1の標準化偏回帰係数が1を超えることはどう考えたら良いでしょうか。 私も似たような事例に遭遇したことがあります。 >>322 の引用先では、多重共線性などによる場合が多い、といった解説をしていますが。。。
328 名前:132人目の素数さん [2009/01/24(土) 00:52:19 ] >>324 真の平均とサンプル平均の違いから 出てくる問題だよ。
329 名前:132人目の素数さん mailto:sage [2009/01/24(土) 01:23:46 ] >>327 偏相関係数だったら -1 〜 1 の間しか取らないけど、 標準化偏回帰係数は、変数を標準化して単位を揃えているだけで 回帰係数だから、絶対値が 1 を超えても不思議じゃない。 目的変数から見て同じ方角に2つの説明変数があれば、 標準化偏回帰係数は遠い方が負で近い方は1以上になるよ。 例えば、こんな例 Y X1 X2 1 1 1 3 2 1 1 0 0
330 名前:重回帰分析 [2009/01/25(日) 01:27:23 ] >>329 どういうわけか手持ちのソフトでは例示のお題は分析できませんでした。 が、標準化偏回帰係数が1以上を取り得ることはわかったつもりになれました。 御礼申し上げます。
331 名前:132人目の素数さん [2009/01/25(日) 02:39:34 ] カイ二乗やFのモード、メジアンってどうやって求めるのか?
332 名前:132人目の素数さん mailto:sage [2009/01/25(日) 03:09:41 ] >>331 en.wikipedia.org/wiki/Chi-square_distribution en.wikipedia.org/wiki/F-distribution
333 名前:25個の染色体 [2009/01/25(日) 03:24:17 ] 正規分布の平均と分散を求めたいのですが、いまいちよくわかりません。計算の過程も詳しく書いてもらえるとありがたいです。ちなみに、今密度関数を f(x)=(1/√2π×b)×exp(-(x-a)^2/2b^2)とし、 ∫f(x)dx=1 (区間-∞〜∞)を利用しても良い。 らしいです。ちなみに答えは平均がaで、分散がb^2です。 よろしくお願いします。
334 名前:132人目の素数さん mailto:sage [2009/01/25(日) 03:51:41 ] 正規分布の平均と分散はそのまんまだろ μとσ^2
335 名前:132人目の素数さん mailto:sage [2009/01/25(日) 04:31:43 ] 統計学つーより指数関数の微分積分の問題だから、 くだらねぇ問題スレで訊け
336 名前:132人目の素数さん mailto:sage [2009/01/25(日) 05:16:48 ] 正規母集合の平均や分散を推定する場合、F分布やΧ^2分布を使いますが ポアソン分布や指数分布の場合にはどうすればよいのでしょうか? 正規分布の場合の証明は教科書に載っていますが、途中でたくさんの命題を使っているので 他の分布の場合は自分で導けと言われても無理です(´・ω・`)
337 名前:132人目の素数さん [2009/01/25(日) 07:29:27 ] >>336 一行目は訳わからんから置いといて、、、 母集団がポアソンなら、母平均=母分散で、その推定値は標本平均。 また標本平均の分布はポアソン分布で表せる。 母集団が指数分布なら、母平均=母標準偏差で、その推定値は標本平均。 また標本平均の分布はカイ2乗分布で表せる。
338 名前:132人目の素数さん mailto:sage [2009/01/25(日) 08:23:24 ] わけがわからないとのことなので説明しますと 正規分布の場合、標本分散/母分散がΧ^2分布 (母平均-標本平均)^2/標本分散がF分布 この2つを使って推定します。
339 名前:132人目の素数さん mailto:sage [2009/01/25(日) 10:47:01 ] そのような知識はどういう本に載っているのでしょうか。
340 名前:132人目の素数さん mailto:sage [2009/01/25(日) 15:05:37 ] >>333 多分他の質問スレでは統計スレに書けとかマルチとか言われそうなんで、一応方針だけ言うと、平均、分散を求めたいときは基本的にはモーメント母関数を考える。 >>338 所々√とかの関係の不備が目立つが、それを置いといても、正規母集団の母数の推定の場合は、F分布じゃなく通常は標準正規分布かt分布を使うんじゃないか。
341 名前:132人目の素数さん mailto:sage [2009/01/25(日) 15:18:23 ] >>338 ちなみに不備を除いて正規母集団の母分散推定の方はχ^2分布で正しい。F分布は母分散比を推定する場合に使う。
342 名前:132人目の素数さん [2009/01/25(日) 17:28:43 ] >>330 誤差なしの回帰だから連立方程式で解いても良いんだけど、 全変数を標準化した時の回帰式は以下のようになる。 y = √3・x1 - 1・x2 また(単)相関係数はこう。 r(y, x1) = (√3)/2, r(y, x2) = 1/2, r(x1,x2) = (√3)/2 --- 解題(以下、単位はすべて各変数の標準偏差で) --- x1 が 1 単位増加したとする。 ● 標準化回帰係数より y は √3 単位増加。( √3 > 1 が混乱の原因) ● 説明変数間の相関より、同時に x2 も r(x1, x2) = (√3)/2 単位増加。 標準化回帰係数より、y は -(√3)/2 単位増加(=減少)。 y の全変化 = √3 - (√3)/2 = (√3)/2 = r(y, x1) ≒ 0.866 単位増加。 (全変化 = x1 と y の相関係数。よって絶対値は必ず 1 以下) --- 結論 --- 負の偏回帰係数または説明変数間の負の相関があると、 ある変数の標準化偏回帰係数は 1 より大きくなり得る。 このパターンは 3 変量以上の相関構造で出現する。
343 名前:132人目の素数さん mailto:sage [2009/01/25(日) 18:37:31 ] >>340 自由度(1,n-1)のF-分布は√をとれば自由度n-1のt分布になるから >>338 の値を使うならF-分布でいい。√を付けるならt分布
344 名前:132人目の素数さん mailto:sage [2009/01/25(日) 22:07:14 ] >>343 確かに。F分布じゃなくという言い方は誤解を招くので良くなかった。訂正するよ。ただ通常√付けてt分布で母平均は推定するケースが多いような気がするなあ。自分がたまたま目にしてないだけかな…。 >>338 は自由度とかがどうにも分かりにくかったので、誤解を招くような言い方になっちゃったけど、F分布でもできます。
345 名前:132人目の素数さん [2009/01/25(日) 22:23:51 ] SPSSの段階的回帰だと、変数選択時の t 検定を t^2 = F 値で表示してたりする。 分散分析の立場で考えれば、それで良いわけで、視点によりけりだと思う
346 名前:132人目の素数さん [2009/01/25(日) 23:21:40 ] 生物実験でANOVA使いたいのですが、誰か教えてください 1)等分散の検定は事前に必要なのでしょうか 2)n=5とか6でそもそも等分散の検定ができるのでしょうか。
347 名前:132人目の素数さん [2009/01/25(日) 23:29:26 ] 1群あたりのn数です、もちろん。
348 名前:132人目の素数さん mailto:sage [2009/01/26(月) 00:21:56 ] >>339 結構難しい話なのでやや専門的な数理統計の本に載ってると思う。標本平均の分布はそれぞれポワソン分布、ガンマ分布の再生性を用いる。が、通常、正規近似で推定することが多いと思う。
349 名前:339 mailto:sage [2009/01/26(月) 01:49:30 ] ありがとうございました
350 名前:132人目の素数さん mailto:sage [2009/01/26(月) 02:05:43 ] 母平均がmの時に標本平均がxになる確率Pm(x)を求めた上でmの関数に直せばいいのかな
351 名前:132人目の素数さん mailto:sage [2009/01/26(月) 02:08:40 ] >>346 1) まずプロットして様子見てみたら? 2) できるけど検出力は相当低いよな。それでも棄却されるようならプロットでも気づくだろ。
352 名前:132人目の素数さん mailto:sage [2009/01/26(月) 02:48:45 ] 帰無仮説が棄却された場合、統計的に対立仮説は正しいと主張して良いか議論せよ 帰無仮説が採択された場合、統計的に帰無仮説は正しいと主張して良いか議論せよ というレポート課題が出たのですがさっぱり分かりません 誰か教えてください
353 名前:132人目の素数さん mailto:sage [2009/01/26(月) 02:59:49 ] このスレの上の方でも似たような話が出てたけど 教科書の帰無仮説のあたりをまず読んだほうが良いかと
354 名前:132人目の素数さん mailto:sage [2009/01/26(月) 14:12:50 ] 第一過誤を第二過誤の確率を下げる為には 帰無仮説が棄却されるように設定すればいいの? 確信がもてない
355 名前:132人目の素数さん mailto:sage [2009/01/26(月) 14:33:20 ] レポート期間、試験期間で質問が急増してるけど、まず自分で充分に考えてから質問した方が自分のためにも良いと思う。熟読しないと何のための教科書だか分からない。
356 名前:132人目の素数さん [2009/01/26(月) 14:55:41 ] 下記の文章は他スレッドに有ったものをそのままコピーして 持ってきたものなんですが、下記のコピー文で出ている統計上のデータ 下記のコピー文を投稿をした当人の論説は本当に正しいのでしょうか? 文章だけ見ているとコピー文の投稿主は御自身の統計上のデータに関して 絶対的な事実、客観的な事実を見出しているようですが、完全失業率のように 統計上には表れない数字が潜んでいたりなど統計上の罠が有ったりしないのでしょうか? 下記のコピー文の他にも投稿主は新自由主義の正当性に関して論説しております。 ちなみに下記のコピー文のスレッドはこちらになります→namidame.2ch.net/test/read.cgi/seiji/1228643668/401-500 GDP CPI 失業率 悲惨指数* 1980年 ▲0.2% 13.5% 7.1% 20.6% 1981年 +2.5% 10.3% 7.6% 17.9% 1982年 ▲2.0% 6.2% 9.7% 16.1% 1983年 +4.3% 3.2% 9.6% 12.8% 1984年 +7.3% 4.3% 7.5% 11.8% 1985年 +3.8% 3.6% 7.2% 10.8% 1986年 +3.4% 1.9% 7.0% 8.9% 1987年 +3.4% 3.6% 6.2% 9.8% 1988年 +4.2% 4.1% 5.5% 9.6% (*)悲惨指数=GDP+CPI(消費者物価上昇率) レーガン政権1期目(1981〜1984年)後半からCPIは低下し実質GDPは回復が顕著になった。 2期目(1985〜1988年)は経済成長は巡航速度を保ちつつ、CPIはさらに低下し、失業率は完全雇用に近い5.5%まで低下した。 結果、悲惨指数はカーター政権の20.6%からレーガン政権下では9%前後まで低下した。 kぉれは規制緩和を主体とする新自由主義の勝利である。
357 名前:132人目の素数さん mailto:sage [2009/01/26(月) 15:53:36 ] >>355 僕354だけど基本書+参考書+検索でもわかんなかったよ
358 名前:132人目の素数さん [2009/01/26(月) 16:17:07 ] >>356 1) データ精度における「非標本抽出誤差」の問題は統計学の枠外(スレ違い) 2) 先進国の経済統計データは概ね妥当(変化率で1ケタ半精度ぐらいはある?) 3) 悲惨指数 = 物価上昇率 + 失業率 4) GDP成長率、消費者物価上昇率、失業率が好転する政策は、どれも好転 しない政策よりは有望。(ただし副作用の検出などに長期的な観察を要する)
359 名前:132人目の素数さん [2009/01/26(月) 16:30:23 ] >>357 354は文章も内容も意味不明なので、質問を書き直せば、 親切な人が教えてくれる確率を p とすると p > 0 になる。 (現在値 p = 0)
360 名前:132人目の素数さん [2009/01/26(月) 19:59:46 ] 質問させてください。 実験データを比較したところ、有意差なしでした。しかし、数値の減少傾向には差があるように思えます。この傾向の差を伝えたいのですが、どのような統計を使えばよいのでしょうか? A→A' B→B'、それぞれの減少値を比較したいです。
361 名前:132人目の素数さん mailto:sage [2009/01/26(月) 20:34:48 ] >>359 どこが意味不明なんだろう? 第一過誤はしょうがないとして、第二過誤は帰無仮説を誤って採用したときのみに発生する。 つまり、過誤を防ぐ、と言う面で帰無仮説が棄却されるよう設定すればいいんじゃないかと。 違う参考書から得た知識だから、そう結論づけていいのか悩んでるんです。
362 名前:132人目の素数さん mailto:sage [2009/01/26(月) 21:24:44 ] >>361 (Type 1 error rate をある値に固定したまま) type 2 error rate を限界まで下げる、 というのは極めてナチュラルな発想であり、数理統計学の黎明期に Neyman & Pearson が研究しています。 その結果、単純な問題設定の多くでは、どの検定手法を用いればよいかが容易に判断できることが判りました。 "最強力検定"でググってみてください。 あと、明瞭な文章を書く練習をしておいた方がいいですよ…。 肉体労働や営業をするのでなければ、書いた書類の評価=あなたの評価、なので。
363 名前:132人目の素数さん mailto:sage [2009/01/26(月) 21:59:20 ] >>361 第1種エラーと第2種エラーはトレードオフの関係だよ。君の言うように検出力を上げるため第2種エラーを小さくしようとすると、第1種エラーが大きくなってしまう。だから最適な検定力を求める研究が行われてきた。どんな入門書にも書いてあるはず。
364 名前:132人目の素数さん mailto:sage [2009/01/26(月) 22:34:33 ] >>362 初めて聞きました。早速調べてきます。感謝です >>363 私の読んでいる本には「検定という手法が功を奏するのは帰無仮説が棄却されるよう 設定された場合に限るのである。」と書いてあります。 この明確な理由がきちんと書いていないので自分で推測しだし、 過誤が関係があるんじゃないかと考えに辿り着き、ここでの意見を参考にしようと思いました。 じゃ私が考えたことは見当違いだったわけですね〜。 勉強不足ですいません。しかしながら入門書には目を通しています。 考え調べた上での質問であったことは了承ください。
365 名前:132人目の素数さん mailto:sage [2009/01/27(火) 00:37:05 ] >>354 要するに仮説が棄却されなかった場合に分かるのは 仮説を採択しても矛盾しない、ということだけで 仮説が正しいことじゃないって書いてるだけでしょ。 あと>>354 の文章は普通の人が見ると意味不明なので、 どこが意味不明なのか分からないというのならば 日本語の勉強をした方が良い。検定で仮説を棄却するのは 第二種の過誤の確率を低くするためとかそういう理由じゃなくて それ以前のもっと根本的な話。 >>361 とかを見る限り考え違いをしているみたいなので もう一度勉強しなおしたほうが良いかと。
366 名前:132人目の素数さん mailto:sage [2009/01/27(火) 08:48:22 ] まあ検定が二者択一だと思うのは初心者にありがちなことだから責めるのはどうかと思う。 特に教科書では>>364 のように書いてあるのさえまれだろう。 そもそも「採択」という表現がいやなんだけどその意味を丁寧に説明した本ってある?
367 名前:132人目の素数さん [2009/01/28(水) 18:42:53 ] たいしたことじゃかもしれませんが・・・ 都道府県別かつ産業別(大分類、第一次第二次第三次産業)就業者人口と所得の推移を知りたいのですが 探してもなかなかいいのがなくて、知恵を貸してください。
368 名前:132人目の素数さん mailto:sage [2009/01/28(水) 21:30:06 ] >>367 内閣統計局とかメジャーなのしか分からないなあ.当然調べてるとは思うけど.
369 名前:132人目の素数さん mailto:sage [2009/01/28(水) 21:46:19 ] 標準正規分布に従う母集団から標本をn個採取した場合の最大値の期待値の算出式は n * ∫[-∞,∞] y * 1/(2π)^(1/2) * e^(-(y^2)/2) * 〔∫[-∞,y] (2π)^(1/2) * e^(-(x^2)/2) dx 〕^n dy で合っていますか?
370 名前:132人目の素数さん mailto:sage [2009/01/28(水) 22:06:51 ] 主成分分析について質問なのですが、 主成分得点を計算した時、 第1主成分 項目A 0.7 項目B 0.00000003 項目C 0.00000056 というようになったのですが、こんな極端に得点に差が出ることって あるんですか?もしかして計算間違えてるでしょうか。
371 名前:132人目の素数さん mailto:sage [2009/01/29(木) 00:30:24 ] >>370 主成分得点?データが3つということ?
372 名前:132人目の素数さん mailto:sage [2009/01/29(木) 05:23:10 ] science6.2ch.net/test/read.cgi/math/1233156885/ こちらのスレで、以下のwikipediaの記事(特に日本語の方)の 「不偏分散の期待値」の項目が間違っているのではないかという話が出ています ja.wikipedia.org/wiki/%E5%88%86%E6%95%A3 en.wikipedia.org/wiki/Variance ・\bar{x}とμは別物ではないのか ・限られたサンプルの期待値からμがでてくるのはおかしい ・Var(μ)の変形がよくわからない(μは定数だから、Var(μ)=0ではないのか?) などの疑問がでて収拾がつきません こちらのスレの専門の方の意見を伺いたいのです よろしくお願い致します。
373 名前:132人目の素数さん [2009/01/29(木) 10:30:05 ] >>369 間違ってる。二項分布の考え方を参照せよ。
374 名前:132人目の素数さん mailto:sage [2009/01/29(木) 10:31:13 ] | | ∩___∩ | | ノ _, ,_ ヽ (( | プラプラ / ● ● | (=) | ( _●_) ミ _ (⌒) J )) 彡、 |∪| ノ ⊂⌒ヽ / ヽノ ヽ /⌒つ \ ヽ / ヽ / \_,,ノ |、_ノ
375 名前:132人目の素数さん mailto:sage [2009/01/29(木) 10:48:50 ] >>372 ・\bar{x}とμは別物ではないのか yes. しかし下記にあるようにE(\bar{x})=μが成り立つ。 (これを「標本平均\bar{x}は母平均μの不偏統計量である」という。) ・限られたサンプルの期待値からμがでてくるのはおかしい 統計学では、サンプルx_iはすべて母集団分布にしたがう確率変数と 考える。 ∴ E(x_i)=μ, Var(X_i)=σ^2 E(bar{x})=E(Σx_i/n)=ΣE(x_i)/n=nμ/n=μ また、(ランダムに抽出されているから)X_iだちは独立であると考える。 ∴Var(Σx_i)=ΣVar(x_i)=nσ^2 ∴ E(x_i^2)=Var(x_i)+E(x_i)^2=σ^2+μ^2 ・Var(μ)の変形がよくわからない(μは定数だから、Var(μ)=0ではないのか?) Var(μ)は出てきていないはず。 Var(\bar{x})=Var(Σx_i/n)=Var(Σx_i)/n^2=ΣVar(x_i)/n^2=nσ^2/n^2
376 名前:132人目の素数さん [2009/01/29(木) 13:47:18 ] >>372 日本語版の E[u^2] の導出は、2行目と3行目の間がスッ飛んでるねw これは、そもそも導出方針がマズイから、書き直した方が良いよ。 以下の関係式を使うのが、数学的には一番簡単だと思う。 (Xi - Xbar)^2 = (Xi - μ)^2 - n (Xbar - μ)^2 統計学の順序では、標本平均の分散を先にやってからになるけど
377 名前:132人目の素数さん mailto:sage [2009/01/29(木) 17:48:24 ] >>375 x_iって一点からμとかσが出てくるのってへんじゃね
378 名前:132人目の素数さん mailto:sage [2009/01/29(木) 20:54:56 ] >>377 だからx_iは統計学では確率変数だって言ってる。 調査前の状態で考えること。 実際のデータ(ただの数)は、確率変数x_iの実現値(サイコロを振ってたまたま出た目みたいななもの)。
379 名前:132人目の素数さん mailto:sage [2009/01/29(木) 21:09:16 ] >>377 逆。E(x_i) が存在していることを仮定し、その値のことを μ と呼んでいる。 「μ の値を知らないまま」で。
380 名前:132人目の素数さん mailto:sage [2009/01/29(木) 21:16:30 ] >>379 そんなことして大丈夫だっていう数学的な裏付けはあるの?
381 名前:132人目の素数さん mailto:sage [2009/01/29(木) 23:01:31 ] 質問なのですが、たとえば下記のような表があったとして 機械A 機械B 仕入方法がAの場合の売上額 20万 30万 仕入方法がBの場合の売上額 34万 12万 店頭販売の時の売上額 28万 29万 通販の時の売上額 56万 29万 ・・・ ・・・ 「どういう仕入方法を用いて、どういう販売方法を とった場合に機械が一番売れるのか」とかって統計分析でわかるものなんでしょうか。 重回帰とかじゃ分からなさそうだし、デーマイニングも微妙だし、 初心者なのでこういうのを解決する方法があるのかどうかも分かりません。
382 名前:132人目の素数さん mailto:sage [2009/01/29(木) 23:49:15 ] >>381 データマイニングのタイポだとして、データマイニングって何か分かってる? 表の「…」がどのぐらい続くのかによるけど普通なら分散分析だろ。
383 名前:132人目の素数さん mailto:sage [2009/01/29(木) 23:59:01 ] >>380 だって、xiは平均をμとする母集団から取ってきた とかんがえるんだから、期待値はμだろ
384 名前:132人目の素数さん [2009/01/30(金) 00:16:59 ] >>381 仕入れ方法でなぜ売上が変わるのかが納得できん。 無関係ではないのか?
385 名前:132人目の素数さん [2009/01/30(金) 00:19:04 ] >>381 方法→売上だから 質的変数→量的変数なわけ。 重回帰分析は(量→量、ダミー変数0、1使ったら質→量もできる)
386 名前:132人目の素数さん mailto:sage [2009/01/30(金) 00:31:14 ] >>384 端から割り込みだが、 普通に考えれば、仕入方法によって購入価格が 変わるから安く販売可能になるということじゃないかな。
387 名前:132人目の素数さん mailto:sage [2009/01/30(金) 00:44:38 ] >>380 仮定をひとつと、記号の定義をひとつしているだけだから、大丈夫。 "期待値"にうさんくささを感じているのなら、確率論の教科書を勉強するしかないよ。 >>381 >仕入方法がAの場合の売上額 20万 30万 このときの販売方法がどうだったのか、記録はないのかな? 「下記のような表」っていうけど、表の省略はデータ構造をきちんと把握できる範囲に留めないとダメだよ。 >>384 >>386 想像だけど、欠品の発生状況が仕入れ方法によって異なるのではないかと… そこまで想像してやる義理はないような気もするけど、つい考えてしまった。
388 名前:387 mailto:sage [2009/01/30(金) 01:22:28 ] >>380 さいころを100回振ることとし、第 i 回めの目を x_i とする。 実際にさいころを振ってみたところ、x_1 は 2 だった。 さいころに偏りがないとしたとき、E(x_1) は? 正解は、3.5。2 ではない。OK? ひょっとしたらこんなところで誤解があるのではないかと想像してみた。
389 名前:132人目の素数さん mailto:sage [2009/01/30(金) 02:12:55 ] 横やりだけど、μって未知なんだよな? E(x_1)なんて演算を定義できるのか?
390 名前:132人目の素数さん mailto:sage [2009/01/30(金) 02:18:10 ] なんかくだらない質問が多くなってきたなw
391 名前:132人目の素数さん mailto:sage [2009/01/30(金) 02:52:51 ] くだらなくはないだろ
392 名前:132人目の素数さん mailto:sage [2009/01/30(金) 04:06:23 ] どうせ横槍じゃなくて上で聞いてる本人だろ。 >>379 でも書いてるように、そういう値が存在するものと 仮定してそれをμと書いているだけで、 少なくとも数学的には整合的なモデルだし、 それで現実をよく説明できているようだというだけ。
393 名前:132人目の素数さん mailto:sage [2009/01/30(金) 08:52:36 ] >>389 E(x_1) は x_1 の関数ではないよ。 E(・) は分布関数全体の集合を定義域とした「関数の関数」の一つで、値域に∞を含む。 分布 F の期待値は E(F) と書ける。F が未知であっても。 確率変数 x_i が従う分布が F であるとき、E(F) のことを E(x_i) と略記することがあるが、 暗黙に以下の関係が了解される。 分布関数 F →(Eという汎関数で変換)→期待値 E(F) ↓ (サンプリング) ↓ x_1, x_2, …, x_i, … ここで、矢印(→、↓)は一方通行。逆方向は、「推測」するしかない。
394 名前:132人目の素数さん mailto:sage [2009/01/30(金) 10:50:22 ] 理解できないやつが出るから確率変数はXと大文字で書いて区別してやらんとな。
395 名前:132人目の素数さん mailto:sage [2009/01/30(金) 15:58:01 ] 質問です。 二群における発生率に有意差があるかを調べているのですが、 A群:100人中10人に発生 B群:100人中 5人に発生 のような場合は 10 90 100 5 95 100 15 185 200 の2*2直接確率計算で検定できると考えました。 A群:100人中 8人に1回発生 2人に2回発生 B群:100人中 5人に1回発生 というようなデータが取れている場合はどう検定すれば良いのでしょうか。 一人に複数回発生しうるため、10人に12回発生しているということなります。 上記のように考えた場合よりもより有意差が認められやすい気はするのですが。
396 名前:132人目の素数さん mailto:sage [2009/01/30(金) 21:07:48 ] >>395 それ、「発生率の比較」ではなくなってしまうかと。 発生した回数(ここでは 0 or 1 or 2)の比較ならば、Wilcoxon 検定でできます。
397 名前:132人目の素数さん mailto:sage [2009/01/30(金) 23:42:21 ] それなら3×2の直接確率検定でも出来るか 大変そうだが
398 名前:396 mailto:sage [2009/01/31(土) 00:10:44 ] 賢い人が考えたアルゴリズムがあるから、3x2 でもそれぐらいのサンプルサイズなら 現実的な時間で exact Wilocoxon(Mann-Whitney's U)はできるよ。 aoki2.si.gunma-u.ac.jp/exact/exact.html
399 名前:132人目の素数さん mailto:sage [2009/02/01(日) 15:14:01 ] >>369 遅レスだけど割とすっきりした値になると思うけどなあ。最大値の期待値を考える場合、まず最大値が従う確率密度関数を考え、それには分布関数の積を考えることになるわけだから…
400 名前:132人目の素数さん [2009/02/02(月) 13:55:07 ] 質問スレでも質問をしましたが、こちらの方が適切だと思うので、こちらでも質問させていただきます。 推定の問題です。 小麦粉を袋詰めした。 大きさ20の標本をとり、その重量を測定した結果、次のデータが得られた。 ばらつきはどの程度であると考えるべきか。 102.5 102.4 101.6 101.2 100.7 101.8 102.0 101.3 101.1 101.7 100.9 102.2 101.9 102.3 101.8 101.7 102.4 101.4 101.3 101.5 (平均101.685 標準偏差0.5174 不偏分散0.268) この問題は何を求めればいいのかわかりません。 ※( )内の値は自分で計算したもので、最初から与えられていたものではありません。
401 名前:132人目の素数さん mailto:sage [2009/02/02(月) 14:47:37 ] >>400 何度も言われてるけどまず教科書を読もう。
402 名前:132人目の素数さん mailto:sage [2009/02/02(月) 20:09:19 ] >>400 「ばらつきの程度」を定量的に評価してやればいいのだろうけど、 指標はいろいろあって、どれが正解、というものではない。 出題者の意図は変動係数あたりかな、と思う。
403 名前:132人目の素数さん [2009/02/02(月) 20:21:41 ] Root Mean Squared Error(RMSE)の95%信頼区間を求める方法はありますか。ME, MAEの信頼区間は、EXCELで計算できるのですが、RMSEでの求め方が分かりません。
404 名前:132人目の素数さん mailto:sage [2009/02/02(月) 21:15:07 ] E(X)・・・期待値 E(X^2)・・・分散 E(X^3)・・・ ? のようにE(X^n)の名前ってついてるんですか?
405 名前:132人目の素数さん mailto:sage [2009/02/02(月) 21:30:27 ] >>404 平均回りのモーメント
406 名前:132人目の素数さん mailto:sage [2009/02/02(月) 21:31:20 ] >>404 平均回りのn次のモーメント
407 名前:132人目の素数さん mailto:sage [2009/02/02(月) 21:31:30 ] 一般には n次モーメント。 あと、E(X^2) は分散じゃないよ。分散に等しくなることもあるけど。
408 名前:132人目の素数さん mailto:sage [2009/02/02(月) 21:32:46 ] E(X^n) は平均周りじゃなくて、ゼロ周り。
409 名前:132人目の素数さん mailto:sage [2009/02/02(月) 21:33:46 ] 平均じゃなくて原点回りモーメントだった。
410 名前:132人目の素数さん mailto:sage [2009/02/02(月) 21:35:14 ] ダブったな。スマン。
411 名前:132人目の素数さん mailto:sage [2009/02/03(火) 00:02:21 ] >>405-410 ありがとうございます なにか統計的な意味があるんでしょうか?
412 名前:132人目の素数さん mailto:sage [2009/02/03(火) 13:12:16 ] >>411 統計的意味はよく知らないが、確率論的意味はある。 確率変数Xのモーメント母関数E[e^(tX)]がtのべき級数に展開できるとき、 t^nの係数がn次モーメントになる。 n次モーメントがすべてわかれば、(モーメント母関数が決まるので)Xの 確率分布が完全にわかる。 また確率分布が式で与えられたとき、その期待値や分散を知るのに、モーメント 母関数を求めてからそれらを導くほうが簡単になることが多い。
413 名前:132人目の素数さん mailto:sage [2009/02/03(火) 13:23:49 ] >>411 モーメント母関数が最大の利点だけど、統計的意味としては前述の平均分散以外に、3次,4次の原点回り標準化モーメントを歪度、尖度といい、分布の歪みや尖り具合が分かる。豆知識ね。
414 名前:132人目の素数さん mailto:sage [2009/02/03(火) 14:27:00 ] モーメントって訳すと離率だっけか? 最初力学で習ったときに凄くとっつきにくかった記憶がある
415 名前:132人目の素数さん mailto:sage [2009/02/03(火) 15:39:57 ] >>414 積率。元は力学の用語だね。
416 名前:132人目の素数さん mailto:sage [2009/02/03(火) 19:27:59 ] 歪みや尖り具合を表わすのに 5次や6次のモーメントじゃなくて3次と4次のモーメントを使う理由って何かあるんですか? 分散が「バラツキ具合」を表わす、ということもそうなんですが。 手元にある参考書は、それ奇数/偶数だったら何でも良いじゃん、 というような理由しか書いて無いように思います。 >>413 原点周りじゃなくて平均周りでは?
417 名前:132人目の素数さん mailto:sage [2009/02/03(火) 19:40:25 ] 単に計算の都合じゃね
418 名前:132人目の素数さん [2009/02/03(火) 20:02:51 ] Rのノンパラ用パッケージに"sm"というのがありますが、 ここで使われているカーネル関数は何ですか?
419 名前:132人目の素数さん mailto:sage [2009/02/03(火) 21:17:42 ] >>416 標準化モーメントなので原点回りでよい。標準化自体に平均からの偏差は取ってある。
420 名前:132人目の素数さん mailto:sage [2009/02/03(火) 21:31:19 ] >>416 もっともσは定数だから平均回りと見ても勿論よい。 重心回りを単にモーメントと呼ぶこともあるし、呼び方はまちまちだが、それより式で覚える方が良い。
421 名前:132人目の素数さん mailto:sage [2009/02/03(火) 23:24:46 ] 尖度、歪度の定義はいくつかあるけど、どれも「平均周りモーメントを標準化したもの」と認識した方が簡明でいいよ思うよ。 原点周りモーメントを平均と分散で標準化する、というのは直感的な理解には遠回りだから。
422 名前:132人目の素数さん mailto:sage [2009/02/04(水) 00:52:13 ] >>416 >分散が「バラツキ具合」を表わす、ということもそうなんですが たしかにバラツキの尺度としてだけなら、E[(X-μ)^2]でなくE[|X-μ|]とかでもよい。 同じ基準で比べる限り、バラツキが大きいほどそれらの量もみな大きくなるから。 ただたとえばE[|X-μ|]だと数学的性質が不便。 それはちょうど、ベクトルの「長さ」を、成分の絶対値の和と定義しても、 抽象的な長さの性質(非負で三角不等式が成り立つなど)はちゃんとあって機能するが、 ふつうは成分の2乗の和の平方根を長さとするのと同じ。 高校数学あたりで、2次式ばかりよく扱うけど、絶対値の入った式が出たら 扱いにくくて嫌だよね? 次数が高いのも嫌だし。 同じ役に立つんなら、いちばん扱いやすくていろんな便利な公式や定理が ある2次がいいじゃん。
423 名前:132人目の素数さん [2009/02/04(水) 01:06:09 ] 専門学校の学会の発表で、トレーニング前の腕の太さとトレーニング後の 腕の太さの比較を5人分行ったのですが、これを『T検定で有意差があったのか なかったのか判定しなさい』と言われ、『ソフトはWinSTATを使うとよい』 と言われてWinSTATを入手したのですが、統計の知識がない自分には どこにどう数値を入力していいのかさっぱりわからず困っています。 例えば運動前が『20、25、33、36、43』で、 運動後にそれぞれ『22、26、31、38、44』に変わったという データがあるとしたら、WinSTATでどう入力すればいいのか教えて頂け ませんでしょうか? 皆さんのような専門知識をお持ちの方にくだらない幼稚な質問で申し訳 ありませんが、よろしくお願いします。 (WinSTATを使えと言った先生には事情があって聞けないものですから・・・)
424 名前:132人目の素数さん [2009/02/04(水) 01:07:10 ] プロテインを飲ませるといい
425 名前:132人目の素数さん mailto:sage [2009/02/04(水) 01:52:27 ] E[ |X-μ| ] を使ってばらつきを求める流儀もあるよ その方が特異なデータに左右されにくくて頑強だと知られてる
426 名前:132人目の素数さん mailto:sage [2009/02/04(水) 01:53:26 ] E[(X-μ)^2]を使うのはなんと言っても微分で解析的に一発で統計的な解が書けるのが大きい
427 名前:132人目の素数さん mailto:sage [2009/02/04(水) 13:06:51 ] >>421 というか俺は標準化モーメントとして理解してる。標準化変数のモーメントね。
428 名前:132人目の素数さん mailto:sage [2009/02/04(水) 15:22:57 ] 統計手法に関してお聞きします. 以下のような集計結果(100人)があるとします. 1.手法Aが適している:44人(44%) 2.手法Bが適している:31人(31%) 3.手法Aと手法Bのどちらも適している:25人(25%) ここで,手法Aと手法Bに有意の差があるのかないのかを判定するため, 3.を排除し,1.と2.の二項分布に帰着させ,二項検定を行えば良いと考えました. どちらも適していると回答した3.を排除してもおk? ダメならどうすればいいですか? 結論としては,AとBに有意差がないことを示したいのです
429 名前:132人目の素数さん mailto:sage [2009/02/04(水) 20:17:17 ] >>427 歪度とか、とんでもなく汚い式になるのでは?三乗根とか出てきそうな感じ。
430 名前:132人目の素数さん mailto:sage [2009/02/04(水) 21:18:24 ] >>439 いんや。東京大学出版会の入門書に載ってるよ。標準化モーメントって言葉がね。
431 名前:132人目の素数さん [2009/02/04(水) 21:21:33 ] >>439 に期待
432 名前:132人目の素数さん mailto:sage [2009/02/04(水) 21:55:31 ] 実務的に使う範囲で統計学でいちばん簡単な入門書はなんでしょうか? 確率分布、検定、主成分分析あたりまで入っているといいのですが
433 名前:132人目の素数さん mailto:sage [2009/02/04(水) 22:08:45 ] >>430 標準化モーメントは使っても使わなくても構わないから、 歪度をある変量のモーメントで表わすとして、 その変量を明示的に表現してみせてよ。 やっぱり、その入門書の標準化モーメントって言葉は、 尖度が「標準化された何かのモーメント」という意味ではなく、 「モーメントを標準化したもの」という意味だと思うよ。 具体的には、平均周り3次モーメントを平均周り2次モーメントで標準化。
434 名前:132人目の素数さん mailto:sage [2009/02/04(水) 22:28:38 ] >>433 何かえらい拘るな。東大出版の「統計学入門」自分で見てと言いたいところだが、 E[{(X-μ)/σ}^3]だ。{}の部分が標準化変数。
435 名前:132人目の素数さん mailto:sage [2009/02/04(水) 22:35:46 ] ついでに言うと標準化するのは分布の指標を平均、分散の影響を排除した純粋な形で示したいから。
436 名前:132人目の素数さん [2009/02/05(木) 00:24:40 ] >>423 ■まず目的は? 腕の太さがトレーニング前と後で 1.異なっている場合に、アクションを取るのか? 2.同じ場合にアクションを取るのか? これによって必要サンプルサイズが異なってくる。 ■サンプルサイズの決定 1の場合なら 帰無仮説:前=後 対立仮説:前<後 と置き、帰無仮説を棄却ればいい。 問題は、どれぐらいの確率で棄却できればよいかによって、必要なサンプル数を決める必要がある。 サンプル数が少なすぎると、本来は差があるにも関わらず棄却できない現象が起きる。(第2種の誤り) 2の場合なら帰無仮説を棄却されないぐらいのサンプル数が必要。 (詳細は省略) ■後は検定 サンプル数を取って、検定を実施すればよい。
437 名前:132人目の素数さん [2009/02/05(木) 00:40:30 ] >>428 排除しては駄目。 手法Aが適している人=44人+25人=69人 手法Bが適している人=31人+25人=56人 帰無仮説:手法Aと手法Bは同じぐらい適している。 対立仮説:手法A>手法B で、有意差がないことを証明できるサンプル数を求める。 あとは検定する。
438 名前:132人目の素数さん [2009/02/05(木) 01:07:11 ] >>428 二群は等分散だと仮定して、二項検定。 二群は等分散といえないならばウィルコクソンの符号順位検定。
439 名前:132人目の素数さん mailto:sage [2009/02/05(木) 01:21:10 ] >>437 その場合、どんな分布で棄却限界値を求めるんだ?
440 名前:132人目の素数さん mailto:sage [2009/02/05(木) 02:11:23 ] >>439 同一母集団における二項検定でいいのでは?
441 名前:132人目の素数さん mailto:sage [2009/02/05(木) 02:23:20 ] 二項検定(正確確率検定)でもいいし、母比率の検定でも良さそうだね。
442 名前:132人目の素数さん [2009/02/05(木) 08:21:12 ] 連続変数ならt検定 カテゴリ変数なら二項分布検定
443 名前:132人目の素数さん mailto:sage [2009/02/05(木) 09:38:49 ] >>440 共通に数えているのがあるのにそれでいいの?
444 名前:132人目の素数さん [2009/02/05(木) 12:37:44 ] >>443 駄目だと思う理由は?
445 名前:132人目の素数さん [2009/02/05(木) 17:55:20 ] 同一母集団の意味を確認しるっ!
446 名前:423 [2009/02/05(木) 20:34:15 ] >>436 ご丁寧な回答ありがとうございます。 >■後は検定 >サンプル数を取って、検定を実施すればよい。 これはどうやればいいんでしょう・・・? WinSTATを開いてみたんですが、セルが並んでるだけで使い方が さっぱり分からず、ネットでいろいろ検索しても統計の難しい用語 がたくさん並んでるだけで使い方は書いてなくて・・・ WinSTATに固執するつもりはないので、他に簡単に検定を行えるソフト等が あれば(ネットで無料で入手できるようなもので)それを教えて頂ければ それでやってみますので、どうかよろしくお願いします。
447 名前:132人目の素数さん mailto:sage [2009/02/05(木) 21:25:37 ] 重複部分があるから、2項検定より同一母集団における母比率の検定のがいいかもしれないな。
448 名前:132人目の素数さん mailto:sage [2009/02/05(木) 22:25:59 ] 標本に対応があることが問題なんじゃないの? マクネマー検定が妥当だと思うけど。
449 名前:428 mailto:sage [2009/02/06(金) 14:55:29 ] >>437-445 >>447-448 適切なアドバイスをして頂いてありがとうございます. 二項検定や母比率検定などの適用を検討してみたいと思います. 大変助かりました(`・ω・´)
450 名前:132人目の素数さん mailto:sage [2009/02/06(金) 23:35:33 ] 多項分布に従う変数の平均値の区間推定をしたいのですが、何か良い方法はあるでしょうか? 尤度比を使って漸近的にカイ2乗くらいしか思いつきません。
451 名前:132人目の素数さん [2009/02/07(土) 01:26:44 ] >>450 素朴に思ったんだけど、尤度比区間推定って知らないんだけど、できるもんなの? 自分が知らないだけかもしれないけど。 尤度比検定ならその通りだと思うけど…。 推定なら月並みだけど点推定で最尤法とかはダメなの?
452 名前:132人目の素数さん [2009/02/07(土) 06:59:53 ] >>450 2項分布の p の信頼区間の多変量版。 多変量信頼区間(信頼領域)で調べれ
453 名前:132人目の素数さん mailto:sage [2009/02/07(土) 13:03:09 ] >>451 勝手に考えてるんですか、 例えば信頼係数99%で、ある平均値を仮定して尤度比検定を行う。 次に平均値を変えて尤度比検定を行う。 これを繰り返して、棄却されなかった平均値を集めて区間を作る。 もしこの実験を繰り返し、その度にこの区間を作ると、 実験100回のうち99回は区間に真値が含まれませんか? >>452 調べたんですが、見つけ切れません。 俺って、情報弱者・・
454 名前:132人目の素数さん mailto:sage [2009/02/07(土) 14:33:44 ] >>453 100回のうち1回よりもっと高い信頼度と考えられるんじゃないかな。 やり方は良いんじゃないかなと思う。 多次元正規分布の区間推定でも調べてみては?
455 名前:132人目の素数さん mailto:sage [2009/02/07(土) 14:40:26 ] >>453 済まない。100回に99回と書いてたね。
456 名前:132人目の素数さん [2009/02/07(土) 18:50:11 ] どなたか下の問題の解答を教えていただけませんか? 観測によって(xi、yi)の対のデータを観測個数n=22として、集めた。 すなわち、i=1,・・・,22である。ここで、X=2、Y=4、(xi−X)²=4、(yi−Y)²=4、(xi−X)(yi−Y)=−2であった(狽フ上にはn、狽フ下にはi=1)。 ここで、Xはxiの標本平均値、Yはyiの標本平均値である。 (1)回帰モデルyi=α+βxi+誤差においてBの最小二乗推定量値を求めよ。 (2)R²を求めよ。 (3)xi,yiの相関係数rr,yを求めよ。 (4)s²、すなわち、残差分散を求めよ。 (5)Bの標準誤差を求めよ。 (6)帰無仮説β=0、対立仮説β≠0として有意水準5%で検定を行え。t統計量値、棄却域、検定結果を答えよ。 (7)帰無仮説:真のrr,y=0、対立仮説:真のrr,y≠0として有意水準1%で検定を行え。検定統計量値、棄却域、検定結果を答えよ。 (8)帰無仮説β=-1、対立仮説β>-1として有意水準1%で検定を行え。t統計量値、棄却域、検定結果を答えよ。 (9)βの99%信頼区間を求めよ。
457 名前:132人目の素数さん [2009/02/07(土) 18:51:56 ] >>456 いやです。 問題丸投げは誰も相手にしないよ。
458 名前:132人目の素数さん mailto:sage [2009/02/07(土) 18:56:54 ] 最小二乗法による直線フィッティングで、 傾きと切片の誤差をデータx_iとy_iの誤差から求める式を教えてください。 ネットで調べたのですがexcelで計算する方法しかありませんでした。 x_iとy_iの誤差はiについて一定です。
459 名前:132人目の素数さん mailto:sage [2009/02/08(日) 13:32:57 ] >>458 最小二乗法でググればいくらでも見つかるじゃん
460 名前:132人目の素数さん mailto:sage [2009/02/08(日) 13:34:47 ] >>454 ありがとう。 やり方が良くても、実行は難しくって・・。 がんばります。
461 名前:132人目の素数さん [2009/02/10(火) 23:36:53 ] >458 x_iとy_iの誤差から求めるってのはよく分からないけど、要するに切片と傾きの標準誤差を求めればいいんでしょ? s^2={1/(n-2)}(Yi-Y'i)^2 Se(α')=s√{1/n+Xa^2/Σ(Xi-Xa)^2}…切片 Se(β')=s/√(Xi-Xa)^2…傾き 'は推定値、Xaは平均値 分散の推定量の平方根ってことだろ
462 名前:132人目の素数さん [2009/02/14(土) 00:57:13 ] すいません教えて下さい。 xAVE=345.0 yAVE=289.7 Sx(x偏差平方和)=1198500-3450^2/10=8250.0 Sy(y偏差平方和)=844441-2897^2/10=5180.1 Sxy(偏差積和)=1005810-3450*2897/10=6345.0 偏差積和を求める問題ですが、1005810という値がどういう風に出るのかいまいち分かりません。 申し訳ないですが、分かる方お願いします。
463 名前:132人目の素数さん mailto:sage [2009/02/14(土) 11:11:09 ] Σx_i*y_i/n
464 名前:132人目の素数さん mailto:sage [2009/02/14(土) 14:36:30 ] >>462 どうでもいいけど随分写し間違いしてないか?分散や共分散求めてるだけなんだけど、それもサンプル数nで割る割らないというのもできれば明示した方がよい。 つうかテキスト嫁。
465 名前:132人目の素数さん [2009/02/16(月) 11:40:35 ] 質問です. 他群の比較にTukey HSDを用いる場合,分散分析をする必要はあるのでしょうか? 分散分析→Tukey HSDとしているケースが多く見受けられるのですが, Tukey HSDはF値を用いない多重検定なので分散分析は不要とする記述も見られます. 結果自体は変わらないようですが,どちらが正しいのかが分からず迷っています. ご回答,よろしくお願いします.
466 名前:132人目の素数さん mailto:sage [2009/02/16(月) 22:17:07 ] >>465 簡単言うと棄却域の形が違う。分散分析が○でTukeyが□だ。 それで境界の部分では違いが出て分散分析で棄却されたのに Tukeyにかけるとどれも差がないということは起こりうる。 (□の角の方に値がいく場合。逆に□の辺の辺りの値だと Tukey単独なら見つけられたのにスルーされる。) その場合でも気にしないのなら分散分析を先に行ってもいい。 (多重比較としての有意水準は5%より若干小さくなる。)
467 名前:132人目の素数さん [2009/02/16(月) 22:50:35 ] >>466 ありがとうございます. 微妙なデータの場合,Tukeyなら有意差がでるのに, 分散分析で有意差が出ないこともあるということですね. 分散分析を飛ばして(=どこかの群間に差があるかを確認せず), いきなり多重比較を行っても(=どの群間に差があるかを確認しても), 統計手法としては特に問題ないと考えていいのですか? Fisher法は必ず分散分析を先に行う必要がありますよね? Tukey法の場合は単独で使うことに何か問題はあるのでしょうか?
468 名前:132人目の素数さん mailto:sage [2009/02/16(月) 23:53:22 ] >>467 Fisher法が分散分析を前提にした方法だったため、Tukey法もそうであるとの誤解が 生じたんだろう。単独で問題ない。(ちなみにFisher法は4群以上では分散分析をしても 有意水準を保てないよ。)
469 名前:132人目の素数さん [2009/02/17(火) 00:29:53 ] >>468 ありがとうございます. Tukey法を分散分析とセットで使っている研究が結構あるので, ずっと疑問に思っていました.
470 名前:132人目の素数さん [2009/02/18(水) 01:25:01 ] 同じ集団から2度データを取ってそれらの比率の差の検定を行う方法が↓ ttp://www.intage.co.jp/chikara/01_marketing/05_sign_appr/69/ この√(P1+P2−2P12)/n ってのがたぶん標準偏差なんだろうけど、なんでこうなるの?? あと、 ttp://www.tuins.ac.jp/~ham/tymhnt/analysis/2statbas/kakusuik/kakusuik.html#i12 のp1+p2ってのもどう出したかわからん…
471 名前:132人目の素数さん mailto:sage [2009/02/18(水) 02:08:18 ] 導出はすぐに分からんが、2つは同じものだよ。 上で(P1+P2-2P12)=(P1-P12)+(P2-P12)と直すと対応する。 (重複した部分は無視してるってことだね。)
472 名前:132人目の素数さん mailto:sage [2009/02/18(水) 02:45:47 ] 2項分布からやり直しなさい 比率はベルヌーイ分布が母集団だから そこからのサンプル平均の分布は2項分布の横軸のスケールを変えたものになるだけ
473 名前:132人目の素数さん mailto:sage [2009/02/18(水) 14:55:55 ] >>470 本来は同一母集団の母比率検定をする場合、重複部分は考慮する必要がある。その例だと√の中の算式は P_1(1-P_1)+P_2(1-P_2)+2P_1P_2 証明は森棟「統計学入門」。 超幾何分布の平均分散の証明をする際に超幾何分布を互いに独立でないベルヌーイ分布の集合と考えるのに似ている。
474 名前:132人目の素数さん [2009/02/18(水) 16:36:37 ] 大学のレポートでポアソン分布の特徴を 具体例を用いて説明せよとあったのですが 例えば競馬で14頭だと仮定し、 @勝った馬 A3着以内の馬 @Aはそれぞれ何番人気の馬が来やすいのか をポアソン分布使って調べられますか〜
475 名前:132人目の素数さん [2009/02/18(水) 16:49:34 ] だめ
476 名前:132人目の素数さん mailto:sage [2009/02/18(水) 16:57:41 ] >>475 無理ですか?
477 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:08:58 ] >>474 1枚100円で、1/10000の確率で46万円が当籤するくじ(それ以外は全てハズレ)を n回購入した場合、m回当籤する確率、に当てはめてみるのがいいんじゃない?
478 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:16:25 ] >>477 一応先生がいうには 信号待ちをしてる車の数や ある時間に家の前を通り過ぎる人 とか簡単なのでおkとのことだったのですが どうせなら自分の好きな競馬にあてはめ られるのではないか? と思いました。 ちなみに実際の競馬ではなくスターホース という競馬で、ランダムに200レースのサンプルを 採取し、 1番人気が勝った回数→○○回 2番人気が勝った回数→○○回 … というデータはすでに持ってます。
479 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:24:26 ] >>477 ここで、n回、m回と回数で表示しているのはそれぞれの抽籤が独立試行で あることを意味している。ある抽籤1回あたりの当籤確率は1/10000であり、 ある抽籤は他の抽籤に影響を及ぼさない。 例 1回に10,000枚のみしか発売しない前述のくじを1回につき1枚、 10,000回購入した場合→当籤回数はポアソン分布する 1回に10,000枚のみしか発売しない前述のくじを1回につき10000枚、 1回購入した場合→当籤回数は1回しかあり得ず、ポアソン分布しない。 1回に10,000枚のみしか発売しない前述のくじを1回につき5000枚、 1回購入した場合→当籤1回の確率0.50、当籤0回の確率0.50で、 ポアソン分布しない。
480 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:31:29 ] >>478 その例だとポアソン分布は難しいんじゃないの? というかノンパラメトリックな方法しか使えないような。
481 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:40:06 ] >>478 200レースくらいだと当てはまらなくはないけどちょっと厳しいかも。 過去の統計から1/10000の確率で1着になるある弱い馬が、 今後もその確率でn回レースに出場してm回1着になる確率分布、 というのはどうかね?
482 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:49:46 ] >>481 ポアソン分布って二項分布とは違って、起きる 事象が稀な場合の分布ですよね?だから 競馬は確率論でいえば勝つ確率は 1/頭数 だからポアソンに当てはまるかな?と思いました。 人気別の分布より、人気を無視した馬の番号別 の方が分布になるんでしょうかね?
483 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:51:17 ] 要するに10000回出場した場合、1着になる回数の期待値は1回だが、 実際に出現する(と思われる)回数とその確率は 0回 0.368 1回 0.368 2回 0.184 3回 0.061 4回 0.015 ということになる。 20,000回の場合、同様に期待値は2回だが、 0回 0.1353 1回 0.2707 2回 0.2707 3回 0.1804 4回 0.0902 5回 0.0361 6回 0.0120 などとなる。
484 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:56:23 ] >>482 14頭くらいでは不十分。 最低でも100頭立てくらいで、かつ出場する100頭とも過去の実力が全く等しく、 それが当該レースにも当てはまれば適用できるかもしれない。 ちょっと非現実的かと。 普通の競馬の場合は馬や騎手によって実力差があるので、 特定の馬が1着になる確率は1/(頭数)ではない。 競馬でもっとおもしろそうな当てはめ方はないかな?
485 名前:132人目の素数さん mailto:sage [2009/02/18(水) 17:57:36 ] >>474 ところで、学部学科と講義科目名はなんですか? 単に聞いてみたいだけなんだけど。
486 名前:132人目の素数さん mailto:sage [2009/02/18(水) 18:08:11 ] >>483 この数字にどういう特徴があるかというと、全然専門じゃないんだけど、 素人目に見て、 ・期待値がx回の場合、出現回数がx回とx-1回になる確率が同じ ・特に期待値1回の場合、0回と1回の確率は等しい。 ・しかしx+1回の確率になると急減する ・従って期待値よりも少ない確率が「期待値」の言葉から受ける印象より 高いことに注意が必要(数学的な表現じゃないな…) ・試行回数が多くなるほど山(分布)がなだらかになる こんなところではないかと。 詳しい方の指摘おねがいします。
487 名前:132人目の素数さん mailto:sage [2009/02/18(水) 18:16:24 ] >>484 じゃあポアソンを使うのは無理っぽいですかね…? >>485 お恥ずかしながら通信制の大学で 経済学部経済学科 科目名は統計学です
488 名前:132人目の素数さん mailto:sage [2009/02/18(水) 18:29:50 ] >>487 別にどこも恥ずかしくはないと思う。がんがってね。 数学関係の学科なのかなとちょっと思っただけだけど、 経済学には統計学の知識はほぼ必須だから、必要性の優先順位を つけるとすれば高位になると思う。 >>481 みたいな場合ならポアソン分布が適用できると思う。
489 名前:132人目の素数さん [2009/02/18(水) 18:53:01 ] 理論在庫計算について質問です。 安全在庫を求める計算式は、 安全在庫=安全係数×標準偏差×√発注リードタイム で求められます。 標準偏差を求める計算式は、 標準偏差=√予測誤差の分散 で求められます。 ここでもし予測誤差の分散がゼロの場合、標準偏差はゼロとなります。 その場合、安全在庫はゼロとなってしまいます。 もし毎回予測誤差が一定ならば安全在庫を持たなくていい という結果に疑問を抱いています。 予測が外れる分だけ安全在庫は持つべきでないでしょうか? 統計学の強い方、どなたかご教授下さい!!
490 名前:132人目の素数さん [2009/02/18(水) 22:00:59 ] >>489 在庫管理のことは知らないけど、「安全在庫」の定義が↓なら、それで良いのでわ? >安全在庫量(zk-anzen) >毎日の出荷量は多いときもあれば少ないときもあります。発注してから >入荷するまでの調達期間で平均出荷量よりも多く出荷されると, >入荷までに品切れが発生する危険がありますので,それを防ぐために >余計な在庫を持つ必要があります。それを安全在庫量といいます。 www.kogures.com/hitoshi/webtext/zk-intro/index.html つまり予測誤差が無ければ、次に入荷するまでの出荷量は既知なので、 その分の在庫は当然前の発注で確保されている。 よって想定外の出荷による在庫切れは起きず、「安全在庫」は不要。 もちろん、「予測誤差の分散がゼロ=予測誤差が無い」が成り立つには、 系統的な誤差を持たない予測法、E[予測誤差] = 0、が条件だけど、、、
491 名前:132人目の素数さん mailto:sage [2009/02/18(水) 22:24:50 ] >>489 微妙にスレ違いぽいが…。予測誤差ってのが何の予測誤差なのかよく分からないが、在庫の数かな? 誤差が予め想定された一定値に収まっていれば在庫を持つ必要はないということなのかね。誤差といえども必然的に生じるのかもしれない。つまり予めそれを見越して生産すれば客の注文に応えられなくなるという事態を防げる。 例えば販売量9個を想定している場合、通常商品が紛失する可能性を考慮して在庫を持たなければならないが、毎月の誤差が1個だとすると、在庫もたなくとも毎月10個生産すれば需要に応えれなくなる事態は防げるだろう。 言葉も公式の意味も知らないから想像だ。2ちゃんで聞くより自分で調べた方が良さそうな問題だ。
492 名前:132人目の素数さん [2009/02/18(水) 22:30:36 ] >>490 予測誤差がなければ安全在庫は不要というのはわかります。 ただ、例えば極端な話、毎月毎月予測誤差が100不足として外れるとしたら、 標準偏差はゼロになってしまいます。 毎月不足しているのに、標準偏差をゼロとして、安全在庫をゼロとするのには おかしいのでは?と思いまして。 そもそも予測誤差の標準偏差で安全在庫を設定すること自体に疑問を持っています。 こちらのサイトでその計算式が記載されていました。 monoist.atmarkit.co.jp/fpro/articles/schedule/02/schedule02b.html もう一つの計算方法として、出荷量の標準偏差を取るやり方があります。 こちらで求めるのが正しいと考えています。
493 名前:132人目の素数さん [2009/02/18(水) 22:46:57 ] >>491 予測誤差とは、需要予測-需要実績値のことです。 >例えば販売量9個を想定している場合、 >通常商品が紛失する可能性を考慮して在庫を持たなければならないが、 >毎月の誤差が1個だとすると、在庫もたなくとも毎月10個生産すれば需要に応えれなくなる事態は防げるだろう。 ズバリそういうことです!!だから安全在庫がゼロでも計画値に予測誤差分プラスすればいいってことですかね〜?? スレ違いとは思っていましたが、数学に強そうな皆様ならご返答いただけると考えました。
494 名前:132人目の素数さん mailto:sage [2009/02/18(水) 23:20:09 ] >>492 予測が毎月誤差100で外れるんでしょ? 予測誤差ってのは、予測と実績の差だよね。 で、予測誤差の分散っていうのは、実績を基準とした時に予測がどれだけ 離れてたかを計るものでしょ。 それなら、(予測−実績)=100 なんだから、 予測誤差の分散は n(100^2)/n=100^2で、標準偏差は100だよ 誤解してると思うのは、(予測−実績)という値について、平均と分散 を計算しているのではなくて、実績を基準とした予測の乖離の分散。 なので、予測と実績が等しければ分散がゼロだけど、違ってれば分散はプラス。
495 名前:132人目の素数さん [2009/02/18(水) 23:35:14 ] >>494 それはMSE(平均平方誤差)ね。 分散は、期待値の周りの変動なので、その場合ゼロになる。 けど、毎回予測値が100大きいのなら、予測値を-100するのが当然なので、 現実的には予測誤差の期待値はゼロでいいんだよ。 それがわからない>>492 はストーンヘッド
496 名前:132人目の素数さん [2009/02/18(水) 23:50:07 ] >>492 出荷量から安全在庫量を計算する =出荷量予測をしない時の在庫管理方式 =最大の安全在庫量 しかし出荷量時系列は、普通、系列相関(自己相関)や マクロ要因など他のデータとの相関を持っているので、 その情報を使って予測すると、安全在庫量を減らせるんだよ。
497 名前:496 mailto:sage [2009/02/18(水) 23:51:54 ] ×出荷量から安全在庫量を計算する ○出荷量の標準偏差から安全在庫量を計算する
498 名前:132人目の素数さん mailto:sage [2009/02/19(木) 00:02:55 ] >>495 いや、この場合の期待値は、予測値だろう。 で、期待値を中心に、実績値がどれだけ外れているかで分散を計算するん じゃないのか。 そうでないと外れているのに、誤差の分散がゼロとか言う、質問者の言う おかしな話になる。
499 名前:132人目の素数さん [2009/02/19(木) 00:26:21 ] 皆様混乱させてしまいすみません。489です。 予測誤差の標準偏差を計算式に代入します。 その時、予測誤差が毎月毎月100プラスでずれていたとします。 その場合、予測誤差の標準偏差はゼロになるのでは?ということです。 現実問題こんなこと起きませんが、そもそも予測誤差の標準偏差を取ること自体に疑問に感じたからです。 たとえば、毎月の予測誤差が大きく外れているのにも関わらず、毎月の予測誤差にほとんど変化がなければ、 バラツキは小さくなり標準偏差が小さくなる。よって安全在庫が少なく設定されるという結果になりかねないと思いました。 スレ違いかもしれませんね。。。どこで聞けばいいのやら。。。
500 名前:132人目の素数さん mailto:sage [2009/02/19(木) 00:37:26 ] >>499 いや、そうじゃなくてさ、そもそも考えている状況がおかしいのよ。 予測が毎回大きく偏る、しかもプラスマイナス両方にばらついているのではなくて +100とかいう風に片側にばらついていて、その誤差に自体にはばらつきがないと すると、予測方法自体が、修正できるでしょ。 つまり、予測するってことは、少なくとも平均的に当たるように予測しているわけ。 単純な例だと最小二乗法。 でも、あなたの例だと、平均的に100ずれるように予測してるの。 となると、予測の段階でおかしいの。 なので、いつもプラス100ずれるなら、予測をマイナス100するように修正しないと 平均的にも当たってないでしょ。 なので、そもそも、あなたの考えている状況がおかしいのね。
501 名前:132人目の素数さん mailto:sage [2009/02/19(木) 00:54:49 ] >>499 ついでに書いておくと、きちんと予測されているならば、予測が間違うにしても、 片側にだけずれることはないので、その場合は、誤差の総和はゼロに近くなります。 つまり、誤差のデータだけから平均と分散を計算したものと、>>494 、>>495 の書いている MSE(平均平方誤差)は、ほぼ同じ値になります。 なので、予測誤差の分散、標準偏差を使って(簡便法として)計算しているのでしょう。
502 名前:132人目の素数さん mailto:sage [2009/02/19(木) 01:40:59 ] >>499 寝る前に、もう一個追加。 予測って言うのは Σ(実績値−予測値)/n=0 となるように行う。平均的にあたるってこと。 で、誤差=(実績値−予測値) だから 誤差の平均値=(実績値−予測値)の平均値=0 となる。 その結果、 誤差の分散=Σ{(誤差−0)^2}/n=Σ(誤差^2)/n =Σ[{(実績値−予測値)−0}^2]/n=(実績値−予測値)の分散 となる。 これは、ついでに、MSE=Σ[(実績値−予測値)^2]/n と等しくなる。 つまり、>>499 が勉強した状況は、予測がきちんと行われている状況の話なので、 誤差の平均値=(実績値−予測値)の平均値=0 誤差の分散=(実績値−予測値)の分散=MSE(平均平方誤差) が、成立しているような状況。 でも、>>499 は、 誤差の平均値=(実績値−予測値)の平均値=100で 誤差の分散=(実績値−予測値)の分散≠MSE(平均平方誤差) を考えてる。 つまり、前提を(いつも100ずれるとか)おかしくしてるので、話がおかしく なってる。
503 名前:132人目の素数さん mailto:sage [2009/02/19(木) 03:24:43 ] >>502 多分だけど、質問者>>499 はおそらく知らないと思うけど最小自乗法、自己回帰ARモデルみたいな誤差自体の分布をイメージしてるはずなんだが、誤差平均=0という仮定をしてないんじゃなかろうか。 例えば毎月予測100実績200だとすると誤差は常に100となり誤差平均も100になる、分散0。 そんな感じで考えてるんじゃなかろうか。
504 名前:132人目の素数さん mailto:sage [2009/02/19(木) 03:25:26 ] 俺は在庫うんぬんとかわからんけど、 要は、毎回誤差(?)を同じ値ドンピシャで予測できるなら、 それはもはや誤差ではなくて、むしろ実質的にズバリ予測できてるってことだよね。 まぁ明らかに予測としておかしいけど、計算上その結果安全在庫がゼロに なるのは、それはそれで (理屈上は) 筋が通ってる気はする。 ごめん素人。
505 名前:132人目の素数さん mailto:sage [2009/02/19(木) 03:29:33 ] >>503 は>>500 と同じ内容になってしまった。まあ質問者はおかしな予測を前提の上で、安全在庫について知りたがっているんだろう。
506 名前:132人目の素数さん [2009/02/19(木) 18:56:09 ] というか、予測 → {当たる:少ない、外れる:多い} というありがちな発想。 だから「予測」という行為そのものに、不信感を抱いてるふいんき(←変換できない)。 統計的予測 → 相関情報の利用による不確実性の減少化 Q) 政府発表の予測値のように、いつも過大評価とか過小評価になったりしない? A) しない。 政府発表の予測値は、予測の条件に「都合の良い想定値」を使うから眉唾になる。 「予測する時点で得られる観測値」だけから相関構造によって予測式を立て、 新しい観測値が得られる度に予測式(回帰式)を更新していれば、 分布の位置尺度的な意味において過大・過小評価が起きることはない。
507 名前:132人目の素数さん mailto:sage [2009/02/19(木) 19:53:13 ] >>487 良く考えたらポアソン分布で一番有名なのが 「プロシア騎兵連隊において馬に蹴られて死んだ兵士数」 だから馬関係ならあるよね。 こういう事故っぽいのはポアソン分布になることが多い。
508 名前:132人目の素数さん mailto:sage [2009/02/19(木) 20:23:10 ] レースで騎手が落馬する確率とか
509 名前:V [2009/02/19(木) 20:35:32 ] 次のようなゲームを考える。 コインを裏が出るまで投げ続ける。 それで表が出る度に賞金が倍になる。 例えば、表裏100円。 表表裏なら200円。 表表表裏なら400円。 表表表表裏なら800円のようになる。 このゲームの参加費はいくらが適切かを考えるために、 このゲームの期待値を考えると、 100×1/2+200×1/4+400×1/8+……= 50+50+50+… となり50も積もれば山となるで期待値は無限大となり、自分の全財産以上の参加費でも、 借金し続けてでも このゲームを長くやれば、 利益が出るのでやるべきだと数学?は言ってるが、、 これは明らかに事実と大きく反する。 みなさんはこのパラドクスをどう解釈する?
510 名前:132人目の素数さん mailto:sage [2009/02/19(木) 21:00:18 ] 実際には主催者側が出せる賞金の額と試行できる回数は 有限。 それを考慮に入れると期待値はすごく小さくなる。 ってか、これって最近どっかで見たな。どこだっけ。
511 名前:510 mailto:sage [2009/02/19(木) 21:02:02 ] 「実際には」 ってのは、「現実世界では」 って意味ね
512 名前:132人目の素数さん mailto:sage [2009/02/19(木) 21:42:28 ] 試行回数が有限なのはすぐ思い浮かぶけど、そもそも期待値で意思決定するというのが当てはまらないケースじゃないかな。
513 名前:132人目の素数さん mailto:sage [2009/02/19(木) 22:04:19 ] >>509 ゲームの参加費を変化させた場合の そのゲームの勝ち負けの標準偏差を参加日ごとに求めてみれば?
514 名前:132人目の素数さん [2009/02/19(木) 22:30:12 ] >471 ありがとうございます。 >472 勉強しなおしてみます。 >473 的確な回答ありがとうございます。ぐっすり眠れるようになりました。
515 名前:132人目の素数さん mailto:sage [2009/02/19(木) 22:39:58 ] >>508 それは>>507 に近いからポワソン分布に従いそうだよね。 データがあるのかどうかはしらんが。w
516 名前:132人目の素数さん mailto:sage [2009/02/19(木) 22:47:27 ] >>508 はいいかも。 特払の発生 馬の禁止薬物の摂取が判明する もポアソン分布しそうだと思う。
517 名前:132人目の素数さん mailto:sage [2009/02/19(木) 22:48:41 ] >>514 ぐっすり眠れるようになったのに申し訳ないが 元々>>470 の問題提起とリンク先とが対応していない。 同一母集団から2度採取したなら>>473 が正しい。 リンク先は採取は1度でそれに対して2つの製品の利用率を聞いている。 その場合、リンク先の方法で正しい。
518 名前:132人目の素数さん [2009/02/20(金) 19:04:06 ] >>516 話はそれるが、サッカーの試合で警告やら退場やらをくらう選手の数がどうだこうだ という連中がいたな。 たぶん独立していないからポアソン分布じゃないと思うが。
519 名前:132人目の素数さん mailto:sage [2009/02/20(金) 19:11:38 ] スレへの書き込みという事象もポアソン分布してないかな?
520 名前:132人目の素数さん mailto:sage [2009/02/20(金) 20:07:16 ] >>519 数日過疎かと思えば1日で極端に伸びたりするから、ポアソンではないように思う。まさに不規則。
521 名前:132人目の素数さん mailto:sage [2009/02/20(金) 20:51:19 ] 過疎ってる掲示板って一人書き込めば 一気に伸びることもあるからな 最初のハードルが高い感じ
522 名前:132人目の素数さん mailto:sage [2009/02/20(金) 22:33:02 ] 局所的にはポアソン分布で近似可能、な気がする。
523 名前:132人目の素数さん mailto:sage [2009/02/20(金) 22:53:17 ] 局所的なポワソン分布ってどういう感じのこと?
524 名前:132人目の素数さん mailto:sage [2009/02/21(土) 00:20:58 ] >>523 狭い時間間隔、例えば 00:00:00 〜 00:00:10 の間のレス数は (ある強度の)ポアソン分布で近似できるのではないか、と。
525 名前:132人目の素数さん [2009/02/21(土) 01:29:10 ] >>524 そりゃそうだけど、意味は無いね。
526 名前:132人目の素数さん mailto:sage [2009/02/21(土) 09:34:56 ] ポワソン分布って、 「稀な事象が長時間にわたって起こるときの分布」 じゃなかったっけ? ちりも積もれば山となる的な
527 名前:132人目の素数さん mailto:sage [2009/02/21(土) 14:21:49 ] >>526 そうだね。ポツンポツンと起こる感じ。 局所的にポワソン分布するというのは意外に多いようだ。
528 名前:132人目の素数さん mailto:sage [2009/02/21(土) 17:10:49 ] >>525 そう?強度パラメータを時間の関数とみなして、トレンドの有無を検定できたりすると思うけど。 2ch のレス数自体に解析する意味などない、というのなら(同意はしないものの)理解はできるけど。
529 名前:132人目の素数さん [2009/02/22(日) 10:44:27 ] >>524 ポアソン分布の大原則は独立かつ一様だから、チョット無理じゃないかな?
530 名前:132人目の素数さん mailto:sage [2009/02/22(日) 12:32:09 ] ja.wikipedia.org/wiki/%E3%83%9D%E3%82%A2%E3%82%BD%E3%83%B3%E5%88%86%E5%B8%83 Wikipediaのポアソン分布する事象に関する記述で、 >1週間あたりの米軍の死亡者数。 とかはなんとなくわかる気がするけど、 >1分間のWebサーバへのアクセス数。 >例えば、1時間あたりのウィキペディアの最近更新したページの編集数も >おおよそポアソン分布。 これもポアソン分布するの?
531 名前:132人目の素数さん mailto:sage [2009/02/22(日) 15:05:15 ] >>530 一応データ取って調べたんだろうから正しいんだろうけど。Wikipediaの編集数は相互に独立的と言えば独立的と言えるし。 ネットの書き込みは基本議論なので、1つのレスに連続でレスがついたりするから微妙だとは思うが。
532 名前:132人目の素数さん mailto:sage [2009/02/22(日) 20:56:36 ] 編集合戦とかも総投稿数のなかで無視できない割合で 起こったりするとかいえばキリが無いけどデータ上はほぼポアソン分布してるんだろうね。
533 名前:132人目の素数さん mailto:sage [2009/02/23(月) 13:13:20 ] チャオリを引退させるのが次の目標か
534 名前:ぼう [2009/02/24(火) 17:42:59 ] 教えてください。 K次元のパラメータaがa=Hbというように別のK次元のパラメータbの線形結合になっていると 仮定します(Hは未知のKxK行列で逆行列が存在する)。 このとき、aの推定値のみがわかっている状況でbの有意性検定を行う方法は あるでしょうか? よろしくお願いします。
535 名前:132人目の素数さん mailto:sage [2009/02/24(火) 23:18:23 ] b の有意性検定、というのは b がゼロベクトルかどうかの検定ということ?前提条件より b がゼロベクトル ⇔ a がゼロベクトル だから、a がゼロベクトルかどうかの検定ができるのなら、それは b の有意性検定にもなっている。 最強力検定を構成したい、とかいうのなら、もう少し問題のバックグラウンドを示す必要がある。
536 名前:132人目の素数さん [2009/02/25(水) 09:41:22 ] どなたかこれ教えてください 分散9の正規母集団の平均を推定するとき、推定値の誤差が1/2より大きくならない確率を0.80にするためには、何個の標本を取らねばならないか
537 名前:132人目の素数さん mailto:sage [2009/02/25(水) 10:59:37 ] >>536 マルチ
538 名前:132人目の素数さん [2009/02/25(水) 11:51:55 ] すいません反応がなかったので…
539 名前:132人目の素数さん mailto:sage [2009/02/25(水) 12:22:31 ] 宿題丸投げに反応が少ないのは当たり前だな。
540 名前:ぼう [2009/02/25(水) 12:46:48 ] >535さん 問題設定が不明ですみません。知りたいのは、aの推定値だけがわかっているときに、 bの中のどれが有意で、どれが有意でないかを検定する方法があるのか?ということです。
541 名前:132人目の素数さん [2009/02/25(水) 13:13:17 ] >>539 宿題ではないです 参考書に全く解説がついてないので
542 名前:132人目の素数さん mailto:sage [2009/02/25(水) 13:19:39 ] >>541 区間推定の公式に当てはめるだけじゃん。それが分からないというのなら基礎知識不足。
543 名前:132人目の素数さん mailto:sage [2009/02/25(水) 19:43:06 ] >>540 まだまだ不明確です。 「aの推定値だけがわかっているときに、」とありますが、 例えば a の点推定値だけしか得られていないのなら、 特殊な場合を除いて a の検定すら構成することはできません。 a の分布は多変量正規分布に従っていると考えてよいのでしょうか? a の標準偏差(or その推定値)は得られているのでしょうか? およそ、参考書に載っているような問題は、与えられた仮定や条件を 全て使わなければ解が得られないように出来ているので、 説明を端折ることはできません。
544 名前:132人目の素数さん [2009/02/25(水) 20:38:11 ] >>543 何度もすみません。考えているのはK変数の回帰モデル y_t= a'x_t + u_t (t=1,...,n) です。このモデルで、x_tにスペクトル分解を使って、固有ベクトルを説明変数にした y_t= b'w_t + u_t をさらに考えます。 知りたいのはy_tとw_tだけが既知のときにはbの有意性検定は(漸近的には) 正規分布で簡単にt検定できますが、上のモデルのパラメータaの各要素の 有意性検定ができる方法があるのか?ということです。 よろしくお願いします。
545 名前:132人目の素数さん [2009/02/26(木) 01:47:38 ] 統計学の入門書で、標本理論の基礎から 厳密に丁寧に書いてある本はあるでしょうか? 英語でもいいです。
546 名前:132人目の素数さん mailto:sage [2009/02/26(木) 10:10:45 ] >>544 a の第 i 要素 a_i だけについて興味がある場合を考える。 a_i は b の要素の線形結合で表現できる。 b の各要素の推定値が正規分布するなら、a_i の推定値はその重み付き和なので正規分布する。 帰無仮説 a_i=0 の下で、a_i の推定値は平均 0 で、ある分散を持つ正規分布に従う。 あとは、その分散を求めてやれば t 検定で検定ができる。 複数の要素を同時に検討する場合、難しいのは検定の多重性の処理。 解析者の方針によってアプローチが異なってくるはず。
547 名前:132人目の素数さん mailto:sage [2009/02/26(木) 14:04:42 ] いくつか疑問がある。まず行列の積の行と列が対応してるか考えた?通常の回帰モデル式と若干違う気がするが…。 まあ言わんとしてることは分かるから、それはいいとして、スペクトル分解ってことは対称行列の直交行列を使った対角化だよね?>>544 のは特異値分解じゃないかな? あと何か目的があって分解(変換)してるんならその理由があれば聞きたい。
548 名前:132人目の素数さん mailto:sage [2009/02/26(木) 14:06:06 ] >>547 は>>544 。ごめん。
549 名前:ぼう [2009/02/26(木) 18:49:12 ] >>546 547 なんかごちゃごちゃしてすみません。 簡単に言うと重回帰モデル y_t= a'x_t + u_t (t=1...n) a, x_t はK次元ベクトル、y_t u_tはスカラー は主成分回帰モデル y_t= b'w_t + u_t (t=1...n) b, w_t はK次元ベクトル、y_t u_tはスカラー として書き換えることができますが、y_tとw_tだけがわかっているときに、 上の式の係数ベクトルaの成分のt検定をしてどの成分が有意であるかを調べる方法があるのか?を知りたいと思っています。 よろしくお願いします。
550 名前:132人目の素数さん mailto:sage [2009/02/26(木) 20:45:56 ] y_tとw_tからbを推定すれば、あとは逆変換でaを推定することになるのかな。 詰まる所、aとbは線型変換の関係にあるから推定や検定方法は同じでいいんじゃない。
551 名前:132人目の素数さん mailto:sage [2009/02/26(木) 21:42:07 ] >>549 私は >>546 で回答したつもりなのですが、どこか不明な場所がありますか?
552 名前:132人目の素数さん [2009/02/27(金) 01:55:16 ] 二乗項、交互作用項が入った非線形重回帰分析の 変数選択の手順を詳しく知りたいのですが、 掲載されている書籍やサイトがありましたら教えてください。
553 名前:ぼう [2009/02/27(金) 14:46:49 ] >>551 bからどうやって1つのa_iを識別するのかがぼんやりしてます。 これは、説明変数x_tに主成分分析を使って主成分w_tを求めることは簡単にできますが、 主成分w_tだけが与えられたときに、w_tをもとのx_tに戻す方法があるのか? ということと関連していそうなのですが・・・。
554 名前:132人目の素数さん mailto:sage [2009/02/27(金) 15:33:00 ] >>553 だから逆変換すればいいんじゃないの? a→bの変換が分かっていれば、b→aはその逆変換でしょ? あるいは逆変換が解析的に求まらないパターンかな…。 変換は行列の特異値分解をしてるんだと思ったが。 スペクトル分解なら相互に逆行列=転置行列かければ変換できるよね。
555 名前:132人目の素数さん mailto:sage [2009/02/27(金) 15:47:41 ] >>553 >>544 主成分分析を使って変数変換したのはいいんだけど、具体的にどういう変換したのかで変わってくると思う。 スペクトル分解したと書いてあるから、線型変換だと思ったんだけど、何か複雑な作用をしてて解析的に求まらない状態なの?
556 名前:132人目の素数さん [2009/02/28(土) 02:03:38 ] >>553 たぶん皆がわからないのは、手法ではなく、その特殊な状況。 何のために、そんな「異常な条件下」で問題を考えているのか? それがわかればスルーもできるし、無理に建設的に考えて 親切に説明し、質問者にスルーされることもないw
557 名前:132人目の素数さん [2009/02/28(土) 13:33:54 ] 統計不慣れで申し訳ないですが教えてください。 以下の試験を4回行い、次の2点について知りたいとおもっています。 捕食者6尾、被食者30尾を同じ場所に入れて、一定期間後被食者が何尾食べられているかを調べる 1.被食者の大きさによって食べられやすさに差があるかどうか? 2.捕食者の大きさによって食べる大きさに違いがあるかどうか? 1については、試験開始時と終了時に生き残った被食魚の大きさを比較すればいいとおもうのですが、この場合平均を比較(T-test?)するべきなのでしょうか? それとも分散(F-Test?)に差があるかどうかを比較するべきなのでしょうか? また4回試験を行った場合、1回毎に評価を行っていくものなのでしょうか? 2については、どのように比較すればよいでしょうか? なにぶん不得手なもので、どんな手法でどう比較すればよいかご教授いただけたら助かります。
558 名前:132人目の素数さん mailto:sage [2009/03/04(水) 19:10:21 ] あるコインの表が出る確率は1/2。コインをn回投げて表の出る回数を調べる。それを一セットと考えてm回試行する。 とりあえずnやmを大きくすればコインの表が出る回数は1/2の確率に近い回数値が出やすくなる…って感じで良いと思うのですが… ここで次のような仕組み、装置を考えるとします。 二つの箱A、Bがある。Aの中にはa1,a2、Bの中にはb1、b2と印のついた球が一つづつ入ってる(一つの箱には球が2つ) 球は触っても区別がつかない為、Aの箱からa1が選ばれる確率もa2が選ばれる確率も1/2、b1やb2も同じくBの箱から1/2づつの確率で取り出される。 a1とb1を取り出した場合とa2、b2を取り出した場合は表の出る確率が1/2となるコインが渡される。 a1とb2を取り出した場合は表の出る確率が1/4となるコインを渡される。 a2とb1を取り出した場合は表の出る確率が3/4となるコインを渡される。 コインをn回投げて表の出る回数を調べ、それを一セットとしてm回試行する事にする。 間に装置が入ったとしても装置全体として考えた時でもコインの表が出る確率は1/2のままであるから nやmが大きくなれば最初の場合と同じくコインの表が出る回数は1/2の確率に近い値になると思います。
559 名前:132人目の素数さん mailto:sage [2009/03/04(水) 19:11:26 ] 次に箱の中に球が2つだけの場合を更に拡張して以下の場合を考えてみるとします。 Aの箱にK個、Bの箱にL個あるような場合。 更にはそれぞれの球が選ばれる確率が等しくない場合。 (ある球が出る確率は3/kだったり9/kだったりって程度の差の場合。 あるいはもっと小さく1/100kという球が混じってる場合) (ただし、どの場合でも装置全体としてコインの表が出る確率は1/2のままに調整されている) ここまで余分に付け加えて考えてみると、コインの表が出る確率が1/2のままと言っても 球が増えれば増えるほど、装置内部でのバラつきが増えれば増えるほど 一番最初の装置無しのケースよりもnやm値が大きなものとなる必要があるのではないか?というような感じがします そこで質問なのですが、1/2辺りで回数が安定するのに必要なnやmの値は最初の単純なケースと比べてどのように変わるものなのでしょうか? 自分の直感と異なり全くそのままで良いのか?少し増やす程度で対応できるのか?指数関数的に大きくなるものなのか?を知りたいです (例えば最初のケースがn=20、m=30で誤差が小さく安定してると考えるとして、後者の場合でもそれと同じ程度の誤差にしたい時。 元のままn=20やm=30でOKなのか、n=60、m=90ぐらいには増やす必要があるのか。あるいはn=8000、m=9000という値が必要になってくるのか) もしかするとKやLの個数によっても変わってくるかも知れませんので… 自分が具体的に考えてみたいケースは次のような感じです。 KやLの値は共に60以下、場合によっては簡単にする為に20以下まで抑えた値を取る。K=Lとは限らない (一応どちらも最大の値は250程度考えられて、更に厳密にやろうと思えば1000程度まで考える必要があるが、自分の力じゃ収集つきそうにないので) 球の出る確率のバラつきは3/1000〜16/1000ぐらいの差
560 名前:132人目の素数さん mailto:sage [2009/03/04(水) 20:43:58 ] >>558-559 質問は、主旨を3行程度にまとめ、必要があれば補足説明を加えましょう
561 名前:132人目の素数さん mailto:sage [2009/03/04(水) 22:51:34 ] >>557 以下のように試験を組むことが考えられる。 便宜上、捕食者の大きさを大中小、被食者の大きさも大中小で分ける。 (もっと細かくしてもよいが、後の解析で検出力が落ちる可能性がある。) ・1回目 捕食者大6匹vs被食者大10匹、中10匹、小10匹 ・2回目 捕食者中6匹vs被食者大10匹、中10匹、小10匹 ・3回目 捕食者小6匹vs被食者大10匹、中10匹、小10匹 この1回ごとに次のような分割表が得られる。 大 中 小 食べられた xx xx xx 食べられなかった xx xx xx この全部で3つの分割表に対し、捕食者の大きさと被食者の大きさと 食べられたか食べられなかったかで対数線型モデルで解析する。
562 名前:132人目の素数さん mailto:sage [2009/03/15(日) 20:16:31 ] 結局引退の理由は?
563 名前:132人目の素数さん mailto:sage [2009/03/22(日) 16:39:45 ] ほ
564 名前:132人目の素数さん [2009/03/22(日) 18:37:48 ] age
565 名前:132人目の素数さん [2009/03/22(日) 23:20:18 ] 正規分布σ=1, 平均=0に従う分布を持つものがたくさんあって、 そこから10こ抜き出したときに、最大値がa〜a+Δaを取るときって Sum[Binomial[10, n]*(1/Sqrt[2*Pi]* Integrate[Exp[-1*x^2/2], {x, a, a+Δa}])^(n)* (1/Sqrt[2*Pi]*Integrate[Exp[-1*x^2/2], {x, -1*Infinity, a}])^(10 - n), {n, 1, 10}], {a, 0, 100}] であってますか?
566 名前:132人目の素数さん mailto:sage [2009/03/22(日) 23:32:22 ] 最大値がa+Δaより小さく、少なくとも1つはaより大きい
567 名前:132人目の素数さん mailto:sage [2009/03/23(月) 00:03:56 ] あ、こんなレベルなんだ
568 名前:132人目の素数さん [2009/03/23(月) 21:19:39 ] MCMCで出てくる棄却サンプリングとやらがちっとも解りません。 サルでも理解できる説明をしてくれる人はいませんか?
569 名前:132人目の素数さん mailto:sage [2009/03/24(火) 00:12:39 ] 条件付確率の定義に従って馬鹿正直に計算してるだけ
570 名前:132人目の素数さん mailto:sage [2009/03/24(火) 22:58:36 ] すみません。私は社会人2年目の若輩者ですが質問がございます。 ここで訊ねるのが良いのかどうかよく分かりませんが、どなたか、お知恵をお貸し下さいませんか? お訊ねしたいのは”規格の幅”の決め方です。 ある機械で生産される製品の寸法規格(社内的な規格です)を設定したいのですが、 新しい製品であり、今のところ、”この寸法からどれだけ以内にしろ”といった要求はありません。 ですが、現場への仕様指示として、一定の規格幅(管理幅)を設けたいのです。 そこで考え付いたのが、t分布による区間推定を使えないかということです。 その製品の寸法平均値と不偏標準偏差を求めておいて、工程が順調に稼動しているときの 製品寸法を母平均μとして(もちろんμの具体的な値は分かりませんが、工程が順調なら 寸法はμになると仮定する)、その95%信頼区間をそのまま規格幅にしてみたらどうかということです。 (書籍など、私の手に入る範囲で調べてみましたが、こういう例はありませんでした。) 如何でしょうか。このような考え方で良いのか、どなたかご意見やご経験のある方、是非ご教授下さい ませんでしょうか? よろしくお願い致します。
571 名前:132人目の素数さん mailto:sage [2009/03/24(火) 23:12:15 ] 95%ってことは作った製品の5%は 規格外ということで処分するつもり、ということ? というかその規格で、対外的に謳っている性能が保証されなかったりとか 自然発火とか破損とかそういうアクシデントが起こりやすかったりしたら 何%信頼区間だろうが意味無いでしょ。 作る人たちの一方的な都合で決めちゃダメなんじゃないの?
572 名前:132人目の素数さん mailto:sage [2009/03/24(火) 23:45:19 ] 公差は厳しすぎても緩すぎても使い物にならんよ 適当に決めたら現場のオッサンにヤキ入れられるぞ
573 名前:132人目の素数さん mailto:sage [2009/03/25(水) 00:19:50 ] >571 早速のご回答をありがとうございます。 規格外になった5%は前工程へ戻すことになります。 (製品の性質上、再生することは可能です。もちろん、余分なコストがかかることにはなりますが・・・。 また、95%値を例には挙げましたが、今の時点でなら99%に変えても良いと考えています。 お訊ねしたかったのは570のような考え方による規格幅の設定という、その方法自体の可否に対するご意見です。 こういう考え方はやはり邪道なのか、それとも在りえる方法なのかということです。) ご指摘にありますように、まずは生産者側のみで設定しようとしている規格なのですが、やはり570で書きましたとおり、 現在は外的な規格要求は何もなく、かと言って現場に対して”規格なし”というわけにもいかず、 ”現状を維持して下さい。現状とはこの数値に入る範囲のことです” という意味での規格を設定したいということです。 (尚、ここでお訊ねしている規格化の対象物性としては寸法”のみを考えています。寸法以外の物性値については、 元々要求のない用途/製品ですので、ご考慮の範囲からは外して頂いても結構です。) 571様、ご意見ありがとうございました。
574 名前:132人目の素数さん mailto:sage [2009/03/25(水) 00:25:33 ] >572 572を書いている間のレス、ありがとうございます。 ヤキ、入れられてます、確かに・・・・・・。 そんな彼らも何とか説得できるような公差を設定したいです。 そのためには、どういう理屈で公差を決めたかが必要なのですが、お訊ねしているのは、 その理屈/考え方が、彼らを説得できそうなものかということです。 もし、見当違いの考え方なら、早速改めて違う公差を定めないと。 現場のおっちゃん達、コワイので・・・。
575 名前:132人目の素数さん mailto:sage [2009/03/25(水) 01:53:51 ] いや見当違いだろ 現場へ仕様指示して仕切りたいってだけだし 製品の用途によるだろ >今のところ、”この寸法からどれだけ以内にしろ”といった要求はありません。 今後そういう仕様を要求させていただくことになります、 ってのが常識的な考え方だと思うが
576 名前:132人目の素数さん [2009/03/25(水) 04:20:35 ] >>573 JIS規格にもなってないの? あれは全ての、といっていいぐらいの工業生産物について 規格化しているから、きっと探せばあるんじゃないかな? 5%というのも、ちゃんとJIS規格になってるんだから、 なにがしかあると思うよ?
577 名前:132人目の素数さん mailto:sage [2009/03/25(水) 04:21:40 ] >>570 規格の幅は、統計で決めるものではなく、どれくらいの精度を要求されるかで決めるもです。 極端な話、百個中1個しか製品として使用に耐えなければ残りの99個は捨てるしか無いでしょう。 初期のダイオードなんか、良品率が0.1%程度だったとか。規格の幅はお客様と相談して決めるべきです。 統計を使用するのはその後です。 実際にサンプルを作製するなり、今までのデータを参考にするなりして寸法のばらつきを推定すれば 製品の何%が良品になるか(規格内に入るか)予測出来るでしょう。
578 名前:132人目の素数さん mailto:sage [2009/03/25(水) 08:01:50 ] 蛇足だけど>>570 の方法自体はオーソドックスな手法 問題なのは目的と手段が逆転してること 製品の仕様は物理的経済的要因によって決めるもので 統計はその決定の際に必要な情報を補強する役割 実際的には分野ごとに精度の目安が決まっているから 先輩なりベテラン工員なりに聞くのが一番正確 もちろんJISとかノウハウ本とか読んで勉強することは必須
579 名前:132人目の素数さん mailto:sage [2009/03/25(水) 13:31:45 ] しばらく過疎だと思ったら凄い伸びだ…
580 名前:132人目の素数さん mailto:sage [2009/03/25(水) 23:07:26 ] >575-578 まとめてレスすることをお許し下さい。 まずはたくさんのご意見、ありがとうございます。こんなに反応があるとは正直、思ってもおらず、 何だか先輩が一度にたくさん増えたような心強さを感じました。 本当にありがとうございます。 質問差し上げた手前、背景をもう少しだけでもお伝え致します。 本来、推定や検定に使用されるt分布を規格幅の決定に使うことは可能なのかということが、今回の ご質問の趣旨でした。 570で申し上げました寸法はこれまで試作品であったものの寸法でして、特別な規格を設けたことがなかった のですが、今回、製品が流れ出すようになってから、ユーザーに規格についての話しを詰めようとした際、 ”現状でよい”とのコメントしか頂けなかったようなのです。 (どうやら、ユーザー側からは、現状品でうまく行ってるんだから、これと同じものを出してくれれば良いのだ ということになったようです。) しかし、現状で良いと言われても”では現状とはどういう状態だ?”となりまして、570(と573)でのご質問 となりました。 なら、いっそ規格なしでも良いのではと思ったのですが、そうなると”何をしても良い”ということになるらしく、 それはダメだ。少なくとも、今まで作ってきたものと同程度のものを作りなさいということで規格を設けたかったのです。 で、これまでの生産実績から規格幅を決めよう→570、573の趣旨のような発想に至ったということです。 今回、皆様のご意見を伺いまして、改めて、要求あっての規格、そして規格あがあればこその統計だと 再認識致しました。 もっと勉強してまいります。 若輩者の愚問にお付き合い頂きまして、本当にありがとうございました。 (また質問ができましたら覗きに参ります!)
581 名前:132人目の素数さん [2009/03/29(日) 03:08:27 ] どっちが正しいの? 線形回帰式を構築するときに目的変数の正規性は必要?? otndnld.oracle.co.jp/document/products/oracle11g/111/doc_dvd/datamine.111/E05704-02/algo_glm.htm#CHDJFJEH 線形モデルでは、ターゲット(従属変数y)が予測応答値に関係なく一定分散を持つ予測子の値を条件として正規分布するという、一連の制限が仮定される点が最も重要です。 www.snap-tck.com/room04/c01/stat/stat0501.html しかし直線回帰式を求めること自体に正規性は必要ではなく、回帰係数の検定を行う時だけしか必要ではありません。 しかもその正規性も目的変数の回帰誤差だけに必要であり、目的変数そのものではありませんし、説明変数には全く必要ではありません。
582 名前:132人目の素数さん mailto:sage [2009/03/29(日) 08:05:25 ] どっちも厳密ではない そもそも回帰分析と正規性に必然的な関連は全くない ある論点において正規性を仮定すると理解がしやすいと言うだけ
583 名前:132人目の素数さん [2009/03/29(日) 09:15:44 ] >>581 後ろの方が正しいでしょう。たぶん・・・ >>582 誤差(残差)項に正規性がない回帰モデルを信用しろと?
584 名前:132人目の素数さん mailto:sage [2009/03/29(日) 10:10:35 ] >>583 回帰の目的によるでしょ
585 名前:132人目の素数さん mailto:sage [2009/03/29(日) 10:44:29 ] >>584 どういったときに残差の正規性なしの回帰式が有効なのかご教示ください。
586 名前:132人目の素数さん mailto:sage [2009/03/29(日) 11:01:50 ] 0.00から4.00まで0.01刻みで401種類の数値を取る可能性があるXというものについて、 度数が780、 それぞれの数値を取る確率が正規分布に従うとする。 有意水準を5%とすると、X>=2.53となる確率は何%か教えてください。
587 名前:132人目の素数さん mailto:sage [2009/03/29(日) 16:03:52 ] >>585 回帰係数の推定や検定を行うとき。 最小自乗推定量自体は正規性を仮定せずとも求められる。 これもたいてい教科書には載っている基本事項だが。 ちなみに正規性を仮定したときは、最尤推定量と最小自乗推定量は一致する。
588 名前:132人目の素数さん mailto:sage [2009/03/29(日) 16:05:32 ] >>585 物理的要請から残差に正規性が無いことがわかっている場合
589 名前:132人目の素数さん mailto:sage [2009/03/29(日) 16:12:58 ] >>587 は>>581 の間違い。
590 名前:132人目の素数さん mailto:sage [2009/03/29(日) 16:33:19 ] >>581 >>585 >>587 は差し替えて。 >>581 の文は特に矛盾があるわけではなく、まあ正しい。 後者のがより正確な表現で、回帰係数の推定、検定を行う場合は、誤差項の正規性仮定は必要、ただし回帰係数の推定を最小自乗法で行うだけなら正規性仮定は不要。 目的変数に正規性は不要だが、単純回帰モデルだと通常誤差項の分散と目的変数の分散は一致する。 正規性仮定すると色々と都合が良い。 >>587 で言った最尤推定量とかね。 本当は正規性仮定に等分散仮定とかも絡んで、推定量の満たす性質が変わってくるんだよ。
591 名前:132人目の素数さん mailto:sage [2009/03/29(日) 16:53:33 ] 補足。 >>581 の上文はおかしくはないが、正確に言えば誤差項に正規性仮定する結果として目的変数に正規性仮定が置かれると考えた方が分かりやすいかな。 通常、回帰モデルの場合、説明変数は確率変数としてではなく実現値として扱うからなんだけど…。
592 名前:132人目の素数さん mailto:sage [2009/03/29(日) 21:24:28 ] >>590 ご丁寧なご解説、痛み入りますm(_ _)m >目的変数に正規性は不要だが、単純回帰モデルだと通常誤差項の分散と目的変数の分散は一致する。 とのことですが、重回帰モデルを構築する場合でも、正規性を気にする方がよいのでしょうか?
593 名前:132人目の素数さん mailto:sage [2009/03/29(日) 21:37:04 ] >>592 基本的に重回帰は単回帰の一般型だから正規性仮定は重要。 もちろん目的によるけどね。 重回帰の場合、行列の形で表現すると>>581 の上文もシンプルに捉えやすくなると思うよ。
594 名前:132人目の素数さん mailto:sage [2009/03/29(日) 22:41:59 ] >>581 の下文からは、誤差項が正規になるなら、目的変数が非正規でも構わない、 と読み取れると思いますが、その解釈で間違いないでしょうか。
595 名前:132人目の素数さん mailto:sage [2009/03/29(日) 23:32:09 ] >>594 間違いないです。 例えば、説明変数 X_i が 0 又は 1 の値をとり、 モデルが Y_i = aX_i + ε_i、誤差項ε_i 〜 N(0,1) ならば、 (Y_i はともかく)Y は正規分布ではなく混合正規分布に従います。 そして、回帰分析は全く問題なく適用できます。
596 名前:132人目の素数さん mailto:sage [2009/03/29(日) 23:40:35 ] >>595 一連のご説明でかなりすっきりしました。 ありがとうございました!
597 名前:132人目の素数さん [2009/04/02(木) 21:58:02 ] GLMについて教えてください。 T.GLMを利用する場合、下記の流れに従ってモデル化するという理解で正しいですか? (1)平均はどんな関数に従うかな?(リンク関数は?) (2)その平均はどんな分布に従うかな?(確率分布は?) U.リンク関数って何個ぐらいあるのですか? 私はlog・logit・identifyしか知りません。 マニアックなのも含めて全て教えてください。 以上2点です。お願いします。
598 名前:132人目の素数さん [2009/04/02(木) 22:00:49 ] 597です。もう一個追加させてください。 V.deviance、AICについて モデル選択には、devianceやAICを利用するが、 目的変数が、離散変数と連続変数間の比較はできない? という理解で正しいでしょうか?
599 名前:132人目の素数さん [2009/04/03(金) 04:08:28 ] ξ 彡⌒ミ ( ̄З ̄)y-~~~ いいよ
600 名前:132人目の素数さん mailto:sage [2009/04/03(金) 20:47:49 ] すみません主成分分析と因子分析、コレスポンデンス分析の違いが良くわからないので、具体的に教えていただけないでしょうか よろしくお願いします また、わかりやすいサイトのリンクとかも教えていただければたすかります
601 名前:132人目の素数さん [2009/04/03(金) 23:36:53 ] >>597 リンク関数は、非線型モデルを線型モデルに変換するための関数なので、 理論的にはいくらでも考えられるんじゃないかな。 その他だと例えばinverseとかもあるよね。
602 名前:132人目の素数さん [2009/04/04(土) 00:43:21 ] >>600 そんなに詳しいわけじゃないからあくまでイメージで、厳密に言うと 微妙かもしれないが、 因子分析と主成分分析はどちらも説明変数の相関関係を集約する多変量解析 の手法だという点では共通している。 ただ違いとしては、因子分析は、複数の説明変数間に少数の共通因子が 存在すると仮定して、各観測データをその共通因子で説明しようとするもの。 主成分分析は、相関関係にあると思われる複数の説明変数を少数の変数に 合成して各観測データを説明しようとするもの。 コレスポンデンス分析は、説明変数を共通因子の仮定とか合成変数とかで集約するのではなく、 説明変数間の位置関係を知るために、グラフ上に説明変数のベクトルを 表してビジュアル的に捉える手法と思ってる。 例えば学力格差の要因は多数考えられて、説明変数は、所得水準、 ゆとり教育、家庭の経済力、地域、エンゲル係数、生活リズム、 学習方法、処世観etc これらの要因には通常、相関関係が考えられる。その相関関係を 少数の共通因子を仮定してそれに集約するのが因子分析、 これらの要因たる説明変数を少数の変数に合成するのが主成分分析で、 イメージ的は合成積かな。 他方、集約するのではなく、これらの相関関係をビジュアル的にグラフに 表現するのがコレスポンデンス分析で、要因たる説明変数ベクトル間の相関係数 (ないし回帰係数)の値が高ければ近い位置関係にある。
603 名前:132人目の素数さん mailto:sage [2009/04/04(土) 08:38:51 ] 「商品企画のための統計分析」という本で、商品の評価方法として ・評価項目間の偏相関を取り、 ・散布図を横軸:偏相関値、縦軸:評価の平均値、で作成 として、目的変数との相関が高いのに平均評価が低い=要補強点、のように 図示する話があります。 で、解説の中で、偏相関値の有意水準を求める方法として 有意点.05 <- 1.960 / sqrt(自由度 + 1), 1.960は自由度∞、有意水準5%時のt値 有意点.01 <- 2.576 / sqrt(自由度 + 3), 2.576は自由度∞、有意水準1%時のt値 で散布図に縦軸を入れることで、有意性を図上で見えるようにしているのですが、 この式は説明なく突然出現しており、どこからでてきたのかよくわかりません。 自分で調べたところ、ピアソンの相関値の有意性検定の式、 t0 = (abs(r) * sqrt(N - 2)) / sqrt(1 - r^2), N-2:自由度?, r:相関 が元で、必要なt値に対応する相関値を出しているような感じがするのですが、 これを変形しても => abs(r) / sqrt(1 - r^2) = t0 / sqrt(N - 2) ←なんか似てるが・・・ => r^2 / (1 - r^2) = t0^2 / (N-2) => r^2 = (1 - r^2) * X, X: t0^2/(N-2) => r^2 + X * r^2 = X, X: t0^2/(N-2) => r = sqrt(X / (1+X)), X: t0^2/(N-2) で、計算結果はまるで違った数値が出てきてしまいます。 冒頭の有意水準の求め方はどういう考えの元の式なのでしょうか?
604 名前:132人目の素数さん mailto:sage [2009/04/04(土) 23:27:25 ] 602さん具体例まであげてくださってありがとうございました 大体のイメージがつかめました
605 名前:603 mailto:age [2009/04/05(日) 09:50:49 ] すみません、sageで質問してしまってたのでageさせて下さい mOm
606 名前:132人目の素数さん [2009/04/05(日) 17:39:08 ] >>603 大体それで合ってると思う。 偏相関係数 r の有意性検定統計量 t (正規分布誤差の場合) t = { r / √(1- r^2) } √df ( df = n - q - 2 ) aoki2.si.gunma-u.ac.jp/lecture/Corr/p-corr.html つまり (t/√df)^2 = r^2 / (1 - r^2) (t/√df)^2 - {(t/√df)^2} r^ 2 = r^2 よって、正確な式: r^2 = (t/√df)^2 / { 1 + (t/√df)^2 } 自由度大&t小の時の近似式:(右辺の幾何級数展開の第一項) | r | ≒ | t | / √df また r と t は同符号なので r ≒ t / √df その本の「sqrt(自由度 + 1 or 3), 」という細かい補正項 1 or 3 は 気にしなくて良いと思う。近似式を微妙に補正する必要があるのなら、 そもそも正確な式を使えば良いので、、、
607 名前:132人目の素数さん [2009/04/06(月) 14:16:22 ] すみません。サンプル数が少なくなるにつれて、分散が小さくなるような、具体的なデータってどういった物があるでしょうか。
608 名前:132人目の素数さん mailto:sage [2009/04/06(月) 17:21:26 ] 1 10 100 1000 10000 10000... などの純増する数列はどう? 「1 10 100 1000 10000」より「1 10 100 1000」、それより「1 10 100 」のほうがサンプル数も分散も小さいよ。 (逆向きに取っていくとダメだけど)
609 名前:132人目の素数さん [2009/04/06(月) 18:16:04 ] それって >607 が言うところの「具体的なデータ」でなく より「非」具体的なデータになっちゃってるんじゃ・・・
610 名前:132人目の素数さん [2009/04/06(月) 18:19:28 ] >>608 ありがとうございます。しかし、現実世界に存在するデータとして、 どういったものがあるでしょうか。他にも募集してます。
611 名前:132人目の素数さん mailto:sage [2009/04/06(月) 22:17:35 ] サンプルの減り方に適当な仮定をおけば たいがいの分布で分散は小さくなる 逆にサンプルが増えると分散が大きくなる 分布というのもいくつか存在する あとは授業の進度に合わせて自分で考えて
612 名前:132人目の素数さん mailto:sage [2009/04/07(火) 00:05:31 ] >>607 >>608 をヒントにすれば色々考えられそうだ。例えば細胞分裂、癌細胞なんかは凄い勢いで増殖するそうだが、サンプル数を少なく取れば分散も小さくなりそうじゃない?
613 名前:603 mailto:age [2009/04/07(火) 00:24:14 ] >>606 ありがとうございます。なるほど、1 / (1 + X) を展開してたんですね。 実は最初厳密な方と結果を比較してrの有意点境界が0.1単位で違っていたので 悩んでいたのですが、実は計算間違いも同時にしていて、第一項だけでも 確かにrが0近傍ならまるで問題なしだったのも確認できました。ありがとうございました。
614 名前:606 [2009/04/07(火) 15:41:55 ] >>613 スマソ、その本の t 値が、さらに標準正規近似なのを忘れてた(汗。 また数値計算してみると、t/√df より z/√(df+1 or 3) の方が良い近似になってる。 つーことは、いきなり一次近似せずに、偏相関係数 r の t 表現を さらに Fisher z変換: 0.5 ln{ (1+r)/(1-r) } 〜 正規分布 して、それを一次近似&自由度補正してるのかも。。。 いずれにせよ、今は簡単に任意の自由度とP値に対する t 臨界値が 即時計算できるので、昔の正規近似式を使う意味はないけどね。
615 名前:132人目の素数さん mailto:sage [2009/04/07(火) 21:09:51 ] すみません統計学の超初心者です 仕事であるデータを見ていたのですが、どのような解析手法を用いて どのように処理をすれば良いのかがわかりません (単純化するために数値は丸めています) ある30000人の顧客データからA群(7000人)とB群(3000人)を取り出しました。 そしてその2群間同士の重なりを見ると2000人重なってました。この重なりが 偶然のものか、そうでないかという事はどういう統計手法を用いればいいのでしょうか? エクセルとJMPが使えます。申し訳ありませんが、お力を貸していただけると助かります。
616 名前:132人目の素数さん mailto:sage [2009/04/07(火) 21:40:00 ] 30000人から7000人抜き出す組み合わせと3000人抜き出す組み合わせの 全ての組み合わせのうち、2000人以上が重なっている確率を計算して 自分が偶然と思う確率より小さければ偶然と言える 大雑把な計算でよければ、B群に属する人は全体の一割なので A群7000人のうち各人が1割の確率でB群に属しているとして 2項分布で近似して検定すれば、偶然ではなさそうだと言える
617 名前:132人目の素数さん [2009/04/08(水) 00:07:09 ] それにしても統計って難しいな。 一体どれだけの人間がホントに統計のことを理解してるんだ
618 名前:603 mailto:age [2009/04/08(水) 09:08:54 ] >>614 うーむ奥が深い・・・ そのあたりを説明しだすと話が長くなってしまうので本のほうでは 黙って「おまじない」風に使っているんでしょうね。厳密解の場合は Rの関数を余分に覚える必要があるので、黙って近似結果を採用したと。
619 名前:132人目の素数さん mailto:sage [2009/04/08(水) 09:17:54 ] >>615 Aにあてはまる Aにあてはまらない 合計 Bにあてはまる 2000 1000 3000 Bにあてはまらない 5000 22000 27000 合計 7000 23000 30000 という分割表をどう評価するかという話にならないかな 各セルの数値が大きすぎて、検定の意味がないか。
620 名前:132人目の素数さん [2009/04/08(水) 10:45:55 ] >>615 何故その10000人のデーターを抽出することにしたのか、 というところで既に答えは出ているような気がするのですが、どうなんでしょうかね。
621 名前:132人目の素数さん mailto:sage [2009/04/08(水) 15:20:42 ] 2つ質問があります。 1つ目。 A氏vsB氏の対戦データ、A氏vsC氏の対戦データがあるとします。 相性などの影響がないものとして、B氏vsC氏の勝敗の期待値を求めるにはどうすればいいでしょうか? 2つ目。 条件Aに一致した試合の対戦データ、条件Bに一致した試合の対戦データがあるとします。 条件Aと条件Bの勝敗への影響力が同じであるとして、条件Aにも条件Bにも一致した試合の勝敗の期待値を求めるにはどうすればいいでしょうか?
622 名前:132人目の素数さん mailto:sage [2009/04/08(水) 18:28:13 ] >>621 どっちもモデルによるとしか答えられない。 (設定次第で期待値をかなり自由に上下させられる)。 勝敗に影響するパラメータは何なのかとかをきちんとモデル化しないと 数学的な議論はできないよ。
623 名前:132人目の素数さん mailto:sage [2009/04/08(水) 19:11:33 ] >>622 言われてみればたしかに・・・。 thxでした。
624 名前:132人目の素数さん mailto:sage [2009/04/08(水) 20:46:36 ] >>616 ありがとうございます すみませんがその2項分布で近似して検定すればと言うことが良くわかりません「 エクセルかJMPでできますでしょうか? >>619 ありがとうございます そのテーブルからどういう検定をしたら良いか教えていただけませんでしょうか?
625 名前:132人目の素数さん [2009/04/08(水) 23:37:39 ] >>624 619じゃないけど、分割表でググる。 自由度1のカイ自乗検定ね
626 名前:132人目の素数さん mailto:sage [2009/04/09(木) 22:57:13 ] >>625 ありがとうございます 自分で調べてみます!
627 名前:132人目の素数さん mailto:sage [2009/04/10(金) 21:50:32 ] 626です 調べてみました JMPでやってみましたが、尤度比のp値が0.05以下で有意。 つまりお互いに関連がないと言うことですよね? 今回は2*2でしたが、3*3とか4*2とかで同様の検定を行い 有意とでは場合はどういう理解でしょうか? 比較している群の中でどれかはわからないけど最低一つは他と異なっているという ことが言えるのでしょうか?この理解であっていますでしょうか?
628 名前:132人目の素数さん mailto:sage [2009/04/12(日) 15:05:55 ] >>627 尤度比検定がどういうものか知っていますか?
629 名前:132人目の素数さん mailto:sage [2009/04/13(月) 17:49:02 ] センター試験の数Bの選択問題で役にたちますか?
630 名前:132人目の素数さん mailto:sage [2009/04/14(火) 04:10:04 ] 複数の被験者に対し,合図が出てからボタンを押すまでの反応時間を 計測しました.このとき,母集団の最大反応時間が n 秒以下となる ことを示したいのですが,どうすれば良いでしょうか? 反応時間の分布は正規分布ではなく,ヒストグラムを見た感じでは指 数分布に近い感じです.
631 名前:132人目の素数さん mailto:sage [2009/04/14(火) 08:49:48 ] >>630 もし本当に指数分布なら無限大まで行ってしまうのだが。 これは正規分布でも同じ。
632 名前:132人目の素数さん mailto:sage [2009/04/14(火) 09:05:18 ] やれることはきっと、反応時間の分布の形を推定して、 母集団全てが n 以下で反応する確率を計算して、 それが十分小さいと主張するくらいだな。
633 名前:132人目の素数さん mailto:sage [2009/04/14(火) 12:56:07 ] >>630 最大反応時間なんですか?なら「極値統計」で検索
634 名前:132人目の素数さん [2009/04/14(火) 13:17:57 ] 最大反応時間は実験計画値だろ。 「5秒以内に押さない被験者には、注意を喚起し、 10秒以内に押さなければ無効データとする」とか・・・
635 名前:630 mailto:sage [2009/04/14(火) 13:22:19 ] >>631 たとえば 99.9% の確率で,最大反応時間は n 秒以下になることを 示したいということです. >>632 ひょっとしてノンパラメトリックな手法がないかなと思ったんです が,やっぱり無理ですかね. 分布の推定方法は手持ちの教科書には出ていないのですが,お勧め の参考文献はありますか? ちなみに, 「標本の最大値に(平均の)標準誤差の数倍を足した値を示せば, まあこれ以上になることはなさそう,と思ってもらえるでしょ」と いう意見ももらったのですが,標本数が増えると最大値も大きくなる ので,それではイカンような気がしています.
636 名前:132人目の素数さん mailto:sage [2009/04/14(火) 13:47:40 ] >>630 被験者ごとの反応時間の分布を推定してみて、それをもとに最大反応時間が従う確率分布を計算してみては? その分布の定義域が一定値以下のとき確率が充分大きいなら命題はある程度示されたと言えるのでは?
637 名前:132人目の素数さん mailto:sage [2009/04/14(火) 20:04:32 ] >>630 ワイブル分布を調べると幸せになれるかもしれません。
638 名前:132人目の素数さん mailto:sage [2009/04/14(火) 23:54:52 ] 上手く説明できるか分かりませんが、質問です。 ある被検査対象Anに対して、検査機BとCがあります。 BとCそれぞれの測定誤差は標準偏差で(σ)bと(σ)cです。 例えば、A1=1cm、A2=2cm、・・・・A30=30cmの被検査対象があったとして 検査機BとCでそれぞれA1〜A30を1回ずつ計測します。 ある1個の対象物に対して横軸に検査機Bの結果、縦軸に検査機Cの結果をプロットしていった場合、 近似として線形関係が導けます。 そのときの相関係数を測定誤差(σ)b、(σ)cを用いて表わすことはできますか?
639 名前:132人目の素数さん mailto:sage [2009/04/15(水) 00:59:01 ] >>628 知りません 尤度比のp値が0.05以下で有意というのは間違いと言う意味でしょうか?
640 名前:132人目の素数さん mailto:sage [2009/04/15(水) 21:48:03 ] >>639 基本的な用語の意味が理解できていないように思われる。 分割表、独立性の(χ^2)検定で検索するとよい。 尤度比検定とごっちゃになってるような気がする。
641 名前:132人目の素数さん mailto:sage [2009/04/16(木) 02:14:48 ] 二項分布を正規分布とポアソン分布のどちらで 近似するのがいいか判別するにはどうするのが いいでしょうか? おおよその判断基準はわかるけど、微妙な場合 どうすればいいかと。
642 名前:630 mailto:sage [2009/04/16(木) 05:26:59 ] >>633 おー,「極値統計」,なんだかそれっぽいです. >>637 なるほど.調べてみると,人間の反応時間の分布をワイブル分布 としている論文がいくつかひっかかったので,ビンゴかも. 初期故障型,つまり形状パラメータが 1 未満のときの分布に近そ うです. ありがとうございました.
643 名前:132人目の素数さん mailto:sage [2009/04/16(木) 12:12:53 ] >>641 二項分布B(n,p)として, 正規近似の目安はn≧25 かつ np≧5 かつ nq≧5 ポアソン近似の目安はn≧25 かつ np≧5 かつ nq≧5 しかしたとえばn=50でもp=0.1だとどっちの目安もギリギリ。 そこでエクセルで調べてみる。 np=5, npq=4.5だから, k=5を中心にk=0〜10くらいに実質的に分布するはず。 B1二項分布 C1 ポアソン近似 D1 正規近似 と記入し、A2〜A12に0〜10を入れる。 B2 =BINOMDIST(A2,50,0.1,FALSE) C2 =POISSON(A2,5,FALSE) D2=NORMDIST(A2+0.5,5,SQRT(4.5),TRUE)-NORMDIST(A2-0.5,5,SQRT(4.5),TRUE) と記入し、オートフィル機能でB3〜B12,C3〜C12, D3〜D12を埋める。 数値のままでは見にくいので、表全体を選択してグラフウイザードで折れ線グラフにする。 k≦3 k≧7ではポアソン近似がすごくいい k=5以外は微妙だがポアソンのがマシ k=5だけ正規がすごくいい pがやや小さいのでポアソンが勝ったが、平均のあたりは正規が強いとわかる。 他にもいろいろ数値変えて実験してみるといい
644 名前:132人目の素数さん mailto:sage [2009/04/16(木) 13:01:32 ] >>641 つか、いまどき、二項分布みたいな計算の簡単な式を、 何のためにわざわざ他の分布で近似する?
645 名前:641 mailto:sage [2009/04/16(木) 14:16:58 ] >>643 すごくわかりやすかったです。あり〜 >>644 nとpをぐりぐり動かすからです… めんどくさいから…
646 名前:132人目の素数さん mailto:sage [2009/04/16(木) 14:42:59 ] >>638 BとCに影響を与える他の要因がないと仮定すれば、その偏相関係数は測定誤差の相関係数になるのでは。
647 名前:643 mailto:sage [2009/04/16(木) 20:46:42 ] >>645 つか、近似の目安片方書き間違ってた 両方同じになってる orz × ポアソン近似の目安はn≧25 かつ np≧5 かつ nq≧5 ○ ポアソン近似の目安はn≧100 かつ p≦0.05
648 名前:645 mailto:sage [2009/04/18(土) 11:40:48 ] >>647 ありがとうございます。
649 名前:132人目の素数さん [2009/04/19(日) 16:46:01 ] 質問です。以下問題 ある感染症の検診を受けたときに、陰性であることをY=0、陽性であることをy=1とします。 また実際に感染していることをx=1、していないことをX=0とします。 また、検査は @実際に感染しているときに陽性を示す、 A感染していないときに陰性を示す 確率を95%とする。 人口全体の0.1%が感染しているとき。次の問いに答えなさい。 同時密度関数を求めよ。 この場合の同時密度関数って数式で表せますか?教科書調べたら同時密度関数って全部数式になっているんですが・ どう頑張っても表しか作成することが出来ません。。 どなかたかお願いします。
650 名前:132人目の素数さん mailto:sage [2009/04/19(日) 17:53:38 ] >>649 離散的な値をとる確率変数については、確率分布は表で表すべきで、 無理に「密度」を考えようとするとδ関数が必要になってしまう。 同時分布についても同様。
651 名前:132人目の素数さん [2009/04/19(日) 19:50:49 ] >>649 引用が正しければ、その講義または本が間違ってる。 ×同時密度関数 ○同時確率関数
652 名前:132人目の素数さん mailto:sage [2009/04/22(水) 00:41:36 ] 是非、お教えを乞いたく・・・。 長いようなので2つに分けます。 色々調べてみましたが、どういう風に解釈すべきなのか未だに迷っております。 以下、簡単な例を使ってご質問申し上げます。 今、板を5mm角に打ち抜く機械で5mm角の小片を打ち抜いているとして、小片@が3枚できたところで、 より正方形に近い5mm角を打ち抜くために機械を調節し、続いて小片Aを3枚打ち抜いたと致します。 小片の4辺の寸法データが下表のようだったとして、小片@とアクション後の小片Aの間に寸法の 差があるのか、あるいは分散に差があるのかといった検定を行いたいと考えました。 (尚、下表の例は便せん的に作成したものですのでご了承下さい。) A辺 B辺 C辺 D辺 | 平均 分散 標準偏差 R(最大-最小) @-1 5.0 5.1 5.4 5.2 | 5.18 0.03 0.17 0.4 @-2 5.1 5.1 5.3 5.1 | 5.15 0.01 0.10 0.2 @-3 5.3 5.2 5.1 5.2 | 5.20 0.01 0.08 0.2 ------------------------------------------------------------------------------------- @平均値 5.13 5.31 5.27 5.17 | 5.18 0.02 0.10 0.27 @分散 0.02 0.00 0.02 0.00 | 0.00 0.00 0.00 0.01 @標準偏差 0.15 0.06 0.15 0.06 | 0.02 0.01 0.05 0.12 A-1 5.1 5.1 5.2 5.3 | 5.18 0.01 0.10 0.2 A-2 5.1 5.3 5.2 5.1 | 5.18 0.01 0.10 0.2 A-3 5.2 5.2 5.1 5.3 | 5.20 0.01 0.08 0.2 ----------------------------------------------------------------------------- A平均 5.13 5.20 5.17 5.23 | 5.18 0.01 0.09 0.20 A分散 0.00 0.01 0.00 0.01 | 0.00 0.00 0.00 0.00 A標準偏差 0.06 0.10 0.06 0.12 | 0.01 0.00 0.01 0.00 一旦、切ります。
653 名前:652 mailto:sage [2009/04/22(水) 00:44:38 ] 大変申し訳ございません。 今、自分のレスを見ましたが、表がとても読みにくいですね。 もう一度書き直してまいります。 恐れ入りますが、>>652 は無視くださいますようお願い致します。 すみませんでした。
654 名前:132人目の素数さん mailto:sage [2009/04/22(水) 14:02:50 ] 二項分布が正規分布に近似できるのって中心極限定理ですか?
655 名前:132人目の素数さん mailto:sage [2009/04/22(水) 21:58:42 ] >>654 「近似」の意味による。 二項分布のある種の極限が正規分布になるという事実は 「ド・モアブル-ラプラスの定理」と呼ばれるが、 具体的内容にはいくつかのバージョンが可能で、特に 「局所極限定理」と「積分型極限定理」がある。 中心極限定理の主張は一般に“分布の弱収束”を主張するもので、 それを特に二項分布の場合にあてはめたのは、 ド・モアブル-ラプラスの定理でいうと、積分型極限定理 (のさらに一番簡潔な主張)になる。 「局所極限定理」などはスターリングの公式を用いた 精密な評価によって証明されるもので、 二項分布についてのみ成り立つ(「中心極限定理」からは導かれない)。
656 名前:652 mailto:sage [2009/04/23(木) 01:28:30 ] 改めまして是非、お教えを乞いたく・・・。 長いようなので2つに分けます。 まずは下表をご覧下さい。 下表は機械で板を正方形に打ち抜いて、その各寸法を測定した結果を記録したものです。 A辺 B辺 C辺 D辺 | 寸法平均 分散 標準偏差 R(最大-最小) 調整前―1 5.0 5.1 5.4 5.2 | 5.18 0.03 0.17 0.4 調整前―2 5.1 5.1 5.3 5.1 | 5.15 0.01 0.10 0.2 調整前―3 5.3 5.2 5.1 5.2 | 5.20 0.01 0.08 0.2 ――――――――――――――――――――――――――――――――――――――――― 調整前平均 5.13 5.31 5.27 5.17 | 5.18 0.02 0.10 0.27 調整前分散 0.02 0.00 0.02 0.00 | 0.00 0.00 0.00 0.01 調整前標準偏差0.15 0.06 0.15 0.06 | 0.02 0.01 0.05 0.12 調整後―1 5.1 5.1 5.2 5.3 | 5.18 0.01 0.10 0.2 調整後―2 5.1 5.3 5.2 5.1 | 5.18 0.01 0.10 0.2 調整後―3 5.2 5.2 5.1 5.3 | 5.20 0.01 0.08 0.2 ――――――――――――――――――――――――――――――――――――――――― 調整後平均 5.13 5.20 5.17 5.23 | 5.18 0.01 0.09 0.20 調整後分散 0.00 0.01 0.00 0.01 | 0.00 0.00 0.00 0.00 調整前標準偏差0.06 0.10 0.06 0.12 | 0.01 0.00 0.01 0.00 一旦、切ります。
657 名前:652 mailto:sage [2009/04/23(木) 01:30:30 ] 続きです。 今、機器調整前に小片が3枚できたところで、より正方形に近い5mm角を打ち 抜くために機械を調節し、続いて機器調整後に小片を3枚打ち抜いたと致します。 この小片の機器調整前と調整後とで小片の寸法に差があるのか、あるいは分散に差があるのかといった検定を 行いたいと考えました。(尚、上表の例は便せん的に作成したものですのでご了承下さい。) 検定対象として、機器調整前-1から調整前-3の寸法平均のそのまた平均値、同様に寸法分散の平均値及び寸法Rの平均値を 小片調整後のそれらとt検定もしくはF検定で比べようとしたのですが、そこでふと気になったのは、 1.上表では分散の算術平均(0.02または0.01)を求めていますが、分散の平均はそのように求めても良いものなのか? (分散の平均値の求め方1(標準偏差もそうですが)に不安があるということです) 2.同様に、寸法分散の分散値も機械的には出せますが(上表では調整前後とも0.00)、この値にはどんな意味があるのか、 それともないのか? 3.今回の検定の目的は、機械の調整前後で寸法に有意な差が生じたのか、そのばらつきに変動があったのかを検定しようとしているのですが、 最初、私は行方向にデータの平均や分散、標準偏差を考え、機器調整前後のそれら値を検定で比較しようと思いましたが、 表を列方向(例えばA辺にのみ注目)に考えることはどうなんだろうとも考えました。 列方向に考えた場合、調整の前後でのA辺寸法平均やA辺分散の動きを検定することは意味のあることでしょうか? (つまり、上表の列方向での比較/検定に意味があるのかどうかということです。) 大変長いレス行を消費しまして、申し訳ございません。質問の趣旨をうまくお伝えできたか不安ではございますが、 つまりはアクションに効果はあったのか、あったとは言えないのかを検定するのに、上表のような例ではどのように 考えればよいのか、あるいは陥りやすい誤解は何なのかをご教授願いたく思っています。 何卒、宜しくお願い申し上げます! (尚、上表の例があまり良い例ではないようでしたら、適宜改変下さっても結構です。)
658 名前:132人目の素数さん mailto:sage [2009/04/23(木) 13:48:19 ] 質問は出来るだけ簡潔にまとめないとレス付きにくいよ。
659 名前:132人目の素数さん mailto:sage [2009/04/23(木) 16:10:19 ] >>655 質問者ではないが参考になった。 ド・モアブル-ラプラスの定理は中心極限定理とは異なると思っていたが、局所型と積分型というのがあるのか。 良ければ参考文献等を教えて欲しい。
660 名前:132人目の素数さん mailto:sage [2009/04/24(金) 00:46:24 ] >>659 日本語の本しか見ていないが、福島正俊「確率論」(裳華房) がいちばん記述が 明快で証明も厳密。局所極限定理(収束の一様性まで含む主張)と、それを用いた 積分型極限定理の証明が書かれている。 ただしあまりわかりやすくはなく、またうるさく言うと少し論理的に不完全な点がある。 次にいいのは池田・小倉・高橋・真鍋「確率論入門」(倍風館)で、福島とほぼ同様の 命題が書かれているが、(局所型から積分型を導くのに不可欠な)一様性については 主張のみで証明は略されている。また、やはりうるさくいうと論理的に不完全な点がある。 いずれも、積分型については一定区間での定積分の収束になっていて、 中心極限定理から導かれるのと同じ主張に退化しているが、実は局所極限定理からは もう少し強い積分型極限定理が導ける。 (近似のときに使う「半整数補正」とかはそのバージョンでないと正当化できないと思うのだが、 その形の主張が載っているのはFellerだけで、Fellerではその証明はあいまいで不明瞭。) コルモゴロフ・ジュベンコ・プロホロフ「コルモゴロフの確率論入門」(森北出版)や 鈴木武「確率入門」(倍風館)では、局所極限定理については最初の2冊とほぼ同じ 厳密な主張と証明がある(が、やや弱い主張になっている)。 ド・モアブル-ラプラスの定理の証明らしきものが書かれている他の大部分の本では、 局所極限定理(の弱い形、へたすると“一点極限定理”)を証明しただけで、積分型の 主張が証明できたふりをしている。(一点極限定理だけでも、二項分布の面積階段グラフ の形が正規分布の密度関数のグラフに似てくるということの証明にはなっているが。) 悪い方の本の例をあげると、小針あき宏「確率・統計入門」(岩波書店)などはその “一点極限定理”の主張すらいい加減。(たとえば「z=(k-np)/√(npq)を一定にして n→∞とすると」などと書いてあるが、kやnが整数ということを考えればそんな操作は不可能!)
661 名前:132人目の素数さん mailto:sage [2009/04/24(金) 13:18:09 ] >>660 サンクス.自分が読んだ本は全て局所極限定理の証明のようだった. その中でスターリングの公式を用いたりしている証明もあった. 初見の時、ε-N論法等を想起して違和感を覚えたが、そのまま流していた. 勉強になった.
662 名前:132人目の素数さん mailto:sage [2009/04/24(金) 13:53:25 ] テスト勉強で問題を解いてるんですが、 解答がないので正しく考えられているか見て欲しいです。 二つのグループの特徴と違いについて述べる問題で グループAの点数 75 65 44 22 100 グループBの点数 54 70 68 58 78 計算したらA平均が61.2 B平均が65.6 よってBの方が平均が高い。 ばらつき具合においてみると A分散=705.24 B分散=65.71 よって、Aの方がばらつきが大きいといえる。 標準偏差を求めるとA標準偏差26.55 B標準偏差8.1 これからわかるのは、例えばAで85点をとるのとBで85点を取るのだと Aの場合61.2±26.55の範囲内に入るから普通の成績であるといえる Bの場合65.6±2*8.1より外にあるので、良い成績である。 こんな感じでよろしいでしょうか!!! 如何せん独学なのでへんてこかもしれませんが、最低ライン突破出来る事を目指しております。 よろしくお願いします(^o^)♪
663 名前:132人目の素数さん [2009/04/24(金) 16:05:56 ] >>662 たぶん4月から始まった授業の「統計的記述」の部分だと思って答えるけど、 考え方は良く分かってるし、それでOK。 ただ分散の値が微妙に違うので、もう一度式を見て計算した方が良いと思う。 _5で割るタイプ_ _4で割るタイプ_ 平均 分散 標準偏差 分散 標準偏差 A 61.2 708.56 26.62 885.7 29.76 B 65.6 74.24 8.62 92.8 9.63 ※標準偏差は小数部3桁目を四捨五入 ※「5で割るタイプ」は、1グループの観測個数5で、各観測値の 平均からの偏差の自乗の合計値、を割った分散。 「4で割るタイプ」は、観測個数5から1引いた値を使って求めた 分散で、「不偏分散」と呼ばれることが多い。 気にせず、今習ってる方の式を使えば良い。
664 名前:132人目の素数さん mailto:sage [2009/04/25(土) 00:13:49 ] >>663 さん 丁寧なアドバイスありがとうです!! すごく参考になります。 不偏分散は確か、標本数が少なくてかつ母集団の分散が未知の時に使う奴だったと思いますが・・ なんにせよ、今回不安だった部分は解決して嬉しいです。 本当にありがとう!!! ノートきっちりまとめなおしておきました〜(^o^)♪
665 名前:132人目の素数さん [2009/04/25(土) 20:15:07 ] 質問です。大学の解析の課題で1問だけ分からなくて困っているのでお願いします。 問:次の表の国語、数学、英語の分散共分散行列を用いて、3科目の合計点の分散を計算しなさい。 国語 数学 英語 国語 90 30 40 数学 30 110 20 英語 40 20 80
666 名前:132人目の素数さん mailto:sage [2009/04/25(土) 20:47:37 ] 定義に従って素直に計算するだけ
667 名前:132人目の素数さん mailto:sage [2009/04/25(土) 20:56:53 ] >>666 どうやって計算するのか教えて頂けますか?
668 名前:132人目の素数さん mailto:sage [2009/04/25(土) 20:59:47 ] (a+b+c)^2=a^2+b^2+c^2+2ab+2bc+2ac
669 名前:132人目の素数さん mailto:sage [2009/04/25(土) 22:07:27 ] >>668 あ、なるほど!分かりました。 ありがとうございました。
670 名前:132人目の素数さん [2009/04/27(月) 23:06:24 ] 確率と統計の差がわからないのですが こういう統計ってホントなんでしょうか? love6.2ch.net/test/read.cgi/hiv/1217420133/471
671 名前:132人目の素数さん [2009/05/02(土) 00:42:35 ] あ
672 名前:132人目の素数さん [2009/05/02(土) 01:13:32 ] MCMCのギグスサンプラーとは、一言で言ってしまうと、 ■複数の確率変数のうち、ランダムに一つを除いて固定し、 その一つから乱数を取得⇒他の変数への影響を計算。 上記処理を繰り返すというものでしょうか?
673 名前:132人目の素数さん [2009/05/04(月) 11:51:21 ] おい、比例ハザードモデルって、大サンプル確保できる時にやる分析じゃないよな?
674 名前:132人目の素数さん [2009/05/04(月) 12:38:30 ] ランダム行列で出てくる 普遍極限を理解するには複素関数論が必要だと聞きましたが本当ですか
675 名前:132人目の素数さん mailto:sage [2009/05/04(月) 21:43:42 ] 負の二項分布が 確率の性質P(Ω)=1を満たすこと示したいのですが、どうしたらよいのでしょうか
676 名前:132人目の素数さん [2009/05/04(月) 22:09:19 ] 定常なK変量時系列データ{x_t}(t=1...T)が平均0、分散行列Vを持つとします。 そして、V^{-1}=M'Mとして新たにz_t=M x_t (t=1...T)を定義します。 このとき、同時点でE(z_t z_t')=I_K になることは当然ですが、 異時点間でE(z_t z_s')(t≠s)も対角になる場合はあるでしょうか?
677 名前:132人目の素数さん mailto:sage [2009/05/04(月) 22:35:13 ] >>675 (p+q)^(x-1)=Σ(x-1)C(k-1)p^k*q^(x-k) ,p+q=1
678 名前:132人目の素数さん [2009/05/05(火) 01:36:27 ] ロト6を計50回行った、 1〜43それぞれの数字の出る平均は 300÷43でいいんですかね? また、この場合の自由度は 42であってますか? 最後に自由度42、優位水準5%の カイ2乗値の下限と上限ってどうやって求めるんですか? 本当にすみません
679 名前:132人目の素数さん [2009/05/05(火) 09:31:30 ] ロト6ってどんなクジ?
680 名前:132人目の素数さん mailto:sage [2009/05/05(火) 10:26:21 ] 初心者です。ご教授お願い致します。 ある発展途上国に住んでいる中学生の平均身長と世帯収入の 関係を研究したいとします。 サンプルの偏りを小さくするために、二段階層別サンプリングをしました。 学年ごとに3つのグループにわけ、さらにそれを男女の 二つのグループに分けたため、計6つの層ができ、 そこからそれぞれ同じ数のサンプルを採取しました。 それをもとに相関分析をし、各世帯の収入と中学生の身長に 正の相関がでたら、そこから母集団もきっと収入と身長に 正の相関があるだろう、と結論付けていいのでしょうか。 それとも母集団の二つの 変数の相関関係を求めるために、そこから他にやらなくてはならない分析がありますか?
681 名前:132人目の素数さん [2009/05/05(火) 13:09:09 ] >>679 1〜43の数字を6つ予想するくじ
682 名前:132人目の素数さん [2009/05/05(火) 13:42:07 ] コーシー分布のパラメータってどうやって推定するんですか? 平均と分散?はたまた中央値と????
683 名前:132人目の素数さん mailto:sage [2009/05/05(火) 13:43:16 ] 連休課題で質問ラッシュやなー。
684 名前:132人目の素数さん mailto:sage [2009/05/05(火) 13:46:42 ] >>680 分析方法によるが、有意であればそう結論付けていいと思うよ。
685 名前:132人目の素数さん mailto:sage [2009/05/05(火) 18:37:23 ] >>680 統計手法的には問題ないと思うが、実験計画として その層別の仕方が妥当かどうかは若干疑問だ。 例えば層ごとに相関があったりなかったりした場合 どう説明するのかとか、収入で層別しない理由は 何故かとか考えておかないと後で困るよ。
686 名前:132人目の素数さん mailto:sage [2009/05/05(火) 22:12:23 ] 母集団枠のリストに定義されてない属性では層別化できない と小一時間・・・
687 名前:132人目の素数さん mailto:sage [2009/05/06(水) 00:02:21 ] 栄養と発育の相関か。 発展途上国だと、学校に通ってない子供も居るので、 それは統計にあがって来ない訳で。 正の相関がありそうなのは自明だし。 複数の国で、相関を比べて、 有意な差があったとき、その原因を追求すれば。 前述のように、サンプリングがそもそもうまくないとか、 最初の思惑と違ってそうで、悪いが。
688 名前:680 mailto:sage [2009/05/06(水) 12:46:56 ] 皆さんご回答頂きありがとうございます。 自分は今は深い理論的な理解は後回しにし、 統計ソフトの使い方の入門書を片手に見よう見まねで 出力結果の読み方を勉強している状況です。 実際に自分がこのデータを使って調べようとしていることは、「ある途上国の 子供の家庭環境が恵まれているかどうかと発育の関係」といったものです。 (修士論文の予行演習として練習用のデータを使用しています) したがって、年収以外にも家庭環境の良しあしを間接的に測る指標として、 ”二親がそろっているかどうか”、”補導歴があるかどうか”などのデータがあります。 また、ご指摘いただいたように、年収をもとに層別をし直すことにしました。 いくつかある属性のうち、家庭環境の良し悪しを示す指標としては年収が最も 重要だと考えたからです。一方でこのデータは1年生のデータが2,3年生に比べて 非常に多いという偏りがあるようなので、学年での層別も 二段階目として行いました。
689 名前:680 mailto:sage [2009/05/06(水) 13:00:53 ] また、相関係数の出力結果の読み方も良く分かりました。ありがとうございます。 しかし、実は相関分析以上に混乱しているのが、複数の説明変数を別々に使って 家庭環境の良し悪しを多面的に測り、子供の発育との関係を調べるにはどうするのか、 ということなのです。 例えば上記のように年収をもとに層別し、その層ごとに母集団の平均身長を求め、 そこに有意な差があったら家庭環境の質と発育の間には関係がある、 と結論付けるのが良いのでしょうか。(方法@) しかしこの方法だと、補導歴や家族形態など他の情報も使って発育と 家庭環境の関係を調べることができません。 補導歴や家族形態を用いて初めから層別サンプリングを何度もやり直すのは 手間がかかりすぎるように思えるからです。 するとやはり、層ごとの分析は忘れ、 抽出したサンプル全体を属性のクラス分けごとに分散分析やχ二乗検定などにかけ、 その結果が有意であれば母集団にも当てはまる、と結論付けるやり方がよいのでしょうか。 例えば、平均身長×年収、平均身長×補導歴、平均身長×親の数 というように3つのクロステーブルを作って分析すれば、(方法A) 3つの属性から包括的に家庭環境と子供の発育の関係を研究できると思うのですが・・ 方法@よりもAで行う方が、良いのですよね? ご教授いただけたら幸いです。
690 名前:132人目の素数さん mailto:sage [2009/05/06(水) 13:24:51 ] >>689 重回帰分析という方法もあるよね。 変数選択はAICとかかな…。
691 名前:132人目の素数さん mailto:sage [2009/05/06(水) 18:23:55 ] >>689 どうも話を読んでいるとデータはすでに持っているようですが。 データがすでにあるのにそこから更にサンプリングして標本数を減らすのはどうかと。 一般線型モデルを使用すれば良いのでは無いですか? 平均身長 ~ 平均収入 + 学年 + 二親かどうか + 補導歴があるかどうか とすればOKだと思います。
692 名前:132人目の素数さん mailto:sage [2009/05/06(水) 18:33:55 ] @はどうだろう。自分ならやらない。 Aもやらないな。(意味がよくわからない) 「身長」と「年収」、「二親」、「補導」とあったとすると、単純に考えれば共分散分析。 ただし、「二親」と「補導」とか、「年収」と「補導」、それに学年というか「年齢」と「補導」とが相関がありそうだから、気をつけねば、と思う。 あと、親の身長と年収とが相関があるような国なら、一筋縄じゃいかなさそうかな。 データの件数が大きそうだから、共分散構造分析も検討するな。 あと、相関係数の検定というのは、問題とする相関係数が0と言えるかどうかの検定だから、 データの数が増えると、0.1とか、そんな程度でも「有意」になる。 また、何度も検定をやると、一つや二つは「有意」のものが出てくる。 そういうものだけピックアップしても、レポートならとおるかもしれないけど、修論では叱られる。 ってなところにも注意。 ご自分で「初心者」と言っておられるんで、同じく初心者ながらあえて書いてみました。
693 名前:132人目の素数さん mailto:sage [2009/05/06(水) 20:13:06 ] >>689 元の問題は収入と身長の関係が知りたいだったはずだが 家庭環境を表す指標の定義に問題がすり替わってるぞ それを言い出したら発育の指標だって怪しいもんだ 統計手法に溺れる前に自分の示したいことを今一度整理すべし いたずらにパラメータを増やしても何も説明できなくなるだけ
694 名前:132人目の素数さん mailto:sage [2009/05/06(水) 22:01:56 ] >一方でこのデータは1年生のデータが2,3年生に比べて >非常に多いという偏りがあるようなので、 なぜそのようなことになったのか、吟味する必要があるのではないでしょうか? サンプリングがどのように行われたのか確認できないなら、 1年生のデータだけを解析した方がいいかもしれません。
695 名前:132人目の素数さん mailto:sage [2009/05/07(木) 15:45:03 ] 689じゃないけど、 >>692 の例え確率としては有意でも 相関係数がゼロに近い場合にはサンプル数が多いことが原因で、 必ずしも相関があるとは限らないという 話は前に自分も聞いたんだが、それではそうした場合、相関関係を 立証するためには相関係数を求める以外に 何をすればいいんですか? 例えばT検定ではサンプル数が多い場合でも、有意確率と信頼係数の 両方がそれを支持してたら、その結果は有意であると結論付けていい と聞いたんですが、 相関係数でも同じように相関係数の信頼区間を求めるべき?
696 名前:132人目の素数さん mailto:sage [2009/05/07(木) 21:28:19 ] >>695 後半部分はそれでいいと思うが、前半部分、>>692 はサンプル数を多くすることで母相関係数が0に限りなく近いときでも、有意判定が生じうると言ってるわけで、何か変じゃないか? 検定の精度を上げたいなら、多重比較法という方法もある。
697 名前:680 mailto:sage [2009/05/08(金) 04:18:02 ] 皆さんご回答ありがとうございます。 ご指摘して頂いたことを勉強してみたいともいます。 また戻ってきてしまうかもしれませんが その際にはどうぞよろしくお願いいたします
698 名前:132人目の素数さん mailto:sage [2009/05/08(金) 06:20:23 ] 今まさに俺が直面している疑問について議論されてるww 相関係数の信頼区間の推定って、俺が使ってるSPSSだと やってくれないらしいんだよね・・ 重要なことだと思うんだが何でなんだ?? >>696 がいう多重比較法というのについて調べてみるわ
699 名前:132人目の素数さん mailto:sage [2009/05/08(金) 22:26:44 ] 話がずれているような…。 >>695 のt検定でというのは回帰の話じゃないかな。 多重比較は関係ないように思う。
700 名前:132人目の素数さん mailto:sage [2009/05/09(土) 09:54:12 ] 検定からの脱却はいつになりますか?
701 名前:132人目の素数さん mailto:sage [2009/05/09(土) 12:07:26 ] 信頼区間って検定と対応するものだから全然脱却してないよねw
702 名前:132人目の素数さん mailto:sage [2009/05/09(土) 13:29:33 ] >>699 >>695 が何をやりたいのか前半部分からは判別しがたかったんだよね。 だから>>692 の「何度も検定を繰り返すと有意のものが1,2つ出てくる」って部分を受けて多重比較を提案してみた。
703 名前:132人目の素数さん mailto:sage [2009/05/09(土) 13:37:38 ] 身長、年収、二親、補導歴、学年とかの相関関係を調べるんなら、分散分析なり共分散分析なりが妥当かなと思うけど、相関係数の差を多重比較してもいいかなあと思った次第で。 検討違いだったらすまん。
704 名前:132人目の素数さん mailto:sage [2009/05/09(土) 16:22:36 ] 検定からの脱却って何の意味?
705 名前:132人目の素数さん mailto:sage [2009/05/11(月) 00:17:42 ] 検定からの脱却とはどんな意味ですか?
706 名前:132人目の素数さん mailto:sage [2009/05/11(月) 00:24:36 ] 検定からの脱却とはどんな意味ですか?
707 名前:132人目の素数さん mailto:sage [2009/05/11(月) 18:52:26 ] 検定からの脱却とはどんな意味ですか?
708 名前:132人目の素数さん mailto:sage [2009/05/11(月) 21:25:22 ] うぜえ
709 名前:132人目の素数さん mailto:sage [2009/05/11(月) 23:20:46 ] 検定至上主義から解脱するってことじゃね?
710 名前:132人目の素数さん mailto:sage [2009/05/12(火) 02:25:22 ] 提供 株式会社 キチガイ 有限会社 情弱 (社)日本無職自宅保安協会 映画「検定からの脱却」製作委員会
711 名前:132人目の素数さん mailto:sage [2009/05/13(水) 23:59:22 ] Xが二項分布B(n,p)、YがB(m,p)に従い、両者が独立のとき X+Yの分布はB(n+m,p)である。 って、何でですか??泣
712 名前:132人目の素数さん mailto:sage [2009/05/14(木) 01:28:19 ] >>711 いいか。 今、赤いさいころが2個あってそれを振ったとき1の目の出る数をX、 別に青いさいころが3個あってそれを振ったとき1の目の出る数をYとするぞ。 赤と青の全部で5個のさいころを同時に振ったとき1の目の出る数はどうなる? X+Yだろ。その分布は?
713 名前:132人目の素数さん mailto:sage [2009/05/14(木) 03:52:48 ] 検定からの脱却とはどんな意味ですか?
714 名前:132人目の素数さん mailto:sage [2009/05/14(木) 13:43:55 ] >>713 荒らすなよ。質問者が回答しない以上仕方ないだろ
715 名前:132人目の素数さん mailto:sage [2009/05/14(木) 17:30:28 ] 検定からの脱却とはどんな意味ですか?
716 名前:132人目の素数さん mailto:sage [2009/05/14(木) 17:31:25 ] 検定からの脱却とはどんな意味ですか?
717 名前:132人目の素数さん mailto:sage [2009/05/14(木) 17:51:57 ] 提供 株式会社 キチガイ 有限会社 情弱 (社)日本無職自宅保安協会 映画「検定からの脱却」製作委員会
718 名前:132人目の素数さん [2009/05/14(木) 21:44:48 ] 統計学はまったくの素人ですので、言葉の使い方に間違いがあるかもしれませんが以下をお願いします いわゆる正規分布には再生性がありますが、なぜ故に再生性というのでしょうか? 何を再生していると考えればいのでしょうか? また、この再生性の利用で何が便利になりますか? 以上の質問に、記号を使わず言葉でやさしく説明していただけるでしょうか?
719 名前:132人目の素数さん mailto:sage [2009/05/14(木) 21:59:17 ] 再び同じ性質が生じるからかな 性質 勉強していけばそのうち分かるはず どうでしょう
720 名前:132人目の素数さん mailto:sage [2009/05/15(金) 02:24:25 ] この間先生から、君は統計的手法にばかり気が向きすぎてて、 それにおぼれていると言われました。 例えば、その先生自身が書いた論文を参考に、自分も良く似たタイトルの 研究をしているのですが その先生の論文ではある変数が母集団を構成するグループごとにどう異なっているのか を調べるために、それぞれ 累積度数分布図を示してその差を視覚的に明確にした後、 2-sample KS検定を行っているのです。 しかし私が同様に累積度数分布図を描いてそれを 先生に見せた後、「自分もKS検定を行う べきですよね?」と尋ねたらその必要はないと言われました。 何故?って感じです 統計的手法にばかり気をとられ、おぼれているとはどういう意味なのでしょう?? 何故自分はKS検定をする必要がないのか・・ テキストを読んでもさっぱりなんですが 何かお心当たりがある方ご教授ください
721 名前:132人目の素数さん mailto:sage [2009/05/15(金) 15:08:47 ] 平均点72.8標準偏差15で 高い方から12までの成績を出したときの最低点の出し方教えて下さい
722 名前:132人目の素数さん mailto:sage [2009/05/15(金) 15:09:40 ] >>721 12パーセントだった
723 名前:132人目の素数さん [2009/05/15(金) 15:58:56 ] 以下の問題を大学で出題されてわからなかった。 誰か分かる人、お願いします。 バスは10分間隔でターミナルから発車しているが、 到着するときにはバスがそれぞれくっつきあい、数珠繋ぎになって 到着している状態になっている。 この理由を統計学的に答えよ。 なんの要素を使っていいかも全くわかんないーー
724 名前:132人目の素数さん mailto:sage [2009/05/15(金) 17:05:16 ] >>723 どういうモデルで考えるかだけど、 「バス」を題材にしたことを考えると、やはり途中のバス停で客を乗せることは 意識したモデルで考えた方がいいのでは。 各バス停での客の到着はポアソン到着を仮定すると 基本的には前のバスとの間隔が長い方が待っている客は多い可能性が高いわけで 例えば ・バス停での停車時間はバス停で待っている客の人数に比例する ・バスは前のバスを追い抜くことはない という条件で考えると、 一度客の多い所に当たってしまうと、前車との間隔は拡がるので、以降さらに客が多くなり 逆に客が少ないと、前車との間隔が縮まるので、以降さらに客が少なくなる というように、一度ついた格差は拡がる方向であって、 さらに,一度前車の直後にくっついてしまうと、以降は一切客を乗せることはないので そこからは(前車が満車にならない限り)客を乗せることはなく、 先頭車と合体したようにみなせるので、 路線が長いと、それらの固まりがさらに合体していく。 ってなことを論じるのかな。 「統計学的に」のニュアンスがよくわからないけど。
725 名前:725 mailto:sage [2009/05/15(金) 20:59:10 ] 7-2=5
726 名前:132人目の素数さん mailto:sage [2009/05/15(金) 21:40:58 ] 大学の宿題にせよ他のことにせよ、まず自分で調べたり、充分に考えたりしてから、それでもよく分からない場合に他人に聞いたがいいよ。 すぐ丸投げでは自分にとっても良くない。
727 名前:132人目の素数さん mailto:sage [2009/05/16(土) 01:11:23 ] >>726 十分に調べたり考えたりした上での質問だと受け取ろうよ。
728 名前:132人目の素数さん [2009/05/16(土) 01:27:50 ] >>727 手の付け所も分からないという人もいるわけだから そう言う考え必要だよね。 手がかりを与えて上げるとか、少なくとも何らかのとっかかりを 与えてやる方がいいと思う。 逆にある程度素地があれば、ここに質問しないだろうし。 統計人口を増やすことを考えましょう。
729 名前:132人目の素数さん mailto:sage [2009/05/16(土) 08:45:01 ] 検定からの脱却とはどんな意味ですか?
730 名前:132人目の素数さん mailto:sage [2009/05/16(土) 08:45:49 ] 検定からの脱却とはどんな意味ですか?
731 名前:132人目の素数さん mailto:sage [2009/05/16(土) 14:20:22 ] このきちがいはアク禁申請だな…
732 名前:723 [2009/05/16(土) 17:38:46 ] >>724 さんありがとうございます! 考える道筋が立ちました! 感謝です。 まるでどこから手をつけていいかもわからなかったので、助かりました。 ありがとうございます。
733 名前:132人目の素数さん [2009/05/16(土) 18:53:37 ] 質問です 統計的推定における 「efficient estimator」 って何ですか? efficientな推定量っていったい・・・
734 名前:132人目の素数さん mailto:sage [2009/05/16(土) 21:33:06 ] >>733 有効推定量のことだろ。 それが何かは自分で調べなさい。 まずどんな教科書にも載ってる。
735 名前:704 mailto:sage [2009/05/16(土) 21:34:35 ] すいません、 704や705,6あたりを書いたのは自分なんですが これは悪気があってやったことではありません。 パソコンの調子が悪く、704でこの質問を書き込んでも 掲示板上で反映されなかったので、 なんどか続けて同じことを書き込んでみたのですが、すべて 無反応で終わり、ネットの調子が悪いのかと思ってました。 しかし実際には私のこの複数の書き込みは正常に2ch上では 書き込まれていて、自分のネット環境に問題があったことが後で分かりました。 704からしばらくの間の検定の脱却に関する書き込みは、 私が荒らすことを目的に行ったものではないのでご了解ください。 ただ、729や730あたりは明らかに自分の書き込みではないので、 誰かが便乗してこの質問を繰り返しているみたいですね。
736 名前:132人目の素数さん [2009/05/16(土) 22:28:29 ] サンプルが大量に集まれば検定にはなんの力もなくなるね。 サンプルが少ない場合はAICなんかをもとに考えれば検定からの脱却も可能。。。なわけはない。
737 名前:132人目の素数さん [2009/05/16(土) 22:41:57 ] あとーんす
738 名前:132人目の素数さん [2009/05/17(日) 02:15:36 ] 統計ソフトRを用いて、CUTを使い例えば体重の最大値と最小値を求める場合、どうすれば…?
739 名前:132人目の素数さん mailto:sage [2009/05/17(日) 03:46:16 ] >>738 統計解析フリーソフト R 【第3章】 science6.2ch.net/test/read.cgi/math/1224142396/
740 名前:132人目の素数さん [2009/05/18(月) 13:14:41 ] 質問です。 多くの研究で2群または3群間の有意差を検定するわけですが,群間に有意差がないことを証明したい場合のサンプル数の決定はどうするのでしょうか?
741 名前:132人目の素数さん mailto:sage [2009/05/18(月) 13:26:11 ] 最近丸投げ的な質問が増えたな。 こうこうこういう風に考えたけど、間違ってはいないか、とかこのようには考えられないのか、とか状況が具体的に分かり、かつ試行錯誤の形跡が見えるような質問なら、一緒に考えようという気にもなるけど…。
742 名前:132人目の素数さん mailto:sage [2009/05/18(月) 21:10:30 ] >>740 検定が何か分かってるか? 有意差がないことなんて証明できるわけがないだろ。 (同等性検定というのがあるが、あれも棄却するように工夫するだけ。)
743 名前:132人目の素数さん [2009/05/19(火) 11:12:13 ] 質問です 受験者数320000人 平均点600点 標準偏差100点 成績は正規分布している 但しN(0.1)に従うZはP(Z>2)=0.0228であり(Z>Z*)=0.0228となるZ>=0.58である 上位9万人は何点取ればいいか答えよ 上位は0.28というのは分かったんですが0.58はどう使うんですか?
744 名前:132人目の素数さん mailto:sage [2009/05/19(火) 12:27:53 ] >>743 口調が同じことから最近の丸投げ質問は殆ど君だと思うけど、>>1 にもあるように、宿題はまずは自分で考えましょう。
745 名前:132人目の素数さん mailto:sage [2009/05/19(火) 20:52:00 ] PLEASE HELP ME ! 講義でダイヤモンド図の手書きが至上命題にされているのですが、 授業を聞いても一向に分からない。 そればかりか、図書館、書店を回って統計関連の本をさらってみても ダイヤモンド図に関する記述が一個もない。30冊はさらいましたが引っかかりすらしません。 もちネットにもそれに関する記述はありませんでした。 担当の教授に聞いても 「なんかの本に必ず書いてある。探しなさい」の一点張りでもうお手上げです。 ダイヤ図の使い方が書かれている書籍やページがあればどうか教えてください。
746 名前:132人目の素数さん mailto:sage [2009/05/19(火) 22:19:19 ] 突然説明も無しに「ダイヤモンド図」を書け、と言われたわけではなくて、周辺情報があるんだろう? こっちはその授業を受けていないんだから、説明してくれないと分からないよ。 ちなみに鉄道のダイヤグラムのことを「ダイヤ図」ということはあるが、それかどうかは分からん。
747 名前:132人目の素数さん mailto:sage [2009/05/19(火) 23:46:06 ] >>745 >ネットにもそれに関する記述はありませんでした 本当に探したのか? オレも初めて聞いた名前だが、ぐぐったら、 ttp://www.affinity-science.com/products/aabel/tips/01stats.html ぐらいなら見つかったぞ。 で、そこから例えば 「pooled error variance Diamond」 とかで検索したら ttp://www.partnershipforschools.org/GE_Differential_Analysis.pdf なんてのも見つかるし。 (ここに出てくる「mean diamonds」がその教官の言ってるものがどうかは知らんが。) とりあえず、検索能力低すぎ。
748 名前:132人目の素数さん [2009/05/20(水) 02:13:12 ] 漸近理論難しい・・・
749 名前:132人目の素数さん mailto:sage [2009/05/20(水) 08:36:29 ] >>747 誰が英語なんか読むんだよ 頭つかえ
750 名前:132人目の素数さん mailto:sage [2009/05/20(水) 16:35:00 ] いやあ、なんといっても質問自体が >PLEASE HELP ME ! から始まってますからねぇ。 これはもう英語上等ウエルカムかと。
751 名前:132人目の素数さん mailto:sage [2009/05/20(水) 22:34:35 ] >>749 この程度は読め。 頭使え。 で終わりだな
752 名前:132人目の素数さん mailto:sage [2009/05/21(木) 05:52:00 ] 英語なんか時間の無駄だろ
753 名前:132人目の素数さん [2009/05/21(木) 08:20:27 ] >>740 ん、これ意外と難しい? >>多くの研究で2群または3群間の有意差を検定するわけですが,群間に有意差がないことを証明したい場合のサンプル数の決定はどうするのでしょうか?
754 名前:有馬 ◆13wx.ARIMA mailto:有馬 [2009/05/21(木) 12:15:07 ] >>746 ダイヤ図という表現は初耳だぜ。 鉄板でも坂板でもバカニュでも見たことがない。
755 名前:132人目の素数さん [2009/05/21(木) 12:20:26 ] 経済学者と天気予報は信用するなって言うのは、時代を超えた真理だな。 統計学なんてよくよく吟味して、何が仮定に使われているかを考えないと 一般的にはとんでもない話にしかならない。
756 名前:132人目の素数さん mailto:sage [2009/05/21(木) 12:26:18 ] そういえば、マスコミの統計のデータの伝え方ってすごく曖昧だな。 何が何だかさっぱり分からない。
757 名前:132人目の素数さん mailto:sage [2009/05/21(木) 12:35:55 ] 統計データ、と言えばそっちに詳しくない人間にとっては信憑性が高く見えるからな 恣意的に自分に有利なデータ設定できるのに
758 名前:132人目の素数さん [2009/05/21(木) 12:36:45 ] ここ数年のアメリカ主導の「世界基準」とか言う嘘っぱちで今ひいひいしてるのに、 まだ、疑いもせず「資本主義」をいじくりまわして世界が皆で幸福になれるとか 思ってる脳みそがどうかしてる。 資本主義はベルリンの壁が崩壊した時点(共産主義が死んだ時点)でもう終わっているんだよ。 いいかげん目をさませ。 アングロサクソンの言うことなんか、全部「自分達の都合」に過ぎないんだよ。 あいつらが非難するテロリストやアラブ近辺のやつらと実質は何も変わりゃしないんだよ。
759 名前:132人目の素数さん mailto:sage [2009/05/21(木) 13:34:13 ] 微妙にスレ違いな話で無駄にあげるな。
760 名前:132人目の素数さん mailto:sage [2009/05/21(木) 13:39:54 ] ちょと言ってみたかっただけです。めんご。
761 名前:132人目の素数さん mailto:sage [2009/05/21(木) 19:56:23 ] こんにちは 統計学の初心者です 多重比較に関して教えていただけないでしょうか Kruskal-Wallisなどのノンパラメトリックでの多重比較をする際に、どの群とどの群が有意に差がある などをみることはできないのでしょうか?そもそも多重比較とはどこかの群とどこかの群で 有意な差があるがそれがどれかはわからないということになるのですか?
762 名前:132人目の素数さん mailto:sage [2009/05/21(木) 21:26:47 ] >>761 そもそもどの群とその群に違いがあるか知りたいから多重比較するんだけど… 青木先生のこのページが一つの答え。 aoki2.si.gunma-u.ac.jp/lecture/Average/kwtest.html 俺はSteel-Dwassの方法を使う方がいいと思うけど。
763 名前:132人目の素数さん [2009/05/21(木) 22:50:18 ] 既出とは思うが‥‥ 東大出版の「統計学入門」がイミフなおれになにかわかりやすい本をオヌヌメしてくらさい!
764 名前:132人目の素数さん mailto:sage [2009/05/21(木) 23:26:56 ] >>761 簡単に言えば、全体として群間に有意差がないか検定したいときに群間の組み合わせごとに個別に平均値の差の検定を繰り返す場合、何もしないと全体として見れば有意水準が大きくなってしまう。 例えば1回の検定で棄却する確率が5%だとすると10回検定繰り返せば、いずれかの試行回数のとき棄却されてしまう確率は50%になってしまう。 そうではなく全体としての有意水準を5%に抑えたいときは工夫が必要になる。 それが多重比較の考え方。 Tukeyとかボンフェローニとか方法はたくさんある。
765 名前:132人目の素数さん mailto:sage [2009/05/22(金) 00:05:43 ] >>763 つ 「マンガでわかる統計学」 というのは半分本気、半分冗談だが、 その「統計学入門」は教養学部統計学教室編の3巻本のやつだよね? あれは統計学入門のテキストにしては難しい部類だから(あくまで東大生にとってのの「入門」)、 他の入門的なテキストであればあれよりは易しいと思うよ。 できれば自分の専門と近い先生が書いたテキストがいいと思う。
766 名前:132人目の素数さん mailto:sage [2009/05/22(金) 00:07:20 ] >>754 ci.nii.ac.jp/naid/110002936537/
767 名前:132人目の素数さん [2009/05/22(金) 15:49:06 ] >>765 サンクス なんにでもすがりたい状況だから、それも見てみる、ありがとう!
768 名前:132人目の素数さん mailto:sage [2009/05/22(金) 18:28:43 ] 761です 762さん764さんどうもありがとうございました 参考にさせていただきました 統計学って本当にむずいです
769 名前:132人目の素数さん [2009/05/22(金) 22:13:23 ] 【新型インフル】 「日本、新型インフルでパニック…パラノイアな国だ」…NYタイムズ tsushima.2ch.net/test/read.cgi/newsplus/1242968684/ 【新型インフル】米紙、日本の騒ぎぶり報道「パラノイアな国」 ・22日付の米紙ニューヨーク・タイムズ(電子版)は、神戸発のルポで新型インフルエンザ拡大に よって一部、パニック状態になっている日本の対応を紹介。日本社会にもともと「衛生状態への 強迫観念」があるとした上で、特に感染症など海外からの病気には「パラノイア(偏執症)な国」 だと伝えた。 記事は首都・関東圏でも感染者が確認されたことから「新たな不安の高みに達した」と指摘。 神戸市内のスーパーには日用雑貨を買いためるために客が列をつくり、家から外出しない 親子もいると伝えた。 また、日本の医療専門家からは政府や自治体の行き過ぎた対応に批判も出ているとしている。 sankei.jp.msn.com/life/body/090522/bdy0905221327016-n1.htm ※関連スレ ・【新型インフル】 アメリカ人「あの対策…日本人は頭おかしいのか?」「みんな日本人に爆笑」「滑稽さ、世界中に配信か」…サーチナ★5 tsushima.2ch.net/test/read.cgi/newsplus/1242857950/ ・【話題】 「知っていますか?独島と東海は韓国の領土です。日本は認識を」…米NYタイムズに全面広告 mamono.2ch.net/test/read.cgi/newsplus/1215677727/ ・【マスコミ】 「日本、右傾化」「中国人らを憎悪」 オオニシ記者など、NYタイムズの日本叩きが顕著…産経が批判★2 news19.2ch.net/test/read.cgi/newsplus/1133184911/ ・【国際】 NYタイムズ 「麻生外相、誠実さも賢明さもうかがえぬ」「中国、日本に脅威与えた記録ない」★2 news19.2ch.net/test/read.cgi/newsplus/1139919895/