統計学なんでもスレッド　13

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 12/23 01:43 / Filesize : 243 KB / Number-of Response : 874
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

統計学なんでもスレッド　13

1 名前：１３２人目の素数さん [2011/02/11(金) 01:51:36 ]: 2010.9上旬のkamomeサーバ霧散スレッド全損事件から５ヶ月、
運営陣から復旧策の音沙汰皆無のため、後続スレを建てました。
引き続き、質問等どうぞ。

前スレ
統計学なんでもスレッド12
kamome.2ch.net/test/read.cgi/math/1283521346/
411 名前：１３２人目の素数さん mailto:sage [2011/09/09(金) 17:40:51.71 ]: 質問です。

『ある会社Aが「うちの授業受けた人の90%はTOEFLの点数が20点上がってるよ」って宣伝してました。それに対し、会社Bが「Aは誇張している!」と訴えました。
規制協会が調査に乗り出して、Aの授業を受けた人のうち100人の成績をGET。その内訳は
・50人は35点up
・35人は20点up
・15人は0点up(点数上昇無し)
でした。
この時、有意水準5%でAの主張またはBの主張を検定しなさい。』
という問題なのですが、90%という部分をどう扱えばよいのかわかりません。
その部分さえ無ければ普通の仮説検定でよいと思うのですが…。
412 名前：１３２人目の素数さん mailto:sage [2011/09/09(金) 18:59:54.31 ]: >>411
Aの宣伝が正しければ、ランダムに生徒を調べてみたら、100人のうち90人前後が成績upしているはず。
協会が調べてみたら、50人がupしていて、50人は変わらず、だったとしたら、
90%upした集団からのサンプルとは言い難いと考えるでしょうね。

では、85人がupだった場合はどうなのか。90人には足りないけれど、
この85人は、元々のA社の言う90%が正しいとして、「たまたま」5人少なかっただけ、と言えるかどうか。

「普通の仮説検定」の意味がよくわかりませんが、これもごく普通に行われる仮説検定。
413 名前：１３２人目の素数さん mailto:sage [2011/09/09(金) 19:27:30.88 ]: >>411
＞点数が20点上がってるよ

２０点「以上」では？
414 名前：１３２人目の素数さん mailto:sage [2011/09/10(土) 16:58:00.24 ]: >>411
>90%という部分をどう扱えばよいのかわかりません

期待値の算出に使う
415 名前：１３２人目の素数さん mailto:sage [2011/09/10(土) 23:17:01.06 ]: ランダムに選んだ１００人中に成績が上がらなかった人が
１５人以上になる確率を考えればいいんじゃね？
416 名前：１３２人目の素数さん [2011/09/12(月) 13:59:25.12 ]: 20%上がっているか、上がっていないかの２値判定なので、２項検定に持ち込む。

20%以上上がっている人が何点であるか、また20％以下の人が何点であるかは関係ない。
「３５点ｕｐ」とか「０点ｕｐ」とかの情報は使われない。引っかけ問題。
417 名前：１３２人目の素数さん mailto:sage [2011/09/12(月) 17:45:38.52 ]: >>416
>>413
418 名前：１３２人目の素数さん mailto:sage [2011/09/12(月) 18:15:42.92 ]: 20点以上上がったか、上がらなかったかという二つのカテゴリーに単純化して二項検定
でいいんじゃないの
419 名前：１３２人目の素数さん [2011/09/20(火) 13:57:36.70 ]: 「２つの確率変数XとYの相関係数は０だが、独立ではないような例を示せ」って
たとえば何があるんでしょう？

自分は苦し紛れに需要が完全に硬直的な状態のマネタリーベースと総需要の関係と答えたんですが・・
420 名前：【34.3m】 mailto:sage [2011/09/20(火) 14:35:13.45 ]: >>419
相関係数ってのは、二つの変数の間に直線の関係があるかを示している。
なので、右上がり、右下がりといった傾きの無い関係を考えればいい。

経済学部みたいだけど、そういう時の例は経済に限らなくてもいいのでは。

Y=sin(X)、Xの範囲は（－360°、＋360°）とか。こんなに範囲取らなくてもいいけどね。
Y=X^2、Xの範囲は（-1、1）とか。下がって上がるので相関ゼロ。
Y^2+X^2=r^2、XとYの相関はゼロだけど円という関係にある。
421 名前：１３２人目の素数さん mailto:sage [2011/09/20(火) 18:40:28.72 ]: >>419
独立性の問題だから理論的な確率分布の話。
例として簡単なのは以下のような離散型確率分布
　 x　y　　確率 p(x, y)
　 0　 1　　 1/4
　 1　 0　　 1/4
　 0　-1　　 1/4
　-1　 0　　 1/4
422 名前：１３２人目の素数さん mailto:sage [2011/09/21(水) 04:21:57.55 ]: z = 0　　　… 1/4
z = 1　　　… 1/4
z = 2　　　… 1/4
z = 3　　　… 1/4

x = sin(zπ/2)
y = cos(zπ/2)
423 名前：忍法帖【Lv=6,xxxP】 [2011/09/22(木) 00:04:05.90 ]: 控除率５０パーセントの宝くじって、一度に１０００万ぶん買うと平均して５００万もどってくるってこと？
424 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 00:23:03.27 ]: 控除率は、そういう使い方をするようだな
425 名前：１３２人目の素数さん [2011/09/22(木) 04:12:30.76 ]: 日本の宝くじは控除率５４％じゃなかったっけ？
世界で最も割の悪いギャンブル。
損することが決定しているギャンブル。
426 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 20:49:05.06 ]: >>425
そういう発想で言うなら、得するギャンブルはないと思うけど。
胴元が損するギャンブルつうか。
427 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 20:52:14.95 ]: ＞損することが決定しているギャンブル

もし俺がたった一枚買った宝くじが
末等以外のどれかにあたれば
払った金額よりも受け取る金額のほうが高いのだが
それは「損」にあたるのか？
428 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 20:56:51.50 ]: 個別の問題を取り上げても仕方ないだろヴぉけ
429 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 20:57:40.02 ]: 個別で考えずに、何が「損得」なんだ？
430 名前：１３２人目の素数さん [2011/09/22(木) 21:00:28.12 ]: 質問です。
統計学で出てくるt分布の数表って、誰がどうやってつくったんですか？
適当に乱数降ってシミュレーションしたんでしょうか。
あと、p値ってコンピュータで求める方法（アルゴリズム）あるの？
ってか教科書の数表には普通にでてくるんだけど、あれはどうやって算出してるんですか。

全然わからなくて困ってます。教えてください。
431 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 21:20:55.87 ]: どっかで見たような… マルチなのか？
432 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 21:31:30.19 ]: わからなくて困ってるなんて書く人が書く内容じゃないと思うが。
本当にわからないのなら、わからなくても困らない。
433 名前：１３２人目の素数さん mailto:sage [2011/09/22(木) 21:40:19.08 ]: なにこの流れ
434 名前：１３２人目の素数さん [2011/09/22(木) 21:46:13.40 ]: 分割表の独立性検定の証明がみたいのですが、
どこかにあるかわかりませんか？
435 名前：１３２人目の素数さん mailto:sage [2011/09/23(金) 01:45:28.99 ]: 分割表の独立性検定の証明ってなんのこと？
436 名前：１３２人目の素数さん [2011/09/23(金) 16:05:29.82 ]: I×J分割表における独立性の帰無仮説の元でピアソンのカイ二乗統計量が
自由度なんぼかのカイ二乗分布に法則収束する証明のことです。
437 名前：【18.5m】 mailto:sage [2011/09/23(金) 18:58:07.68 ]: >>425
宝くじってのは、行政（主に地方自治体）が政策をやる時にお金を
集める手段なので、控除率が高いのは当然。

当たったらラッキー。でも元々行政に資金を供給するために宝くじ
買ったんだから残りはちゃんと使ってね。くらいの気持ちで買うもの。
438 名前：１３２人目の素数さん mailto:sage [2011/09/23(金) 20:01:13.29 ]: >>436
www.stats.ox.ac.uk/~steffen/papers/cont.pdf
↑の分割表に関する講義録だと、多項分布の尤度比検定統計量の
漸近的近似として扱ってるね。まあそんな感じで既に証明されてる一般的性質を
使うのが普通。
439 名前：１３２人目の素数さん [2011/09/23(金) 20:48:39.32 ]: モデル言うの忘れてました。すみません。多項分布に関してです。
尤度比統計量は、まだ証明してません。積多項分布の一様性検定は証明できたのですが、
多項分布における独立性検定が難しいんですよね。最終的には、対称性検定を証明してから
漸近展開していきたいので、そのステップにと思ったのですが・・・。
440 名前：１３２人目の素数さん [2011/09/25(日) 00:47:45.95 ]: 臨床医やってるものですが、論文書くのに統計家に相談するにはどういう方法がありますか？
金積むってのはなしで。
441 名前：【13.1m】 mailto:sage [2011/09/25(日) 02:46:59.71 ]: >>440
自分が卒業した大学の統計講義の担当者に相談する。
自分の所属した研究室の関係者経由で探す。

ただし、相談される相手も、あなたの相手で時間を取られるわけだから、
手土産くらいはあった方がいいと思うよ。
442 名前：１３２人目の素数さん mailto:sage [2011/09/25(日) 13:43:34.94 ]: >>72
医学部医学科
443 名前：１３２人目の素数さん mailto:sage [2011/09/25(日) 13:56:11.31 ]: 薬学農学たくさんもいそう
444 名前：１３２人目の素数さん [2011/09/25(日) 22:54:12.45 ]: >440

統計数理研究所の統計相談に申し込む
445 名前：１３２人目の素数さん mailto:sage [2011/09/25(日) 23:03:23.22 ]: >>444
随分遠くになったよな
446 名前：１３２人目の素数さん [2011/09/26(月) 08:42:49.03 ]: 　
政府がインチキであれば貿易統計もウソ

2nd.geocities.jp/jmpx759/0203/35/235_1.html

最近の経済評論家がアホなわけ。

政府の発表する経済情報がウソであり、

（いや、昔からウソの連続なのだが、）

それが一般に感づかれてしまったため、

まともな話が出来なくなった。

これまでも評論家の話はインチキだったが、

表面上、辻褄合わせの話でごまかせていた。

（仮説を含む）
447 名前：１３２人目の素数さん [2011/09/26(月) 08:44:38.29 ]: 統計数理研究所て何やってるの？
448 名前：１３２人目の素数さん [2011/09/28(水) 15:34:34.01 ]: 「パラメータを推定する」とよくありますが、一体どういうことですか？
簡単言うと何をやってるんでしょうか？そして、なぜ推定できるんですか？
どれだけ説明を読んでも全く理解できません。どなたか教えてくださいませんか？
449 名前：１３２人目の素数さん mailto:sage [2011/09/28(水) 15:39:26.18 ]: まあLevenberg-Marquardtだな　よく使うのは
450 名前：１３２人目の素数さん mailto:sage [2011/09/28(水) 16:02:37.27 ]: >>448
>どれだけ説明を読んでも全く理解できません。どなたか教えてくださいませんか？
例えば、私がここで説明しても、>>448は「説明を読んでも全く理解できません。」と言うのだろうと推定される。
451 名前：１３２人目の素数さん [2011/09/28(水) 17:53:08.09 ]: 分からん
452 名前：【15.9m】 mailto:sage [2011/09/28(水) 20:15:13.32 ]: >>448
ちょっとだけ説明しよう。
以下のＸは標本平均、σは標本平均の標準偏差（ただし母分散はわかってる）
だとする。

μ-ｍσ＜Ｘ＜μ+ｍσ
から
Ｘ-ｍσ＜μ＜Ｘ+ｍσ
へ、発想を転換する。

後は考えろ。
453 名前：１３２人目の素数さん mailto:sage [2011/09/28(水) 20:17:42.34 ]: >>448
んと、例えばテレビの視聴率を知りたいとして、
関東圏 2011/09/28 午後8時の日テレ視聴率を p （0≦p≦1）とする。
この p が知りたい「パラメータ（母数）」。

視聴率調査では、関東の全世帯から６００世帯を無作為に抽出して、
調査機をテレビに設置する。
2011/09/28 午後7時に送られて来たデータの60件が日テレを視聴してれば、
60 / 600 = 10% が知りたいパラメータ p の「推定値」になる。

世帯を無作為に選んでいるので、確率法則によって、この推定値の
誤差を見積もることも可能。（一般に抽出世帯数が多いほど誤差は小さくなる）
454 名前：453 訂正 mailto:sage [2011/09/28(水) 20:20:41.89 ]: ×2011/09/28 午後7時　○2011/09/28 午後8時
455 名前：１３２人目の素数さん mailto:sage [2011/09/28(水) 21:16:38.36 ]: >>449-454
みなさん本当にありがとう
>>450に関しては「その通り」としか言えません

>>452
μとmは例えば何ですか？

>>453
標本抽出した後に、さらに標本を抽出しても解けますよ、ということですか？
確率って色んな事象でそれぞれ違うものだと思ってたんですが、
なぜ確率法則で推定できるんですか？
あらかじめ、これはこの分布（正規分布とか？）だ！と決めてしまうということですか？

ごめんなさい、質問ばっかりになってしまいました
456 名前：【13.3m】 mailto:sage [2011/09/28(水) 21:31:44.31 ]: >455
その質問をするところを見ると、統計の本を読んでないのがわかる。

説明がわからなくても、μについてなんですかと質問することは、
統計の本を読んでいればあり得ない。

とりあえず、「どれだけ説明を読んでも全く理解できません」てのは
何に書いてある説明を読んだのか教えて。
457 名前：１３２人目の素数さん mailto:sage [2011/09/28(水) 21:36:19.66 ]: >>453
統計学のど素人なのですが、教えてください。

> 一般に抽出世帯数が多いほど誤差は小さくなる

あくまでも、①各世帯のデータが独立であること（ある世帯の視聴結果が他の世帯の視聴結果に一切影響しないこと）、
②無作為抽出であること、の２つ両方の条件が満たされることが大前提ですよね？
458 名前：１３２人目の素数さん mailto:sage [2011/09/28(水) 21:50:58.65 ]: >>456
今は家に帰って来てしまったので本の名前は分かりません
μは平均だと思ってたんですが、違うようです

信じられないんだと思いますが、本は何冊も読んでます
でもその本を理解できないんです
そのレベルの頭なんです
正直、>>452の文字の意味が分かったとしても、多分何を言いたいのかは分からないと思います
459 名前：１３２人目の素数さん mailto:sage [2011/09/28(水) 23:50:10.38 ]: >>457
＞②無作為抽出であること、

それは大前提。

＞①各世帯のデータが独立であること（ある世帯の視聴結果が他の世帯の視聴結果に一切影響しないこと）、

こちらは無関係。また母集団においては「独立」という概念もないです。
というか、社会的な特性なら、口コミや世代・職業・性別・地域文化など、
母集団のメンバー間に何らかの影響関係が存在するのが普通です。
また身長などの身体特性にも、年齢・性別・国・民族などの共通関係があります。
したがって平均特性の異なる母集団層を、標本抽出時に区別することが
できる場合には、同じ無作為抽出でも、より高度で精度の高い比例抽出法や
層別抽出法などが使われます。（詳細は「標本調査法」を参照）
実験計画法や臨床テストのコントロールグループ構成なども同様
460 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 00:07:59.42 ]: >>455
＞なぜ確率法則で推定できるんですか？

下手な鉄砲でも数撃てば当たるから。
461 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 00:47:01.36 ]: 神がいるから。
462 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 01:29:22.46 ]: >>459
丁寧に説明いただき、ありがとうございます。標本調査法について詳しく調べてみます。

ただ、無作為抽出によるパラメータ推定は、母集団の分布が分かっている場合に限る、
ということになると思うのですが、その認識は違いますでしょうか？

また、往々にしてビジネスでは、母集団そのものの分布が分からない、推定したい
（パラメータの平均・標準偏差、そもそも正規分布していると仮定してよいかどうかさえ分からない）、
ということがよくある（というか、ほとんど）と思います。

その場合、限られた標本（例：キャンペーン時のアンケート調査結果や一部の消費者の購買履歴）から
母集団に関する意味合いを導き出そうとした場合、統計学的にはどのようなアプローチが考えられるのでしょうか？

たくさん質問してすいません。私なりに統計学の入門書等を読みはじめ、ビジネスでの使い方等を
検討しているのですが、理解がなかなか進まないこともあり、いまひとつ、道筋が見えてこないのです・・・。
463 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 02:35:22.23 ]: 母集団の分布が分からなくても、何回も抽出した標本の平均の分布は正規分布なんだな。
言ってる意味が分からないと思うが。
464 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 19:53:15.22 ]: >>463
で、何回も抽出した標本の平均の分布が正規分布に従うから、何なの？
465 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 21:24:50.25 ]: >>462
＞無作為抽出によるパラメータ推定は、母集団の分布が分かっている場合に限る、
＞ということになると思うのですが、その認識は違いますでしょうか？

違います。

例えば視聴率調査の場合だと、母集団分布は「観た割合 p」「観なかった割合 1-p」。
それは「分かって」いますし、その知識を前提にすることは何ら制約にはなりません。
そして未知な部分である p の値を、「無作為抽出した標本中の観た割合＝標本割合」
によって推定するわけです。

しかし身長などの数値型特性の場合には、結果の種類が多すぎるので
上のように各値の母集団割合を正確に推定するには大標本が必要になります。
しかし普通はそこまで全てを知る必要もないわけです。
そこで母集団の平均値 μ だけを考えて、どんな分布形なのかは未知とします。
それでも標本平均値から μ は簡単に推定可能です。

（続く）
466 名前：465続 mailto:sage [2011/09/29(木) 21:27:14.00 ]: >>462
＞また、往々にしてビジネスでは、母集団そのものの分布が分からない、推定したい
＞（パラメータの平均・標準偏差、そもそも正規分布していると仮定してよいかどうかさえ分からない）、
＞ということがよくある（というか、ほとんど）と思います。

ビジネスに限らず、先の二項母集団のように単純な場合を除けば、
母集団分布形は未知であることが普通ですよ。
しかし多くの場合、推定精度の評価や検定などの統計処理には、よく「正規分布」が
使われます。それが誤解の元かと。しかしこれは「母集団分布に関する仮定」
なのではなく、単なる「簡便計算法」にすぎません。

つまり、（上に話が出ているように）標本のサイズが少し大きくなると、代表的な
推定値の確率分布は極めて正規分布に近くなります。そこで、より扱いやすい
正規分布を使って「確率の値を近似」する、という実際的なアプローチです。
Excelなどで正確な分布から求めた確率値と、正規分布を使った結果とを
比較してみれば、差は無視できるぐらい小さいことが確認できます。

このあたりの内容は注意事項とか枝道も多いので、サクッとしたレベルでの話ですが、、、
467 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 22:57:55.58 ]: ベンフォード分析の適用についてご教授下さい

「自然界の数値群」という適用条件の定義が分かりません
例えばフィボナッチ数列
Ａ(n)＝Ａ(n-1)＋Ａ(n-2)
に適用できて、等比数列
Ａ(n)＝Ａ(n-1)×10~(n-1)
には適用できません。
適用条件の定義について教えてください
468 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 23:20:13.66 ]: >>464
母集団の分布が分からなくても、推定するときにとても役に立つわけです。
469 名前：１３２人目の素数さん mailto:sage [2011/09/29(木) 23:43:28.92 ]: 通常の調査で実際に母集団の分布が未知であるとはいっても、普通は、標本をみるとこれは正規分布と考えられますね、という検定はできるよね？
それに、母集団がそもそも正規分布じゃない場合はどうするの？
>>466の説明だけ聞くと、何にも分からないし正規分布と程遠いかもしれないけどとりあえず正規分布になるってことにしちゃえよ、
それで分析しちゃえよ、だって分析が楽じゃん、で、なんとなく数字を出してみました、それが「推定」ですと言っているようにしか見えない

例えて言うなら、
コイツ何言ってるのか分かんねぇよ、多分文句言ってるんだよ、文句言ってるんだと思って対応しとけばいいよ、それが正義だから、
と言ってるのと同じことやってるように思える
470 名前：１３２人目の素数さん mailto:sage [2011/09/30(金) 02:00:09.88 ]: >>465,466
457,462です。ご説明ありがとうございます。
私の勉強不足のため、いただいた内容をきちんと理解できてはないと思いますが、
少し、頭が整理できてきたような気がします。

>しかし多くの場合、推定精度の評価や検定などの統計処理には、よく「正規分布」が
>使われます。それが誤解の元かと。しかしこれは「母集団分布に関する仮定」
>なのではなく、単なる「簡便計算法」にすぎません。

「簡便計算」により、実用的に十分な精度で推定値を求める、もしくは、値の範囲を絞ることができる、ということですね。
そして、その簡便計算のもとになる確率分布がいろいろ存在すると（正規分布、t分布・・・）。

ただ、統計学の素養がない人（私もですが）に対して、簡便計算を適用することそのもののの妥当性や
仮定する確率分布の妥当性を理解してもらうのは、現実的にはかなり厳しいですよね？

つまり、統計学の素養がない人に対して、「未知の母集団（例：ある商品の消費者の1ヶ月あたりの購入金額の
平均）に関して、こんなことが分かりましたよ（推定されましたよ）」と言ったときに、いかに推定値の信頼度が
（統計学的に）高いかを説明しても、納得感を十分にはもってもらえなさそうですね・・・。

いずれにしても、自分でサンプルデータを使って手を動かして実際に数値を出してみながら、
テキストの理解を進めていき、何がどう使えるのかを自分で探っていきます。

早く、このスレの皆さんの話についていけるようになろうと思います。

どうもありがとうございました。
471 名前：１３２人目の素数さん mailto:sage [2011/10/01(土) 01:46:17.62 ]: SPSS ってIBMが出してるマニュアルないんですか？
472 名前：１３２人目の素数さん [2011/10/03(月) 12:27:21.20 ]: 重回帰分析について。

【質問１】
AICなどの説明変数選択規準を用いたとき、分散分析のｐ値では
有意であると判断できながら、説明変数のｐ値を見ると、有意ではない説明変数が
含まれることがあります（例：有意水準５％）。

説明変数のｐ値が有意かどうかで判断できるのならば、AICなどの方法で
変数選択を行う意義はどこにあるのでしょうか。

また説明変数選択規準を考慮するのならば、説明変数の有意性は
どのように解釈すれば良いのでしょうか？

【質問２】
変数選択を行うと、多重共線性を取り除くこともできることがある、
というのは正しい理解でしょうか。
473 名前：１３２人目の素数さん [2011/10/03(月) 12:31:46.88 ]: >>472
472です。

この質問の回答に相当する内容が載っている書籍をご紹介いただくのも歓迎です。

地元の図書館や国会図書館に置いてあるといいな。
474 名前：１３２人目の素数さん [2011/10/03(月) 14:26:49.43 ]: >472

ｐ値で変数選択はできません。
　「有意でない」と「ない方がよい」は違います。

　ｐ値で変数選択している場合は多重共線性は考慮されません。
　ｐ値の信頼性が低下するだけです。
475 名前：１３２人目の素数さん [2011/10/03(月) 15:25:34.53 ]: >474

返信ありがとうございます。
つまり、「有意でないからと言って、その変数は採用しない方が良いとは言えない」ということですね。

確かに説明変数間に多重共線性が起こっている場合、採用する説明変数によって回帰係数が不安定になるので、おっしゃるようにｐ値の信頼性が低下するということですね。
476 名前：１３２人目の素数さん mailto:sage [2011/10/03(月) 23:00:14.65 ]: >>472
２の方ですが、実感では取り除けることもあります。
ただもちろん取り除けないこともあるので多重共線性を取り除く方法として
使えるわけではありません。
このあたりを明確に書いた書籍は知りません。
477 名前：１３２人目の素数さん [2011/10/03(月) 23:05:22.86 ]: >>476
ご回答ありがとうございます。
そうですね。
わたくしの理解では「取り除くこと『も』」できるという程度で、
多重共線性が起こっていることを見つける方法は
いくつか提唱されていますね。
478 名前：【20.8m】 mailto:sage [2011/10/04(火) 00:23:35.90 ]: >>472
そもそも重回帰分析を行うということは、複数の変数のセットで
説明ができるかを考えているので、その場合は個々の変数の有意性
には意味がない。

変数の組み合わせにおり、ここの変数が有意かどうかは変化してしまう。

重回帰では、ある変数を追加したり、減らしたりすることで、変数の
セットとしての説明力がどうなるのかが重要で。
変数を単に増やせばそれは見せかけ上の説明力が高くなってしまう。
そこで、変数のセットの説明力を比較する指標が必要になる。

とはいえ、被説明変数に対する影響が統計的に誤差の範囲と扱われて
しまうような説明変数の集まりでは説明に困るので、主たる説明変数は
それなりに有意な方が話がしやすいね。
479 名前：１３２人目の素数さん [2011/10/05(水) 12:06:35.51 ]: >>478

これまでにいただいた回答も含めて考えてみると、
どうもまだ体系的に理解できていなかったことに気づきました。

疑問だった点がスッキリしました。
本当に感謝します。ありがとうございました。
480 名前：１３２人目の素数さん mailto:sage [2011/10/05(水) 16:03:43.77 ]: このスレはテーマが実務に近いから基地外が集まらないな。
481 名前：１３２人目の素数さん mailto:sage [2011/10/05(水) 18:28:09.46 ]: キチガイコレクターに用はありません。お帰りください。
482 名前：１３２人目の素数さん [2011/10/12(水) 13:41:27.70 ]: FAQっぽくて恐縮ですが、
対応のない２種のt検定（分散が違うのでWelchの方法）で、「平均に差がない」帰無仮説ではなく、
「平均の差が○○以下」という帰無仮説を棄却したい（＝p<0.05で平均が○○以上差があることを示したい）のですが、
どうすればいいのでしょうか？

Excelでできるみたいなのですが、そうではなく、アルゴリズムも知りたいです（自分で実装するため）。
483 名前：１３２人目の素数さん [2011/10/13(木) 12:12:18.29 ]: 時系列順に65234,65219,65109,68749,63411というデータがあります。
5つめがこれまでの4つに比べて減ったかどうかを仮説検定するには、どう計算すればよいでしょうか。
おそらく母集団が何にしたがっているのかもわからない状態です。(こういうときにとりあえず正規分布を仮定してもいいのでしょうか)
ウェブ上のこのページの通りにやればできるよというようなお答えでも結構です。どうかヒントだけでもお教え下さい。
484 名前：１３２人目の素数さん [2011/10/13(木) 19:47:50.32 ]: このスレ、むずい質問多いッスね。
485 名前：１３２人目の素数さん [2011/10/13(木) 20:53:03.22 ]: ＞４８２

一方の全てのデータから○○を引いて、
「平均に差がない」のt検定（片側）をしなさい。
486 名前：１３２人目の素数さん mailto:sage [2011/10/13(木) 22:21:11.53 ]: >>483
超能力者にしか無理です。
487 名前：１３２人目の素数さん mailto:sage [2011/10/13(木) 22:31:23.09 ]: >>486
それはデータの数が少ないからですか?
488 名前：学生 [2011/10/13(木) 22:40:55.06 ]: 統計学と製薬会社に関係があると聞いたのですが、
具体的にどのようなところで使われているんですか？
あと、品質管理と統計学にも関係があると聞いたのですが、
どこで使われていますか？
489 名前：１３２人目の素数さん mailto:sage [2011/10/13(木) 23:23:55.17 ]: ある製薬会社である病気に効果が期待できる投薬を開発した。
その病気をもつ患者３００人を１００人ずつの３つグループＡ、Ｂ、Ｃに分け、
Ａグループには新薬の実験に参加協力の了解を得た上で新薬を投薬
Ｂグループには新薬の実験に参加協力の了解を得た上でブドウ糖を投薬
Ｃグループには何もしない
という状況で経過を見た。結果、Ａグループは５５人が回復、Ｂグループは５０人が回復、
Ｃグループは４５人が回復した。さて、この新薬は効果があったのだろうか？
このような事をきちんと判断できる数学的能力が不可欠。
490 名前：【17.7m】 mailto:sage [2011/10/14(金) 01:18:05.89 ]: >>488
品質管理を書いておくと
例えば、原材料を購入したとしてそれが必要な品質を満たしているかは
確認しないといけない。
その際、全て調べるわけにはいかないので、抜き取りで検査をする。
どれくらい調べればいいかを決めないといけないので統計学を使う。

後は、製品（薬）を作る時に、機械で自動で作っているとする。
でも、作っているうちに、機械がずれてきて、製品の精度（薬の
内容物の量）などがおかしくなってくる。
そこでできた薬を定期的に調べて、機械の調子を調べるんだけど、
機械をきちんと調整してあっても少しはずれるので、どれくらい
ずれたら機械がずれたと判断して再調整するかを考えないといけない。
こういうのでも統計学を使う。
491 名前：１３２人目の素数さん mailto:sage [2011/10/14(金) 03:39:02.20 ]: >>482
Welchの t値の式の分子を

A = ｜（ｘの標本平均-μx） - （yの標本平均-μy）｜＝｜ｘの標本平均-yの標本平均-(μx-μy)｜

として、仮説：｜μx-μy｜＜ε の範囲で最小になる A を使えば良いんでない？
分母や自由度は同じ。つまり一番判別しにくい仮説値で検定。
しかし信用されるには、どっかの本か論文に出てる必要があるね。

>>483
それだけしかデータが無い場合、統計学的には何も言えないと思うよ。
492 名前：１３２人目の素数さん mailto:sage [2011/10/14(金) 09:19:38.65 ]: >>487
どんな分布かわからないから
だろうね。
493 名前：１３２人目の素数さん [2011/10/14(金) 10:33:37.84 ]: >491

なんでやねん。

データから定数を引いても、分散構造は全て維持されるので、
４８５の方法で十分。
494 名前：482 [2011/10/14(金) 15:41:09.10 ]: 引き算する値（kとします。）を変えていくとpの値
（今はとりあえずExcelのttestを使っています。ttest(***,***,1,3)という形式で）が
変わっていきますよね。
そのときに最大のpを与えるkが２群の最も確からしい平均値の差と言って良いのでしょうか？
495 名前：１３２人目の素数さん [2011/10/14(金) 15:47:51.15 ]: >494

推定したいのか、検定したいのか、どっちやねん。

ｋが決まっているならｔ検定
ｋを求めたいなら推定。（不偏推定量は単に平均値の差だ）
496 名前：482 [2011/10/14(金) 16:37:33.88 ]: もっとも確からしいk（平均値の差）を求めたいんです。検定と推定で混乱しています...。
まだ、何が分からないのか分からない段階です。
497 名前：１３２人目の素数さん [2011/10/14(金) 17:02:12.59 ]: kは点推定でいいのか、区間推計したいのか、どっち？
498 名前：１３２人目の素数さん [2011/10/15(土) 01:19:33.35 ]: 区間推計の幅の中央が点推定と一致するのでしょうか？　だったらとりあえず区間推計します。
点推定だけでも良いです。
499 名前：１３２人目の素数さん mailto:sage [2011/10/15(土) 19:14:29.00 ]: 一致するよ。点推定値±ｔ値×標準偏差　の形になるから。
また自由度が２５以上ならｔ値は正規分布値とほぼ同じだから、
正規分布値を使えばデータ自体は正規分布に従う必要がない（大標本法）。
500 名前：499 mailto:sage [2011/10/15(土) 19:23:12.12 ]: この場合は、正規分布値→標準正規分布の臨界値、ね。
あと細かくは、ｔ値→t分布の臨界値、標準偏差→推定量の標準偏差（標準誤差とも言う）。
501 名前：１３２人目の素数さん [2011/10/17(月) 16:12:26.55 ]: 会社の中で、売り上げなどをSPSSを使って実際に分析し経営などを考えてる人はいるんですか？
というのも、大学で今は心理学の統計分析のためにSPSSを習っていますが、普通の企業に就職した場合
このSPSSを使えるという能力は役に立つような場面はあるのかと思いました。
502 名前：１３２人目の素数さん mailto:sage [2011/10/17(月) 16:55:29.72 ]: >>501
統計よりも財務諸表を読めるのが大事。
503 名前：１３２人目の素数さん [2011/10/17(月) 19:36:29.65 ]: >501

いない。
世間知らずもいいところ。
504 名前：１３２人目の素数さん [2011/10/17(月) 20:32:50.43 ]: >>501
すでに>>503が回答しているが、全くそのとおり。

世間では、まず統計学というものを知らない。
知らないから何に役に立つのかもわからない。
占いと同程度だと思われている。
505 名前：猫は夜行性 ◆MuKUnGPXAY mailto:age [2011/10/17(月) 21:30:55.23 ]: Statistical Package for the Social Sciences

猫
506 名前：１３２人目の素数さん mailto:sage [2011/10/17(月) 22:46:06.37 ]: >>501
503,504が回答しているが俺も一言。

仮に、価値のある意味合いを導き出せ、（SPSSでも何でもよいが）統計的に分析してこんなことが分かりました、
だから、こうしたほうがよいですってアクションにつながることを言えたとしても、
説明する相手（例えば、経営層や上級管理職）が統計学の素養を持っていなければ、納得してもらえない。
そして、そのような素養を持っている人は極めて少ない。

主張に対する根拠を補強する、箔をつける、という補助的な意味合いで、統計分析の結果をビジネスに
利用することはあるかもしれないが、主役にはなり得ない。
507 名前：１３２人目の素数さん mailto:sage [2011/10/17(月) 22:52:23.51 ]: 知らない人から見れば、統計学はうさんくさく、占いよりも役に立たない。
508 名前：１３２人目の素数さん mailto:sage [2011/10/18(火) 00:11:43.68 ]: まぁ学生は世間知らずでいいんだけどね。
大人気ない社会人が多いなｗｗｗ

>>501
社会に出てすらこの程度だ気にすんな。
ただ言ってることは正しいけどな。
509 名前：１３２人目の素数さん mailto:sage [2011/10/18(火) 01:23:57.32 ]: 社会なんかに出なくても、文系学部の大半はそんなもんだよ、学生も、先生も。
510 名前：１３２人目の素数さん [2011/10/18(火) 02:23:25.10 ]: 文系、理系、違いは感じないけどな。
個人の能力差のほうがよほど大きい。
511 名前：１３２人目の素数さん [2011/10/18(火) 03:53:43.59 ]: 猫は？

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef