[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2chのread.cgiへ]
Update time : 02/24 22:49 / Filesize : 314 KB / Number-of Response : 1002
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

統計学なんでもスレッド2



1 名前: ◆OHr6mNLYV6 [03/11/08 19:44]
(´Д`;三;´Д`)
語って下さい.偉大な統計学を...
質問にはやさしいお兄さんが答えてくれます.

前スレ
science.2ch.net/test/read.cgi/math/1012782106/

関連スレ
【 確率論・統計学の実用の仕方 】
science.2ch.net/test/read.cgi/math/1041865872/
こんな確率もとめてみたい その1/2
science.2ch.net/test/read.cgi/math/1029400897/
■確率制御■
science.2ch.net/test/read.cgi/math/1017042903/

348 名前:132人目の素数さん [04/02/14 00:53]
重回帰分析について質問よろしいでしょうか。

今、ある機械である製品を製造するとします。
その時の機械の条件や環境の条件を独立変数として、いくつかXを取り出します。
製造された製品の物性を目的変数Yとして、回帰式を計算するとします。
たとえば、変動する条件(独立変数)を4つ取り出したとして、回帰式で
表すと、
Y=a+b*X1+c*X2+d*X3+e*X4+ε
と表せます。この時の4つの独立変数X1〜X4のうち、目的変数Yに最も
影響を及ぼしている独立変数を評価する方法はあるのでしょうか?
それぞれの独立変数の単位は異なるので、回帰係数で比較する事はできない
と思うのですが…、どうすればいいのでしょうか?
「Yに最も影響している条件(変数)は○○です」というような評価は可能でしょうか。

駄文申し訳ありません、、、どなたか教えてください

349 名前:132人目の素数さん [04/02/15 01:07]
あげ

350 名前:132人目の素数さん mailto:sage [04/02/15 19:18]
>>348
単位の影響を取り除きたければ、データを標準化(基準化)。
標準化偏回帰係数は,ある独立変数が 1 標準偏差変動したときに,標準化された従属変数が何単位変動するかを表す。

まず、影響と寄与はちがいます。。影響はA→B、寄与はA→←B。
標準化偏回帰係数によって、予測にどの程度各変数が寄与しているか?を見ることができる。
ただし、多重共線性に注意。
あと、予測(重回帰モデル)が妥当かどうか検証。

青木先生のページを参照
ttp://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/index.html

351 名前:348 [04/02/16 20:45]
>350
影響を見る場合は偏回帰係数を標準化する必要はないのですか?

352 名前:350 mailto:sage [04/02/17 03:19]
>351
標準化する必要があります。
細かいところを気にしなければ、標準化偏回帰係数を見ればよいです。
ただし、多重共線性に注意しましょう。結果がものすごく変わることがあります。

私がゴチャゴチャ言ってるのは、
重回帰分析は寄与がわかっても、因果(影響)はわからない!ということ。
回帰を学ぶ上で、寄与と因果は、しっかり区別しなくてはいけません。
影響を見るのは、因果的推測と言って、最新の研究。ま、基本は重回帰だけど。

353 名前:132人目の素数さん mailto:sage [04/02/17 15:31]
統計学は全くの素人なのですが、疑問に思うことがあります。

www1.odn.ne.jp/youth-study/
このサイトで、高校生の生活と意識に関する調査というものについてです。

問7「あなたのクラスには、男子生徒と女子生徒の割合はどのくらいですか?」
という設問で、日本のデータを見ると43.9%が「ほぼ全員女子」で、
女子校のようです(男子のみは11.9%)。

そのため、
問10「あなたのクラスでは、次のことについて、男子と女子はどっちが多いですか?」
という問以下詳細15問の回答のうち、女子のデータは全て「女子が多い」となるのは、
当然のような気がします。

同じように問7のデータから、男子校(74.5%)、女子校(71.4%)から
サンプリングしたと思われる韓国のデータでは、問10の中の15問は
全て無回答の比率が50〜70%になっているのは、異性がいないので
比較できないと判断したためと思えます。

この調査の「概要」を読むと、
問10の<クラスの中の男子生徒と女子生徒の行動>についての項目で、
>日本の女子生徒は「先生によく反抗する人」「校則をよく守らない人」に対して、
>「女子が多い」と肯定するのが特徴である。
とされていますが、どうも釈然としません。サンプルのかたよりからすると、
統計上、間違った解釈ではないのでしょうか。


354 名前:132人目の素数さん [04/02/17 20:54]
>352
なるほど。
どの説明変数が目的変数と関わりをもっているかを見るためには、
標準化偏回帰係数で比較して標準化偏回帰係数が最も大きい説明変数が
最も目的変数と関わりを持っているということですか。

あるサイトで”要因の絞り込み”という方法を見たのですが、
この方法で”目的変数と最も関わりを持っている説明変数”を
求める事はできますか?(標準化偏回帰係数ではなく、P値を見ているようですが)

ちなみにここです
ttp://202.245.103.49/kenshu/Sozai/Excel/statistic/analysis25.htm

355 名前:350 mailto:sage [04/02/18 06:34]
>354
変数選択の話ですね。
予測するのには、できるだけ変数が少なく相関が高い方が良いモデルとなります。
そこで、各偏回帰係数が0かどうかを検定します。
P値は、ある偏回帰係数が0である確率を表しています。
各偏回帰係数のP値を計算してみて、大きいものから削っていき、
最もよいモデルのところで止めます。

要するに、0に近い偏回帰係数を削っていくだけです。
多分、同じ結果になると思います。(0に近いところは順番が少し変わるかも。
変数選択して、最良のモデルを作ってから、標準化偏回帰係数で解釈。
コレが1番良いかと。


356 名前:132人目の素数さん [04/02/18 21:38]
2336 名無しさんにズームイン! sage諏訪 New! 04/02/18 21:27 ID:BynTAKDd
うわーーーーーーーー書けるっ!!!!書けますうぅぅぅぅぅぅぅ!!!!!!!!


2337 名無しさんにズームイン! New! 04/02/18 21:27 ID:n8ilzDQ6



2338 1001 New! Over 1000 Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。


2339 1001 New! Over 1000 Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。


2340 名無し募集中。。。 New! 04/02/18 21:27 ID:Ha+lJUyb
>>2000
おめ



おまいら!大変ですよ!この現象を統計学理論で説明して下さい!
W杯アジア地区第1次予選「日本×オマーン」 PART14
live8.2ch.net/test/read.cgi/liventv/1077105141/




357 名前:132人目の素数さん [04/02/19 18:55]
発生確率1/6で、試行回数10回の、標準偏差の式を教えてくだされ。

358 名前:132人目の素数さん [04/02/19 19:12]
>>357
何の標準偏差が知りたいの?

359 名前:132人目の素数さん [04/02/19 19:18]
>>358
当たりがでる確率が1/6のくじを、10回くじ引きした場合の、
実際に起きた場合ではなく、理論的な標準偏差値の算出方法です。
質問のしかたが、悪いかもしれませんが・・・解るでしょうか?


360 名前:132人目の素数さん [04/02/20 00:06]
統計超初心者なので簡単な質問かも知れませんが許して下さい。
実は明日レポート提出なので・・・

薬品Aを1000人に使ったとき、100人が副作用が出ました。
薬品Bでは1500人中、1000人が副作用がでました。
こういう場合に、統計学的に有意に薬品Aの方がよい、というにはどんな検定すればいいんでしょうか。
実際の数字はもっと確率が近いんです。
統計のソフトはエクセル統計を使ってます。
よろしくお願いします。

361 名前:132人目の素数さん mailto:sage [04/02/20 00:33]
よーし、統計初心者の漏れが惑わす回答をしちゃうぞ。

有意に「良い」ということは出来ないが、
母比率の差の検定とかでしょうか。

間違ってたらすまそ。一回くらい答えられる人になりたかったのよ。

362 名前:132人目の素数さん mailto:sage [04/02/20 00:49]
>353
集めた日本、アメリカ、、、のサンプルからの、
集めた日本、アメリカ、、、のサンプルの解釈としては間違ってはいないが、
そのサンプルが偏っているので、
その解釈を日本全体、アメリカ全体、、、の解釈としているところに
問題があるんではないでしょうか?

先日、TVで、
「高学歴である裁判官は、同じ高学歴の被告をひいきしている。
その証拠に、死刑になった被告のうち高学歴の者は少ししかいない。
そういう統計が出てるんです。」
とか、なんとか、言っていた人がいたが、
確かに、死刑になった被告のうち高学歴の者は少ししかいないのは正しい解釈だろう。
だが、その解釈=裁判官がひいきしている、という解釈はどうか?と。
それを調べたいならば、
高学歴の死刑になった被告/高学歴の死刑を求刑された被告
低学歴の死刑になった被告/低学歴の死刑を求刑された被告
を比較するべきだろう、と。
解釈が都合のいいように飛躍してるんですよね。
こうやって、統計の評判が落ちていくんだろうな、と思う今日この頃。

363 名前:132人目の素数さん [04/02/21 00:25]
実務上、重回帰分析で要因分析なんて相関関係があるから不可能ですよね?と言うか無意味ですよね?


364 名前:132人目の素数さん [04/02/21 02:46]
>>360
「t検定」でぐぐれ。

365 名前:132人目の素数さん mailto:sage [04/02/21 02:51]
>361
おしい。。。では、補足を。
2群の母比率の差の検定は、片側検定を定義できるので、
有意に「良い」と言えます。

366 名前:132人目の素数さん [04/02/21 11:27]
363なんですが実際はどうなのでしょう?
コンサルタントが明らかに無意味な重回帰分析をしているようにしか思えないのです。



367 名前:132人目の素数さん [04/02/21 11:41]

例えば民力データの

  〜18歳 人口
18〜23歳 人口
23〜28歳 人口
29〜    人口

4つの独立変数と

従属変数:売上高

を使って年齢別の要因分析をするなんてどう考えても変ですよね?

368 名前:132人目の素数さん mailto:sage [04/02/21 12:26]
>>365
そ、そっか_| ̄|○
(´-`).。oO(いつかちゃんと答えられる人になれますように・・・)

>>360をt検定でやろうとするとどうなるんですかね?
t検定って平均値の差を検定するものだと思いこんでました。

369 名前:132人目の素数さん mailto:sage [04/02/22 11:36]
統計学入門 基礎統計学
東京大学教養学部統計学教室 (編集)

これと同程度か少しカンタンなことについて書かれた洋書があれば教えてください。
www.amazon.co.jp/exec/obidos/ASIN/4130420658/

370 名前:132人目の素数さん [04/02/22 13:32]
367ですが私の質問はDQN過ぎますか?

371 名前:132人目の素数さん mailto:sage [04/02/22 22:12]
>367
363で
>実務上、重回帰分析で要因分析なんて相関関係があるから不可能ですよね?と言うか無意味ですよね?
相関関係があるから不可能??意味がよくわからない
相関関係がわかるだけで、要因かどうかはわからないってことでしょうか?
367で
>例えば民力データの
>  〜18歳 人口
>18〜23歳 人口
>23〜28歳 人口
>29〜    人口
>4つの独立変数と
>従属変数:売上高
>を使って年齢別の要因分析をするなんてどう考えても変ですよね?
どう考えても?実務的な意見が欲しかったのでは?理論的な意見でもいいの?
どのように考えて、どこが変なのか?を示すべきかと。

質問の意図がはっきりしないことと、
実務家じゃないので、レス控えてました。

372 名前:132人目の素数さん [04/02/25 17:11]
本当にあほな質問で泣きたくなるのですが、
標本と母集団の違いってはっきり一言で言うとなんでしょうか。
サンプルが20個あっても30個あっても標本なのでしょうか。
どなたかお答えください。


373 名前:132人目の素数さん mailto:sage [04/02/25 18:48]
A,B二つの工場から消費地へ製品を輸送する場合,輸送費はAから
消費地まで1トン当り6万円,Bからは1トン当り10万円かかるという。
工場の毎月の生産量はA工場は50トン,B工場は40トンである。
2工場から2工場から消費地へ合わせて65トン送りたい。輸送費を最小にするには
各工場から何トンずつ送ればよいか。

答えは分かるけど解き方がワカラン_| ̄|○
どなたか御教授願います・・・。

374 名前:132人目の素数さん mailto:sage [04/02/25 19:36]
よーしまた統計初心者の漏れが答えちゃうぞー!
今度こそはちゃんと答えられるようになってやる!

>>372
ある集団があったときに、サンプルとして取り出したものが「標本」で、
そのサンプルを取り出せる可能性をもつ物全てが「母集団」かしら。
一言で言うと、「母集団から取ったサンプルが標本」。

自分で読んでて何言ってるかわからんなぁ(^^;
20個30個あったとしても、それが集団の全てで無い限りは標本です。

>>373
線形計画法で解けるはずなので解いてみます。

375 名前:132人目の素数さん mailto:sage [04/02/25 19:46]
>>373
あれ?線形計画法以前の問題?
その条件だとA工場に最大量わりふったほうが安い?
何か別条件無いのかしら。

376 名前:132人目の素数さん mailto:sage [04/02/25 19:53]
>>375
線形計画法の問題なんですけど,これ以外他の条件無いんですよ。
おっしゃる通りAに最大量割り振った方が安いと思うんですけど,
線形計画法用いての課程が分からなくて・・・。




377 名前:132人目の素数さん mailto:sage [04/02/25 19:59]
やっぱ漏れが初心者過ぎて何か考え違いしてるのかなぁ・・・
こんなんじゃだめかしら?

 A工場から x (トン)、B工場から y (トン)送る
 輸送費を k
とします。すると、
 x + y = 65 ・・・(1)
 6x + 10y = k ・・・(2)
 x =< 50 , y =<40 ・・・(3)
が成り立ちます。
(1)をグラフで書くと y = -x + 65 上で [25,40]から[50,15]までになります。・・・(4)
ここで(2)式は y = -3/5 x + 1/10 k ・・・(5)より、
(4)と(5)が重なる範囲内で、kが最も小さい時を選べば良いのです。
従って、(50,15)の時にkが最小となり、
「輸送費はA工場から50トン、B工場から10トン送ったときに最小となる」
が導かれます。

378 名前:132人目の素数さん mailto:sage [04/02/25 20:01]
>>376
あ、やっぱりこれでいいんですか。
ってことでこれを参考にして下さいヽ(´ー`)ノようやく答えられた

座標を表す括弧が[ ]と( )でありますけどまぁ気にしないで下さい。

379 名前:132人目の素数さん [04/02/25 20:07]
>>377-378
解説ありがとうございました!
似たような別問題があるのでそっちをこの方法でやってみます!



380 名前:132人目の素数さん mailto:sage [04/02/25 20:15]
いえいえ、またわからなかったらどうぞヽ(´ー`)ノ

って>>377、最後の最後で間違えてるな_| ̄|○ B工場から15トンね

381 名前:132人目の素数さん mailto:sage [04/02/26 05:49]
>374
おしぃ。母集団と標本について補足を。
母集団から無作為に(ランダムに)抽出したものが標本です。
あと、わかりやすいように英語。
(parent) population 母集団
sample 標本
random sampling 無作為抽出

382 名前:372 [04/02/26 07:43]
374さん、381さん、丁寧な解説ありがとうございました。

と言うことは、母集団か標本かを見分けるには、数を見るのではなく
内容を見るのですね。抽出したと書いてなければ、母集団として
判断してもいいのでしょうか。車の例などは、10個であれば標本だと
わかるのですが(世界には10個以上車があるから・・・ですよね?)
たとえば、バスケットボールの点数などはどうなんでしょうか。
10回バスケットボールの記録を測れば、その10回は母集団に
なると考えていいのですか。よろしくお願いします。

383 名前:381 mailto:sage [04/02/27 06:25]
>381
すいません、間違えました。
標本=母集団から抽出したもの
標本は母集団から無作為に抽出されなければならない、でした。
>382
まず、
母集団=知識・情報を得たいと考えている対象の全体

バスケットボールの点数の知識・情報を得たい。
バスケットボールの点数の全体は、0〜∞。
母集団は、バスケットボールの点数0〜∞。
標本は、10個。
標本から母集団を推定。

有限母集団、無限母集団の話と、
母集団と標本の関係の話が絡んでます。
上は無限母集団の場合です。次に、有限母集団の方を考えてみましょう。

1シーズンのバスケットの点数の知識・情報を得たい。
1シーズンのバスケットの点数の全体は、そのまま。
母集団は1シーズンのバスケットの点数全体
標本をいくつかとる。
標本から母集団を推定。

結論、標本からじゃなくて、目的から母集団を決めましょう。
一般的なバスケットボールの点数を調べたければ、その10回は標本。
その10回のバスケットボールの点数を調べたければ、その10回は母集団。

384 名前:372 mailto:sage [04/02/27 18:02]
381さん、詳しい解説をありがとうございます。
これですっきりしました。くだらない質問にお付き合いくださって
本当にありがとうございます。ここに来てみて良かったです。

385 名前:自由度n-1 [04/02/28 11:00]
初歩的な質問、且つ以前もこの手の話はでてきていたと思いますが、
自由度n-1の定義について、教えていただきたいと思います。
「n-1個の偏差を与えると残り1個は自動的に決まる」ようなことが
参考書に書かれてありますが、どうもピンと来ません。
具体的にはどういうことなのか、わかる方がおりましたら、
ご説明いただきたく思います。
宜しくお願いします。


386 名前:132人目の素数さん mailto:sage [04/02/28 12:54]
よーし今度こそ。

例えばn個のバラバラな数字(X1〜Xn)があったとすると、
それらから平均値mが決定されますね。

さて、逆に、平均値mを固定したまま(X1〜X(n-1))の数字を
自由に動かす、つまりn-1個の偏差を与えたとしても、
平均値mは固定されたままですから、最後の一個は逆算から自動的に決まります。

なぜならn個の数字の合計値は必ずm×nになっているからです。
合計値がm×nで、しかもn-1個の数が全て分かっていれば最後の一個は引き算で出せますよね。

やっぱおいら日本語下手だな(´・ω・`)統計以前の問題だ



387 名前:自由度n-1 [04/02/28 18:59]
>>386さん、ありがとうございます。
>平均値mは固定されたままですから、最後の一個は逆算から自動的に決まります。
だいたいイメージはつかめました。
それでは、なぜ平方和などをn-1で割る必要があるのでしょうか。
nではなぜだめなのでしょうか。
宜しくお願い致します。




388 名前:132人目の素数さん mailto:sage [04/02/29 01:06]
>>387
どういたしまして。つたない日本語ですいません。

さて、今度は不偏分散についての質問ですね。
これに関しては、以前学校でレポートの課題として出されて、
おいらもだいぶ頑張って(ネットからパクリながら)解説を書きました。

ttp://trao2go.hp.infoseek.co.jp/toukei1.pdf
[4 分散と不偏分散]のところと[6 余談(理由)]が役に立つかと。
恥ずかしいので今日の夕方くらいまでに消してしまう予定です。
あと、統計の先輩方、間違ってたらご指摘よろしくお願いいたします。

389 名前:132人目の素数さん [04/02/29 08:37]
>388
ほとんど完璧ですな.では,ちょいちょい修正を.
おかしいところは,
1.母平均μの説明が入っていない.
2.母分散σ^2は,ひとつの決まった値なので小文字だが,
標本分散と不偏標本分散は,確率変数なので,大文字.
3.母分散は値なので不偏母分散というものはない.不偏=不偏推定量.
多分,
母平均,母分散は値.標本平均,標本分散,不偏標本分散は確率変数.
がごちゃごちゃになっていると思います.
母平均=E[標本平均],母分散=E[不偏標本分散]です.

母分散が未知だから,標本から母分散を求めたい.
平均が母分散になる,できるだけ分散の小さい推定量を見つけたい
証明したいのは,
E[不偏標本分散]=E[n/n-1 標本分散]=母分散
  前の=は不偏標本分散と標本分散の定義式を見ればすぐわかる.


390 名前:132人目の素数さん [04/02/29 08:39]
(続)
手直しすると,(注意.X~は標本平均のつもりです.
余談の最初に,
「母平均μ,母分散σ^2の母集団から,無作為にX1,X2,...,Xnを抽出すると,
X1,X2,...,Xnは,平均μ,分散σ^2の独立な確率変数となる.
よって,E[Xi]=μ,V[Xi]=E[(Xi-μ)^2]=σ^2 (i=1,2,...,n)」
を入れて,

E[S^2]=.............=1/n Σ(E[(Xi-μ)^2]) -E[(X~-μ)^2]
=1/n ΣV[Xi] -V[X~]
ここで
V[X]=σ^2
V[X~]=....=σ^2/n
よって
E[S^2]=...=(n-1)/n σ^2
よって,
母分散=n/(n-1) E[標本分散]
また,
E[不偏標本分散]=E[n/n-1標本分散]=母分散

ということは,不偏標本分散の平均は母分散になる.
よって,不偏標本分散は母分散の不偏推定量

391 名前:自由度n-1 [04/02/29 09:37]
>>388,389さん、あるがとうございます。
大分頭の中が整理されてきました。
つまり、言葉で表すと、
偏差平方和をnで割ると、かたよりをもってしまうため、
標本分散が母分散の不偏推定値であるためには、n-1で
割る必要があるということでしょうか。
ただの分散と不偏分散が頭の中でごっちゃになっていたようです。




392 名前:自由度n-1 [04/02/29 09:46]
>>391訂正
分散=標本分散でしたね。
そうしますと、不偏標本分散が母分散の不偏推定量であるためには
n-1で割る必要がある、となるのですね。
失礼いたしました。


393 名前:132人目の素数さん [04/02/29 18:40]
>>352
遅レスだけど、

>ただし、多重共線性に注意しましょう。結果がものすごく変わることがあります。

注意しましょうと言うよりは、実務上、説明変数が3個以上あるとマルチ湖は避けられない。
標準化偏回帰係数を見ても意味がないのがほとんど。


394 名前:132人目の素数さん [04/02/29 19:13]
重回帰分析で要因分析は無理ってことか・・・・・

395 名前:132人目の素数さん mailto:sage [04/02/29 23:51]
>352
相関の高い説明変数を削って、変数選択しててからでも、意味ないのでしょうか?
各説明変数の相関が低ければ、標準化偏回帰係数の意味があると思うのですが。
でも、削った説明変数の解釈に困るか。。。
共分散構造解析とかするんでしょうか?

396 名前:395 mailto:sage [04/02/29 23:52]
>352じゃなくて>393です。



397 名前:132人目の素数さん mailto:sage [04/03/01 01:32]
>>389
ご指摘ありがとうございます。

>母平均,母分散は値.標本平均,標本分散,不偏標本分散は確率変数.
>がごちゃごちゃになっていると思います.

まさにその通りでした・・・
いやはや、統計初心者を脱却するにはまだまだ時間がかかりそうです。

>>391=392
そういうことだと思います。

ではPDFは消してしまいますね。

398 名前:132人目の素数さん mailto:sage [04/03/02 00:08]
相関の高い説明変数をいくら削っても、残った変数の相関係数はゼロじゃないでしょ?
それが2,3個だったらまだいいけど、それ以上になったら標準化偏回帰係数を見ても無駄。

事前に主成分分析をかましたりするんだけど複雑になりすぎる。

399 名前:132人目の素数さん mailto:sage [04/03/02 03:18]
なるほど。
主成分分析をかませば、相関0の説明変数を作れて、
それから、重回帰にかけて、
第1主成分、第2主成分、…の偏回帰係数を比較、
最も寄与の大きい説明変数はどれか?と言われると、困りますね。

だいたい、X1とX2が相関があれば、
X1の寄与が大きくなればX2の寄与も大きくなるから、
X1とX2の寄与が大きい、つまり、
説明変数の合成変数で出てくるのは、当然か。。。

400 名前:132人目の素数さん mailto:sage [04/03/02 03:30]
>348
今さらながらに思うと、
標準化した目的変数と各説明変数を単回帰にかけて相関係数を比較し、
最も相関の高い説明変数は、コレです。
と、言っても良かったのかも知れない。。。
2番目3番目と言われると困るが。。。どうなんでしょう?

401 名前:132人目の素数さん [04/03/02 20:59]
ただの興味本位なんだけど、学生?実務家?

402 名前:399と400 mailto:sage [04/03/02 22:07]
学生です。

403 名前:132人目の素数さん [04/03/03 23:54]
無作為標本についてお聞きしたいことがあります。

ある母集団のある薬の服用について調べたいときに、
その母集団の人々のリストを全て持っているとします。
当然ながら、どの人が服用していて、
どの人が服用してないかはわかりません。
その母集団のリストから無作為抽出にて標本を定めて、
その標本の方々に対して面接にて調査を行ったとします。
その際に、服用していないという方は、調査をやめにして、
服用しているという方のみに調査をして、調査結果をまとめたという、
この結果っていうのは、無作為標本に基づいた結果と言えるのでしょうか?

服用していない方には調査をやめにした、というところがひっかかって、
でも、その薬の飲む頻度とか服用期間とかを知りたい場合は、
服用していない人々に聞いても仕方がないので、っていう考え方もあるし、
果たしてこれって無作為標本に基づくのだろうかっていう疑問が出てきたのです。

説明をつけて教えて下さると幸いです。
よろしくお願い致します。

404 名前:132人目の素数さん mailto:sage [04/03/04 08:13]
自信持って答えられるほどじゃないので、参考程度に。
まず、
母集団=知識・情報を得たいと考えている対象の全体
です。
もちろん、母集団が、”そのリスト上の人々”で、
途中で調査をやめるというのは、無作為標本ではありません。
しかし、母集団=”薬を服用しているそのリスト上の人々”と設定すると、
母集団からの無作為標本になると思います。

405 名前:132人目の素数さん [04/03/05 14:00]
多次元尺度法でお手本になるようなプログラムソース
どこかにないかなと探してます。
C/C++だと一番読みやすいんですけど、知ってる方
いましたら、よろしくご教示ください。よろすく

406 名前:132人目の素数さん [04/03/09 01:44]
g



407 名前:132人目の素数さん mailto:sage [04/03/09 01:45]
128

408 名前:132人目の素数さん [04/03/09 21:09]
大変抽象的な質問で申し訳ありません。以下の質問に答えて頂ければ
幸いです。

ある検査機の不良品感知センサーが正常に作動しているかどうかを
確認するための実験を行いたいと考えております。実験の内容としては、
既知の不良品を良品に混ぜて、それを検査機に流し、既知の結果が得られる
かどうか、というものです。センサーが正常(異常)である、と言えるためには、
どのような実験系を組めばよろしいかと思いますでしょうか?

当方、統計の知識に乏しく、質問も的外れの気もしますが、
よろしくお願い致します。





409 名前:132人目の素数さん [04/03/10 13:23]
区間推定の式に関する質問です。x系列とy系列があって(x,y)のサンプル
とって、M次の多項式回帰したとすますね。つまり回帰式が
y=a0+a1*x+a2*x^2+.....+aM*x^M
でこの式から、あるxに対するyを推定するとします。
これ区間推定で y+-δ のように求めたいのですが、
δ=t_α/2*Se ですよね。
で、それはいいのですが、Se(予測誤差の分散ていうの?)
どうやってもとめるのですかね。
Se=(Σ(y_hati_yi)^2/(N-2)*(1+1/n+(x-x_mean)^2/Σ(xi-x_mean))^2))^0.5
ってのあったんですが、これって回帰式がy=a+bxとかの時だけ
の気がするのですが、、、、何言ってるか分かる賢い人いたら
多項式の場合のSeの式教えてください。

410 名前:132人目の素数さん [04/03/10 13:57]
↑ y_hati_yi ---> y_hat(回帰式からのy)- yi(実際の値)

411 名前:132人目の素数さん mailto:sage [04/03/10 14:49]
>>408
それって全数検査なの、それとも抜き取り?

412 名前:132人目の素数さん [04/03/10 15:19]
412

413 名前:408 [04/03/10 21:03]
>>411さん、
全数検査で考えております。
要は的中率を求めるもので、センサーの精度を見たい訳です。
宜しくお願い致します。



414 名前:132人目の素数さん mailto:sage [04/03/18 01:13]
すいません、数学嫌いなもんで、ちょっと検討がつかないので質問します。
サンプル集団が二つあるとして、その分散の違いを見たいのです。
単純に不偏標準偏差をもとめて比較する以外に方法はありますか?
サンプルのデータのエラーを考慮して比較するぐらいしか思いつきません(涙)



415 名前:132人目の素数さん [04/03/22 15:58]
浮上

416 名前:オラウータン [04/03/22 15:58]
ある集団の平均とその部分である集団の平均が違うとき、それが偶然では
なく違うってのは、どう計算したら良いのでしょうか?



417 名前:132人目の素数さん mailto:sage [04/03/22 21:42]
両方とも正規分布に従うと仮定し、両方の平均が
同じである場合に、実際にそれだけのずれが出来る
確率を求めて、余りにも小さかったら(1%以下とか)
恐らく何か理由があって平均が違うのだろう、と
言うことになる。帰無仮説棄却。

あとは灯台出版会の本で勉強すれ。

418 名前:132人目の素数さん mailto:sage [04/03/23 00:57]
>>414
何がしたいのかそれだけではサッパリわからんが、
等分散性の検定をすればいいんじゃない?
そういう意味じゃないのか?

419 名前:132人目の素数さん [04/03/23 01:17]
>>408
2週間前だからもう調査したのかもしれないけど、
測定器の精度を調べるのにはMSAって方法が一般的となっている。
ISO9000準拠。

(R&R/TV)*100 (%)

420 名前:132人目の素数さん [04/03/24 01:31]
サイコロの目の出方がちゃんとしてるかどうか調べるには
どうやって調べればいいのでしょうか?
たとえば
1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6
って感じで目が出たとすると、
各目の出る確率は1/6で正しいのですが、
目の出方が普通じゃないですよね? 順番に出てる。もっとランダムに出るべきなのに。
こういうのをおかしいって判定することはできるのでしょうか?

421 名前:132人目の素数さん mailto:sage [04/03/24 01:45]
>>420
「母比率の検定」でぐぐる

422 名前:132人目の素数さん mailto:sage [04/03/24 02:41]
>>421
母比率の検定では>>420のデータは異常なし?

423 名前:132人目の素数さん mailto:sage [04/03/24 02:55]
母比率の検定では無理な気がするが…

普通にプロットして考えるといいのでは?
c管理図の要領。
「周期的に同じ傾向が現れる」というのは、
管理図では異常の可能性ありとみなす。

他には、
14連続交互増減、平均値以下(以上)が4連続以上出現、
連続6点増加(減少)、±1σ領域に点が集中(サイコロなら3,4)
このあたりは実際にどれほど起こらないか、
自分で確率を計算すればわかると思う。

424 名前:421 mailto:sage [04/03/24 02:57]
ごめん>>420最初の2行と最後の1行だけしか読んでなかった

425 名前:132人目の素数さん [04/03/25 19:55]
すいません、さんざん既出とは思いますが、統計学を学ぶにあたってバイブルや良書はありますでしょうか?
携帯なので過去ログは勘弁して下さい
私はまったくの統計学初学者です
できれば返答お願いしますm(__)m

426 名前:132人目の素数さん [04/03/26 00:51]
統計学入門
東京大学教養学部統計学教室編
東京大学出版会



427 名前:132人目の素数さん mailto:sage [04/03/26 02:06]
>>426
ありがとうございます!
早速明日探してきますm(__)m

428 名前:132人目の素数さん [04/03/27 01:56]
統計学を学ぶ先輩方に質問なのですが、
大学でやるような問題ならだいたい解ける、というレベルに達するまで一日何時間勉強して何ヵ月(または何年)かかりましたか?
もちろん個人差があると思いますのでだいたいで結構です
小学生みたいな質問ですが、これからの勉強の指標にしたいのでお願いします

429 名前:132人目の素数さん mailto:sage [04/03/27 03:04]
「大学でやるような問題がだいたい解ける」という書き方が本当に小学生みた・・ゲホンゲホン
とりあえず高卒程度の知識があるのなら、

1.一般教養課程で統計学の単位をとる→1〜2日
2.専門課程で統計学の単位をとる→数日
3.数学科以外(経済、工学、農学等)で統計学の知識を利用した論文を書く→数日〜数週間
4.数学科で統計学をテーマとした論文を書く→数ヶ月〜数年

ぐらい?誰か適当にフォローして。
因みに1と2は「本質的な理解をしてなくても単位が取れればいい」という場合の日数ねw

430 名前:132人目の素数さん [04/03/28 01:28]
基地外な宿題に答えてください。
20回サンプルされました。平均は10.432、標準偏差は3.237ですた。
(あ)98%信頼区間を求めよ ←こんなのはまあいい
(い)信頼区間を+-0.001にするには何回サンプル取ればいいか?
は?そんなん莫大なサンプル数になると思うんですが、、、
これはt分布表使うやり方でいいんですよねえ。
サンプル数変わっても平均と標準偏差は一定と仮定でいいんでせうか?
莫大な答えになって、こんなんでいいのかと思わせる問題はやめて
いただきたいのだが、、、

431 名前:132人目の素数さん mailto:sage [04/03/28 06:20]
計算してないから莫大って言うのがどれくらいか分からんが、
時間空間コストの現実性は対象依存だろ。

432 名前:132人目の素数さん [04/03/28 17:14]
大数の法則か。

433 名前:132人目の素数さん [04/03/30 16:01]
すいません、質問します。

一様最小分散不偏推定量と最小分散不偏推定量についての
違いというのはあるのでしょうか?

本によってはどちらかしか載っていなかったので、
ちょっと気になりました。くだらない質問ですがお願いします。

434 名前:132人目の素数さん [04/03/30 18:08]
>>425
どういう人かわかりませんので、>>426の東大出版会の
本でもいいかと思いますが、それが難しいようでしたら、
「はじめての統計学」鳥居泰彦著もよろしいかと思います。
社会人の人や、普段数学を全くやっていない学生に統計学を
したいと聞かれたときには、こっちのほうを勧めています。



435 名前:132人目の素数さん mailto:sage [04/03/30 20:44]
自分も母標準偏差と標本標準偏差でのn-1の疑問について
正確に理解せねばならなくなりました。

ttp://trao2go.hp.infoseek.co.jp/toukei1.pdf
消えてしまったみたいですが・・・・何処かに良い説明がないものか

436 名前:132人目の素数さん mailto:sage [04/03/31 06:55]
>>435
あー、再アップしときました。
前回指摘された部分は直してません。

ご存じかと思いますが、もともとは分散用に書いたので、
適宜読み替えて下さい。



437 名前:132人目の素数さん mailto:sage [04/03/31 14:34]
アップありがとうございます
早速、拝見させていただきます

438 名前:132人目の素数さん [04/04/03 15:25]
医学的な評価(かなり重篤・重篤・やや問題あり・問題なし等)の解析を
する場合

かなり重篤:4
重篤:3
やや問題あり:2
問題なし:1
のスコアを重篤度に割り当てて

処理前と処置後を比較する場合(1群比較)⇒ウィルコクソンの符号付順位検定
実薬とプラセボを比較する場合(2群比較)⇒マン・ホイットニー検定(ウィルコクソンの順位和検定)
でOKですか?
また、スコアの割り当て方はこのように単純な割り当て方で大丈夫でしょうか?

439 名前:132人目の素数さん mailto:sage [04/04/04 15:31]
誘導されたのでこちらへ

例として言えば
1/100=100/10000
↑数学上は=なんでしょうが実際問題同じじゃないと思うのです

たとえば、なにか揉め事があったとして
100人の中の1人が自分の味方をしてくれるのと
10000人の中の100人が自分の味方をしてくれるのでは全然違うと思いませんか?

10発のうち1個玉が入ってるロシアンルーレットと
100発のうち10個玉が入ってるロシアンルーレットどっちを選びますか?


440 名前:132人目の素数さん [04/04/04 17:19]
>>439
分散を計算せんと。

441 名前:132人目の素数さん [04/04/04 18:15]
>>439
数学上はではなく
そこでの = は、平均値が等しいという意味。

何が等しいと言っているのかを指定しないと
意味がない。

例えば、単位の違うもの、
長さ = 面積
みたいなことはしてはいけないでしょ。
数学上でも、こういうのはしてはいけない。

割合とか、確率とかが等しいか否かというのは
平均値だけでは決まらないので
違うものだと感じるのも仕方ない。

442 名前:132人目の素数さん [04/04/09 23:06]
SDEに関する推定の問題って扱ってる人知ってますか?
ファイナンスで使いたいんですが・・・
あと,ジャンプのあるやつとか,推定できるんですか?

443 名前:132人目の素数さん [04/04/11 04:53]
最小二乗法(多項式近似)に関する質問。
ちょっと数学的センスが必要かも。

あるデータを多項式で近似しようとして、丸ごとだと、あんま近似よくない
から、区間をいくつかに分けてそこで多項式近似するとします。
区間の境界の点どうしますかね?区間ごとの多項式曲線無理やりつなげるの
はさすがによくない気がしますが。。。
正解は一つではなくてようはアイデアの問題でしょうが、
なかなかいいアイデアが浮かばない。。

444 名前:132人目の素数さん [04/04/13 03:56]
>443
ひとつのアイデアとしては、
X1<境界点X2<X3で、予測がx<X2でf(x)、X2<X3でg(x)のとき、
X1<x<X3の予測を
f(x)*p+g(x)*(1-p) ただし、p=(X3-x)/(X3-X1)
と重み付けしてやるとか。
滑らかにしたかったら、場合分けの範囲を被らせてやるとか。
でも、滑らかにしすぎると、場合分けした意味がなくなる予感。

445 名前:132人目の素数さん [04/04/13 04:41]
>442
専門じゃないので、かじっただけですが、
多分、SDE=Stochastic Differencial Equation(確率微分方程式)
のことだとして、とりあえず、
ファイナンス,確率微分方程式、(ジャンプ)
で、ぐぐってみると、どれだけの人がやってるかわかるかと。
伊藤さん、ブラックショールズさんとか余裕という人なら、すいません。


446 名前:132人目の素数さん [04/04/13 19:38]
>443
区分の境界点で、推定値が連続した値をとるようにした関数で、
スプライン関数というのがあるそうな。
ノンパラメトリック回帰の分野になると思われます。
カーネル関数を用いて局所的にやる方法もあるらしい。




447 名前:132人目の素数さん [04/04/13 21:29]
凸包の中から一様にサンプリングするアルゴリズムを
誰か考えてください。
お願いします。

448 名前:132人目の素数さん [04/04/14 02:31]
>438
昔は、1群比較でやっていましたが、今は、
処置前と処置後を比較する場合(1群比較)は、
治療以外の要因による見かけの治癒、軽快
例、心理学的作用(患者側、医者側ともに)、自然治癒軽快など、
による要因の作用を取り除けないので、
やはり、対照群を置く、2群比較でデザインするようです。
要するに、1群比較だと、治療以外の要因じゃないんですか?と突っ込まれても
反論できない。>意味ないじゃん

スコアの割り当ては、それだけじゃ、なんとも。
まぁ、普通はそれでいいと思いますが。






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧](;´∀`)<314KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef