無作為抽出
[Wikipedia|▼Menu]

この記事は検証可能参考文献や出典が全く示されていないか、不十分です。
出典を追加して記事の信頼性向上にご協力ください。(2008年1月)
「あたり玉」と「はずれ玉」で構成される集団から、標本を無作為抽出する装置

無作為抽出(ランダム・サンプリング、英:random sampling)とは、ある集団から標本(サンプル)を無作為(ランダム)に抽出(サンプリング)する行為のことである。日本工業規格では、「無作為標本」の項で、「無作為な選択方法によって選んだ標本」と定義している[1]
目次

1 概要

1.1 無作為抽出の手法

1.1.1 ランダマイザー

1.1.2 非復元抽出と復元抽出



2 統計調査における無作為抽出

3 統計調査における無作為抽出の手法

3.1 標本抽出枠と乱数の生成

3.2 単純無作為抽出法

3.3 系統抽出法

3.4 層化抽出法

3.4.1 比例配分法

3.4.2 最適配分法


3.5 クラスター抽出法

3.6 多段抽出法


4 標本調査における無作為抽出と有意抽出の比較

5 関連項目

6 脚注

6.1 注

6.2 出典


7 参考文献

概要

その名の通り、ある集団から要素を抽出するのに、作為的な手順を使わないことが特徴である。そのため、無作為抽出法によるサンプリングを行うと、集団の全ての要素が同じ確率で抽出されることになる。

標本調査における標本の抽出法には、全体から無作為に抽出する「無作為抽出」の他に、全体から作為的に抽出する「有意抽出」がある。例えばクラスの掃除当番を選ぶ場合、「出席簿からくじで無作為に抽出した出席番号の生徒を掃除当番に任命する」のが無作為抽出で、「先生が気に入った奴を掃除当番に任命する」のが有意抽出である。無作為抽出の方が客観的な公平性が担保でき、「段ボールで自作したルーレット」や「印刷に失敗したプリント用紙の裏紙で自作した抽選箱」など割と簡単に道具を作れるので、民間でも割とカジュアルに行われている。仮に「無作為抽出」と称していても、客観的な無作為性が担保できない場合、例えば「出席簿でたまたま目についた奴を何名か無作為に掃除当番に任命する」などは、先生が気に入った奴を有意抽出している可能性が客観的に排除できないので、無作為抽出ではない。

統計調査にも使われる。「割りばしで自作したので特定の番号の物がいつもささくれで引っかかる抽選機」などの精度の低い乱数発生器を使用したことによる無作為性(ランダムネス)の低さは、「掃除当番を選ぶ」などの場合は単に「クジ運が悪い」として我慢してもらえば問題にならないものの(それでも限度があり、あまり悪いと有意抽出と同様にクジ運ではなく先生が恨まれることになる)、統計調査などの学術的調査では標本誤差の元となるので、問題となる。「有意抽出」や、「無作為性の低い無作為抽出」では、正確な統計調査にならない。なので、統計調査として行われる標本調査では、有意抽出ではなく、かならず無作為抽出が使われる。また、人力で調査を行うことによるコストや労力との兼ね合いを取りながら、なるべく無作為性が高くなるように様々な手法が工夫されている。

工業製品の「抜き取り検査」でも、無作為性が低いと不良品の率が正確に解らず、自社検査にパスしたのに出荷先の検査で段ボールの底の方から不良品が大量に見つかって会社の信用がピンチになるので、たとえコストがかかっても無作為性を確保することは重要である。特に、倉庫や段ボールの奥の方に積まれたものを検査するのがマンパワー的に難しく、完全な無作為抽出をせずに上の方だけ適当に検査する事があるので、製品全体の無作為抽出が楽にできるような工夫が必要である。

カードゲームなどのテーブルゲームでも、無作為抽出であることは重要である。ゲームで無作為抽出のように見せかけて自分の欲しい手札を引く「イカサマ」と言うテクニックがある。アナログのゲームにおける無作為抽出は、コンピューターゲームとは違ってコンピューターを使った無作為抽出を行わず、全て人力で行うことが特徴なので、その分イカサマがしやすいが、絶対に行ってはいけない。

手品でも、タネも仕掛けもない無作為抽出であることが強調されるが、実はタネも仕掛けも仕込まれているので無作為抽出ではない(ただし、実はトランプの裏に目印が書いてあるものを抽出している、などと言うネタばらしは礼儀としてタブーであり、絶対に行ってはいけない)。
無作為抽出の手法
ランダマイザー

直接、ある集団の全ての要素を無作為に配列(ランダマイズ)し、そこから任意の要素を抽出する方法と、まず、ある集団の全ての要素で構成される任意の配列のリスト(標本抽出枠)を作り、標本抽出枠のそれぞれの要素に連番を振り、乱数生成器で無作為な乱数を生成し、出て来た乱数と同じ番号が振られた要素を標本として標本抽出枠から抽出する方法がある。

例えばトランプや抽選機では、ランダマイズされたものから任意のカードやボールを引くことによって無作為抽出が行われる。トランプではシャッフル、抽選機では回転(俗にガラガラと言う)によってランダマイズが行われる。一方、統計調査などで、人間を無作為抽出する場合は、複数人の人間をまとめてシャッフルできる巨大生物でもない限り、まず調査対象となったある集団(母集団)の全ての人間がリストアップされて連番が降られた標本抽出枠を作って、そこから乱数発生器で乱数を生成して要素を無作為に選んで抽出する方法が使われる。

コンピューターやサイコロなど、要素を無作為に配列したり乱数を発生させたりする装置のことをランダマイザーと言う。カードやボールを直接ランダマイズして無作為抽出する場合は、カードやボール自体が標本抽出枠であると同時にランダマイザーとなる。テーブルトークRPGボードゲームでプレーヤーや次のアクションなどを無作為抽出する場合は、ランダマイザーとして「多面ダイス」と言う特殊なサイコロが使われることがある。身近なランダマイザーとしてはコイントスがあり、ボードゲームではかなり使われるが、「0(表)」と「1(裏)」しか生成できないので、標本調査や抜き取り検査では普通は使わない。標本調査や抜き取り検査での無作為抽出におけるランダマイズはコンピューターを使うのが普通だが、コンピューターを使わないボードゲームではアナログのランダマイザーを使うのが普通である。現代では100円ショップでランダマイザー(ダイス、サイコロ、ルーレットなど)が購入できるほか、ホビーショップでもテーブルトークRPG用の様々な多面ダイスが安価に購入できる。

抽選機や全自動麻雀卓など、「ランダマイザー」が無作為抽出におけるランダマイズから抽出までの一連の作業を同時に行ってくれる場合もある。
非復元抽出と復元抽出

無作為抽出を何度か繰り返して行う場合、既に抽出された要素を母集団から除外して無作為抽出を行う「非復元抽出」と、抽出された要素を除外せずに再び母集団に戻して無作為抽出を行う「復元抽出」がある。

例えばクラスの生徒から掃除当番を決める無作為抽出において「復元抽出」を行った場合、同じ人が何度も繰り返して掃除当番に選ばれる可能性が有り、不都合が生じるので、なるべく「非復元抽出」を行うことが望ましいが、例えばサイコロで無作為抽出を行う場合、既に出た出目が再び出る可能性を原理的に排除できないなど、「非復元抽出」を行うのが難しい場合がある。また、母集団が非常に大きく、抽出される要素数が非常に少ない場合、同じ人が何度も繰り返して抽出される可能性は非常に小さいので、無視されることがあり、「復元抽出」がしばしば使われる。
統計調査における無作為抽出

統計調査として行われる標本調査における無作為抽出とは、ある調査対象の全体(母集団)から調査対象となる標本を無作為に抽出する行為のことである。標本調査の基本となる手法である。統計調査には「標本調査」の他に、母集団の全数を調査する「全数調査」があるが、母集団が大きかった場合は全数を調査すると費用や手間なども大きくなるため、標本調査が行われる。

無作為抽出を行なえば、統計学の見地に照らし合わせて、標本調査の結果から母集団における平均値や比率などが推定出来る。また、母集団からの無作為抽出は、完全に確率的に現れると言えるので、同じく統計学の見地に照らし合わせて、母集団の推定値(=母数)の誤差の大きさを見積もる事が出来る。

推測統計学を創始したとされるR.A.フィッシャーは、イギリスの農事試験所に14年間勤め、この時期に分散分析法を完成させた。差の有無などの検証にも無作為抽出が理論的前提となった様々な手法が使われる。
統計調査における無作為抽出の手法

統計調査における無作為抽出の手法は、母集団の全ての要素を対象として単純に無作為抽出を行う単純無作為抽出が最も基本的な方法だが、標本抽出枠が大きかった場合は費用や手間なども大きくなるため、人間が人力で標本調査を行う上で、単純無作為抽出法を使うのは難しい場合も多い。また、単純無作為抽出法では、隣り合った要素同士が選ばれたり、3個以上連続した要素が選ばれる可能性が有るため、例えば市内の高校生の代表を何名か無作為抽出する場合、ワルばかりいる高校の生徒を連続してサンプリングしてしまう可能性が有るなど、標本の精度が悪くなる(標本誤差が大きくなる)恐れがある。

そのため、「単純無作為抽出法」よりも手間や費用が少なくなるような、あるいは「単純無作為抽出法」よりも標本の精度が高くなる(標本誤差が少なくなる)ような、様々な手法が存在する。主な方法としては、系統抽出法、層化抽出法、確率比例抽出法、多段抽出法などがある。どのような方法を取っても、最終的に全ての要素で抽出される確率が同じなら、無作為抽出である。逆に言うと、たとえ自分では無作為に抽出したつもりでも、最終的に各要素・層・クラスター(集団)ごとで抽出される確率にばらつきがあれば、それは無作為抽出ではない。

現実的な調査では、いくつかの無作為抽出法を組み合わせたり、無作為抽出による標本調査と全数調査を組み合わせて使われることも多い。
標本抽出枠と乱数の生成 乱数生成器で乱数を生成する 標本抽出枠から要素を標本として抽出する

統計調査における無作為抽出の前提として、まず母集団から無作為抽出するための「標本抽出枠」(sampling frame)を用意する必要がある。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:37 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:FIRTREE