HOME > テクニカルサポート > SYSTAT > 統計学について
ヒューリンクステクニカルサポート
SYSTAT に関する皆様からのご質問のうち、よくある質問を掲載しました。
SYSTAT 11 テクニカルサポート
SYSTAT 製品ページ

統計学について

Leland Wilkinson

「統計学 (statistics)」と「状態 (state)」の語源は同じです。 「統計学 (statistics)」 とは「状態 (state)」の数です。 もっと一般的に言うと、統計とは観察値を形式に従って要約した数値またはシンボルと言うことになります。 要約は誤解の元にもなれば、説明する元にもなります。 また、統計学は、学校では最も嫌われる科目とも言われます。 ただ、正しく学びさえすれば、誤りを導くのではなく事物の本質を見極めるための数値の使用方法を身に付けることができます。

統計学は、確率、データ分析、モデル化、社会政策、意思決定など、さまざまな分野に応用されています。 哲学的には相容れなくても、統計学者は、少なくとも 2 つの基本的な仕事、つまり記述と推測の相違を理解しています。「記述」とは、一連のデータの特徴を単純明快に示すことです。 「推測」とは、1つのデータ標本から大規模なデータ母集団への一般化を行なうことです。 記述統計は正確な観察に、推測統計は定式化と仮説検定に役立ちます。

このような記述統計と推測統計の区別を明確に理解する必要があります。この 2 つの相違を理解するために、いくつかの例を見てみましょう。


記述統計

記述統計とは、単純なものは、平均値など、ある集まりを要約する数値を求めることですが、もう少し複雑な表やグラフを作成することもあります。 記述統計の特徴は、一般的な母集団やクラスではなく、与えられたデータの集まりを対象にすることです。 例外もありますが、通常は、記述統計は、一連のデータの構造を理解するために使用されます。 記述統計は、探索的データ分析と呼ばれる分野と密接に関連しています。 探索的な方法と記述的な方法のどちらでも、法則の公式化や仮説検定を行なうことに変わりはなく、対象となるデータは与えられたデータです。

たとえば、次のデータを調べてみましょう。 このデータは、米国での1985 年度の犯罪の逮捕者の数を男女別に表したものです。 このデータは、FBI Uniform Crime Reports から引用しました。 米国での1985 年度の犯罪の逮捕者の数は、男女間で、どのような相違があるのでしょうか。

CRIME MALES FEMALES
murder 12904 1815
rape 28865 303
robbery 105401 8639
assault 211228 32926
burglary 326959 26753
larceny 744423 334053
auto 97835 10093
arson 13129 2003
battery 416735 75937
forgery 46286 23181
fraud 151773 111825
embezzle 5624 3184
vandal 181600 20192
weapons 134210 10970
vice 29584 67592
sex 74602 6108
drugs 562754 90038
gambling 21995 3879
family 35553 5086
dui 1208416 157131
drunk 726214 70573
disorderly 435198 99252
vagrancy 24592 3001
runaway 53808 72473

データを観察する

まず、注意深く、このデータの特徴を観察する必要があります。 この統計には、米国の犯罪のすべてが網羅されているわけではありません。 たとえば、夜間外出禁止令違反や徘徊罪は含まれていません。 この統計には、すべての犯罪が含まれているわけではありません。 誤認逮捕も含まれている可能性があります。 また、州によって犯罪の定義が異なる場合もあります。 当局が政治的な目的で、意図的に逮捕統計を修正しているかも知れません。 データは、使用する前に、その出自を確認する必要があります。

合計、平均、および標準偏差

この 1985年度の犯罪統計では、女子よりも男子の逮捕者の方が多かったのでしょうか。 次の出力を見れば、その答えが分かります。 男子が逮捕された犯罪は(逮捕者の数ではありません、複数の犯罪で逮捕されている者もあるため)、5,649,688 です。 女子の逮捕数は1,237,007 回です。

1 つの犯罪の平均逮捕数 (mean) はどうでしょうか。 この値は、男子では 235,403、女子では 51,542 です。 平均値は、要約統計として意味があるのでしょうか。表の他の統計値、標準偏差は、平均値近辺の数値がどの程度異なるかを示しています。 標準偏差とは、観察値の平均値からの偏差の二乗の平均の平方根です。 この例では、問題もあります。 まず、池の中の魚体の数、クラスの平均児童数、1 立方ミリメーター内の赤血球の数など、平均値および標準偏差は、統計データの中で平均を観察できるものでなければなりません。 「平均殺人、強姦、強盗、脱獄犯罪」などと言えるでしょうか。 次に、平均値が記述的に意味があるとしても、犯罪-逮捕統計として使用することに意味があるかどうかを考えてみる必要があります。 それには、これらの数の分布形状を調べる必要があります。

幹葉図

これらのデータを、もう少し穏やかに圧縮して表示してみましょう。 幹葉図はレシートに似ています。 最大桁の数字を取り、次の数字をその右側に記録します。 最後の桁を記録することで、データ内の特別な桁を保持します。 この集計の形状に注目してください。 ほとんどの犯罪の逮捕者は少なく、逮捕者の多い犯罪 (窃盗罪や酒気帯び運転など) は僅かです。 つまり、データは、男子と女子の両方が多い方に正に歪んでいるといえます。

Stem and Leaf Plot of variable:        MALES, N = 24
Minimum:     5624.000
Lower hinge:    29224.500
Median:    101618.000
Upper hinge:   371847.000
Maximum:  1208416.000

0 H 011222234579
1 M 0358
2   1
3 H 2
4   13
5   6
6
7   24
* * * Outside Values * * *
12   0

Stem and Leaf Plot of variable:      FEMALES, N = 24
Minimum:      303.000
Lower hinge:     4482.500
Median:     21686.500
Upper hinge:    74205.000
Maximum:   334053.000

0 H 00000000011
0 M 2223
0
0 H 6777
0   99
1   1
1
1   5
* * * Outside Values * * *
3   3

中央値

データがこのように歪んでいる場合は、平均値は、数値の多数の中心から小数の極端な値の方向に引き寄せられます。 中央値は、このような極端な値に影響されない統計値です。 中央値は、データ値の中央の値です。 もっと正確に表現すると、データをソートした場合、中央値は真中の値または 2つの中間値の平均値になります。 男子の中央値は 101,618、女子の中央値は 21,686 であることに注目してください。どちらも、平均値に比べてかなり小さく、数値の多数の代表です。 そのため、収入、人口、反応時間など、歪んだデータを表す場合に、中央値がよく使用されます。

ただ、中央値にも、平均値と同じような問題があります。 中央値が、この統計データの真のデータ値に一致していたとしても (この場合は、観察値が偶数ですから一致しません)、何を表しているかを知るのは困難です。

ソート

ほとんどの人は、主要な記述統計値として、平均値、標準偏差、および中央値を頭に浮かべます。 これらの統計値は、観察値が 1 つの変数の値を表している場合には、要約数量として有益です。 簡単に計算できても、これらの統計値が意味をなさない例を意図的に選択してみました。 これらのデータのパターンを調べる良い方法があります。 データの構造を調べる方法として、データのソートを見てみましょう。

以前に、シカゴの機械投票による不正行為の調査を行なっていた FBI のエージェントと話をしたことがあります。 そのエージェントは統計学者だったため、彼が不正の証明に使用した統計手法に興味がありました。 彼は、「投票者の登録テープの姓をアルファベット順にソートし、重複している名前と住所を探しました。」と答えました。 データのソートは、最も基本的で強力なデータ分析法の 1 つです。 たとえば、幹葉図には、データがソートして表示されます。

任意の数値変数または文字列変数に基づいてソートを行なうことができます。 目的に合わせます。 この章は、「米国での 1985 年度の犯罪の逮捕者の数は、男女間で、どのような相違があるのでしょうか。」という質問で始めました。逮捕数を男女別にソートしたらどうでしょうか。 そうすれば、頻度の多い順に並んだ男女別の犯罪のリストが得られます。

MALES FEMALES
dui larceny
larceny dui
drunk fraud
drugs disorderly
disorderly drugs
battery battery
burglary runaway
assault drunk
vandal vice
fraud assault
weapons burglary
robbery forgery
auto vandal
sex weapons
runawa auto
forgery robbery
family sex
vice family
rape gambling
vagrancy embezzle
gambling vagrancy
arson arson
murder murder
embezzle rape

類似の犯罪を線で結ぶとどうなるでしょうか。 線の交点の数が、ランクの差を表しているのではないでしょうか。

標準化

このランク付けは、数によって影響されます。 最も頻度の高い犯罪が、両群の一番上になります。 犯罪内の比較は、この影響によってマスクされます。 たとえば、強姦罪で逮捕された男子の数は女子の 100 倍ですが、強姦は両者のリストの一番下になっています。 逮捕率を変えずに犯罪パターンに関する男女の比較を行なう場合は、データを標準化する必要があります。 データを標準化する方法はいくつかあります。 適性検査の得点の標準化について耳にしたことがあるかもしれません。 通常は、得点から平均値を減算し、標準偏差で除算します。 単に行または列の合計で除算する方法もあります。 この犯罪のデータでは、行内の合計で各犯罪の逮捕数を除算することにします。 そうすることによって、それぞれの犯罪を犯した男子または女子の逮捕数の割り合いが得られます。 したがって、この 2 つの割り合いの合計は 1 になります。

この標準化した値の男女間の比較により、犯罪のタイプの、逮捕数のパターンの偏差が明らかになります。 男子の数値から女子の割り合いを減算すれば、男子の逮捕数が多い犯罪は正の値に、女子の逮捕数が多い犯罪は負の値になります。 次に、この差をソートしてグラフにプロットしてみます。 その結果を以下に示します。


推測統計

標本によっては、記述統計以上の分析を要することがあります。 一般化、政策の定式化、仮説の検定などを行うには、推測が必要です。 推測を実行するには、データを無作為にサンプリングした、より一般的な母集団を記述したモデルを考える必要があります。 時には、データを収集した母集団を想像することのできない場合があります。 母集団は、「全投票者」であったり、「この実験の追試のすべて」や「映画に行ったすべての人」かも知れません。 推論を立てるときは、母集団を頭に思い浮かべる必要があります。

母集団について

推測統計を使用して、「Who's Who in America」の1980 年版に収録された、例外的な母集団の平均年齢を推定してみることにしましょう。 73,500 名分すべての年齢を SYSTAT ファイルに入力すれば、正確な平均年齢を計算することができます。 これが実際的な方法なら、最も確実な方法と言えます。 ただし、時と場合によっては、標本のサンプリングによる方法がすべての調査データを使用する方法よりも正確なことがあります。 たとえば、大規模な調査では、回答拒否、キーパンチやコーディングのミス、その他の原因などにより、正しくないデータが紛れ込んでいることがあります。 このような場合には、細心の注意を払って収集した無作為標本の方が、母集団についての情報が正確な場合があります。

ここで問題にしているデータは、本に掲載された例外的な母集団ですから有限です。 お金持ちで有名な人の平均年齢を推測しようとしているのではありません。「Spy」誌には、「Who's Who」に掲載されていないすべての有名人を一覧表示した欄がありました。 それに、このナンセンスな一覧表は、「Who's Who」の調査員のような慎重な事実確認を行なっているかどうか疑問です。 推定が得られたら、この本を超えて一般化したい誘惑に駆られますが、それは間違いです。 たとえば、心理学者が大学2 年生のクラスの無作為標本の意見を測定した場合、その結論は、「この大学の2 年生は、、・・・と考えている」と言うことになるでしょう。 この結論の「この大学の2 年生」という語句を「人々」という語に置き換える場合、実験者は、この結果に影響を与える可能性のあるすべての属性について、この標本がより大きな群を代表していることを明らかにしなければなりません。

単純無作為標本の抽出

母集団が有限であることは、標本がその母集団よりはるかに小さい限り、問題はありません。 そうでない場合は、特殊な方法を使用して、有限であるために生じる偏りを補整します。 どうしたら、母集団から単純無作為標本を選択することができるのでしょうか。 所定の大きさの、どの標本も、選択される機会が等しくなる方法を使用します。 次に示す方法は、無作為ではありません。

  • 10 ページごとに最初の名前を拾い出す (ある名前には選択される機会がまったくない)。
  • 目を閉じてページを繰り、名前を指差す (Tversky とそのグループの調査によれば、人の動作は無作為ではない)。
  • 姓の最初の文字を無作為に選択し、その文字で始まる名前を無作為に選択する (I で始まる名前より C で始まる名前の方が多いなど無作為ではない)。

書籍やファイルなど有限の母集団から無作為に選択する方法は、それぞれの名前、つまりケースに番号を割り当て、番号の標本を無作為に選択します。 たとえば、SYSTAT で次の式を使用して1 ~ 73,500 の乱数を生成することができます。

1 + INT(73500*URN)

ただし、この方法を使用するには、「Who's Who」のページ数が多すぎます。 私は、乱数発生機能を使用してページ番号を無作為に生成し、そのページから名前を拾いました。 この方法は、各ページに掲載されている名前の数が大体同じであれば (この場合は 19 ~ 21) 有効です。 選択した標本を以下に示します。

AGE SEX AGE SEX
60 male 38 female
74 male 44 male
39 female 49 male
78 male 62 male
66 male 76 female
63 male 51 male
45 male 51 male
56 male 75 male
65 male 65 female
51 male 41 male
52 male 67 male
59 male 50 male
67 male 55 male
48 male 45 male
36 female 49 male
34 female 58 male
68 male 47 male
50 male 55 male
51 male 67 male
47 male 58 male
81 male 76 male
56 male 70 male
49 male 69 male
58 male 46 male
58 male 60 male

モデルを指定する

年齢に関する推論を立てるために、この母集団のモデルを構築する必要があります。

a = μ + ε

このモデルは、この書籍から抽出した人の年齢 (a) を、全体の平均年齢 (μ) とその人に固有の、非常に多数で無意味のため系統的に記述することのできない無作為要因による誤差の量 (ε) を加算したものとして表わすことができることを示します。 直接観察することのできないものをギリシャ文字で、観察できるものをローマン体の文字で表わしていることに注意してください。 モデル内の観察できない値 μ はパラメータと、ε は確率変数と呼ばれます。 パラメータとは、母集団を記述するための定数です。 パラメータは、モデルが、類似した母集団のモデル ファミリーの事例にどれほど近いかを示します。確率変数は、投げた硬貨の表裏のように変化します。

確率変数 ε に関しては、さらに 2つのパラメータが存在しますが、このモデルの方程式には示されていません。 その 1つは平均値 (με) で、0 と見なし、もう一つは標準偏差 ( σε または単なる σ) です。 a は、μ (定数) と ε (確率変数) の単なる合計ですから、その標準偏差も σ です。

モデルを推定する

母集団全体のサンプリングをしていないため、データからパラメータの値を直接計算することはできません。 大きな母集団の一部の標本しかありませんが、標本データを統計的に処理して、パラメータの値を推定することができます。 前述の 3 つの仮定が成立する場合は、標本の平均値を母集団の平均値と見なすことができます。 詳細に詰めなくても、標本の推定値は、概して、母集団の平均値に近くなるはずです。

SYSTAT では、さまざまな方法を使用して平均値の推定を行うことができます。 その 1つに、線形回帰を使用してモデルを指定する方法があります。「AGE」を選択し、「従属変数」リストに追加します。 コマンドを使用する場合は、次の行を入力します。

REGRESSION
MODEL AGE=CONSTANT

このモデルは、AGE が定数値 (μ) の関数であることを示しています。 残余は誤差 (ε) です。 基本統計ルーチンを使用して平均値を計算する方法もあります。その結果を以下に示します。

  AGE
N OF CASES 50
MEAN 56.700
STANDARD DEV 11.620
STD. ERROR 1.643

「Who's Who 」に掲載されている人々の推定平均年齢は 56.7 歳です。

信頼区間

前のセクションで求めた推定値は合理的なようですが、完全に正確なわけではありません。 大きさ50 の標本を使用して計算した場合、推定値はどの程度変化するのでしょうか。 まず、何も数学的な手法を用いなくても、標本のサイズが大きければ大きいほど、それだけ推定値は母集団の μ 真の値に近づくことは明らかです。 つまり、母集団全体のサンプリングが可能なら、推定値は真の値になります。 その場合でも、標本推定値の偏差は、標本の大きさと母集団の年齢の偏差のみの関数です。 母集団の大きさ (この人名録に掲載されている人数) には依存しません。 また、標本平均の標準偏差は、母集団の標準偏差を標本の大きさの平方根で除算した値です。 この平均値の標準誤差は、前のセクションの出力に 1.643 として表示されています。 したがって、標本の大きさが 50 の場合、平均年齢の標本推定値は、プラス マイナス 1.5 歳程度です。

平均年齢の標本の分布の形状が分かれば、推定値の正確さについての説明を補強することができます。 非常に良く適合する近似があります。 標本の大きさが合理的であれば (たとえば、25 以上)、単純無作為標本の平均値は、ほぼ正規分布になります。 標本のサイズが大きい場合は、母集団の分布が正規分布ではなくても、これは当てはまります。

これで、標本から、標本平均の分布の正規近似を求めるのに必要な情報が得られました。 次の図は、この近似が、56.7 歳の標本推定値を中心としていることを示しています。 標準偏差は、平均値の標準誤差 1.643 歳から得られます。

このグラフは、曲線の下側の全領域の 95% が中心の領域 (53.5 ~ 59.9) に収まるように描画されています。 この正規近似の 95% 対称信頼区間から、推定値のばらつきを考察することができます。 この手順をもう一度完全に繰り返せば、すなわち、50 の名前を抽出し、その平均値と標準誤差を計算し、正規近似を使用して95% 信頼区間を設定すれば、100 のうちの 95 の区間が母集団の真の平均年齢をカバーしていると考えることができます。 母集団平均年齢は、必ずしも設定した区間の中心に存在する必要はありませんが、設定した区間はその近傍にあると考えて差し支えありません。

仮説検定

標本平均およびその標準誤差から、その平均値についての仮説検定を行うこともできます。 「Who's Who」に掲載されている人々の推定平均年齢は 61 歳であると考えている人がいるとします。 とにかく、くじ引きにより、例外的な標本を抽出したとします。 たとえば、母集団平均年齢が 61 歳で、標準偏差が 11.62 であるとします。 標本平均年齢が 56.7 歳であることが分かる確率はどのくらいでしょうか。 もし、その可能性が非常に低いとしたら、母集団平均が 61 であるとの、この帰無仮説は棄却されるでしょう。そうでないときは、この仮説を棄却するわけにはいきません。

この帰無仮説に対する対立仮説を表わす方法はいくつかあります。 単純対立値 56.7 歳を作成します。 ただし、通常は、代替合成関数を作成します。つまり、この関数は値 61 を含まない可能性の範囲を表わします。それを以下に示します。

H0 : μ = 61 (帰無仮説)

HA : μ ≠ 61 (対立仮説)

標本平均値が 61 の母集団平均値をそれらしく生成する値のセットから外れている場合は、この帰無仮説を認めることはできません。 この「それらしく」というのは、一般に検定の臨界値として認められるより、もっとあり得るという意味です。 この値は通常は 0.05 です。 100 の標本で 5 回未満発生すると予想される結果は重大であると見なされ、帰無仮説を棄却する根拠となります。

この仮説検定の構築は、前の図の正規分布の中心を 61 以上にずらすことと数学的には同じです。 標本値 56.7 を見て、曲線の下側領域の中央の 95% の外側にあるかどうかを確認します。 もしそうなら、この帰無仮説を棄却します。

次の t 検定の出力は、この検定の p 値 (確率) が 0.012 であることを示しています。 この値は 0.05 より小さいため、平均年齢が 61 歳であるという帰無仮説は棄却されます。 これは、値 61 は 95% 信頼区間には含まれていないと言っても同じです。

One-sample t test of AGE with 50 cases; Ho: Mean =   61.000  
             
Mean = 56.700   95.00% CI = 53.398 to 60.002
SD = 11.620       t = -2.617
      df = 49 Prob = 0.012

信頼区間と仮説検定は数学的な二重性を有しているため、どちらが有益か知りたいものです。 その答えは、時と場合によると言えます。 科学雑誌では、実験の帰無仮説値は 0 で、科学者にとって実験で何も発生しない仮説は意味がないため、通常は仮説検定モデルが使用されます。 標本のサイズが非常に大きく、0 からの僅かの差が検出される場合でも、通常は、その仮説は棄却されます。

意思決定を行なう人々、たとえば、疫学者、実業家、技術者などは、信頼区間を重視します。 これらの人々にとっては、効果の大きさや信頼性が重要で、0 と区別できるかどうかにはあまり意味がありません。 ベイズ派と呼ばれる統計学者は、さらに進んで、統計学的な決定を賭け事と考えています。 この人たちは、標本情報を使用して事前仮説を修正します。 ベイズ派統計学の詳細については、Box and Tiao (1973) または Berger (1985) を参照してください。

仮定条件のチェック

解析が終わったら、使用した仮定条件をチェックしておく必要があります。 まず、データが正規分布であるかどうかを調べます。 母集団が正規分布でなくても標本平均が正規分布になることがありますが、特に、母集団の標準偏差が不明の場合は、正規分布の母集団を使用する必要があります。 幹葉図を使用すると、すぐに分かります。

          Stem and leaf plot of variable: AGE , N = 50

Minimum:            34.000
Lower hinge:        49.000
Median:             56.000
Upper hinge:        66.000
Maximum:            81.000

3   4
3   689
4   14
4 H 556778999
5   0011112
5 M 556688889
6   0023
6 H 55677789
7   04
7   5668
8   1

幹葉図と似ている、ドット ヒストグラム (ディット プロット) と呼ばれるグラフもあります。 このプロットでは男女を識別するシンボルが使用され、これらの群に差があるかどうかを調べることができます。 この標本では女子の数が少なく、明らかな差を認めることはできませんが、良い方法です。 このドット ヒストグラムから、6 名の女子の 4 名は、他の人々よりも若いことが分かります。

数学的な正規分布の値に対応する年齢値をソートしてプロットすると、正規性をさらに詳しく調べることができます。 このグラフは、正規確率プロットと呼ばれます。 データが正規分布である場合は、プロット値はほぼ直線に沿って並びます。 このデータは、ほぼ直線に沿って並んでいます。 ここでも、男女を識別するシンボルが使用されています。 例の 4 名の若い女性は、プロットの左下隅に表示されています。

この性別による年齢の差は、結果を無効にするでしょうか。 それはありませんが、性別による差を調べて、その差が有意であるかどうかを確認する必要はありそうです。


参考文献

  • Berger, J. O. (1985). Statistical decision theory and Bayesian analysis. 2nd ed. New York: Springer Verlag.
  • Box, G. E. P. and Tiao, G. C. (1973). Bayesian inference in statistical analysis. Reading, Mass.: Addison-Wesley.

 

前のページにもどる