t検定の場合でも、ここで述べる分散分析の場合でも、統計的検定の基本的な発想は、「分散が大きい平均値ほどそれとしての意味は弱い」と言う考えに基づいている。
ここでは、水準(変数群の数)が3つ以上ある場合の平均値の検定と、変数に差があればどれとどれの差なのかを分析する多重比較の方法について述べる。
差の検定は1回あたり例えば.05水準で行うものとすれば、3つの変数について行う差の検定は(1-.95の3乗)=.146になってしまう。そこで考え出されたのが分散分析である。3つ以上の群の分散分析では、
全体平方和=群間平方和+郡内平方和(誤差平方和)
と、全体平方和が分解できる性質を、平方和について利用し、分散の大きな要因の平均値ほど平均値としての意味が弱いと言う数学的性質を利用して差の検定を行うので「分散分析」と言う。例えば大学の心理学のテストで「優」「良」「可」のそれぞれの群の学生4人ずつの「心理統計学」での成績が10点満点で以下のような成績を修めたとする。
優 9 8 8 9
良 8 7 8 6
可 5 4 6 3
ここで言えることは、全体で平均を取ると6.75点であった/群平均は「優」群8.5点、「良」群7.25点、「可」群4.5点であったと言うことである。したがって全体平方和は、
全体平方和=5.0625+1.5625+1.5625+5.0625+1.5625+ 0.0625+1.5625+0.5625+3.0625+7.5625+ 0.5625+14.0625
=42.25
次いで群間平方和(群平均-全平均)二乗は、
群間平方和=3.0625×4+0.25×4+5.0625×4 =33.5
最後に群内平方和(データの値-群平均)二乗は
群内平方和=0.25×4+0.5625×2+0.0625+1.5625+0.25×2+ 2.25×2 =8.75
となり、「全体平方和=群間平方和+群内平方和」となっていることが分かる。続いて分散分析表を作る。分散分析表は以下のような体裁を取る。 ――――――――――――――――――――――――――――――
要因 平方和 自由度 平均平方 F ――――――――――――――――――――――――――――――
群間 33.5 2 16.75 17.27
群内 8.75 9 0.97 ――――――――――――――――――――――――――――――
全体 42.25 11
――――――――――――――――――――――――――――――
上の図を見て分かるとおり、平均平方は平方和を自由度で割ったもの、Fは群間平均平方を群内平均平方で割ったものである。ここで自由度は群間(水準数-1)、群内((水準内標本数-1)×水準数)、全体(全標本数-1)である。F分布表で当該自由度の臨界値を見ると、1%水準のときのF(2,9)>8.02なので、「心理学の「優」・「良」・「可」によって「心理統計学」の成績は、1%水準で異なっていると言える」などと報告する。
しかし話はこれで終わらない。なぜなら、分散分析は「どこに差があったか」までは語らないためである。どこに差があったを知るためには、「多重比較」という分析が必要である。その方法はいくつも考えられているが、ここでは最も頻繁に用いられるテューキーの方法を紹介する。それには次式で与えられる検定統計量qを求める(ただし、各群のサンプル数が等しく、各群の母分散も等しいと仮定した場合)。
q=
比較する群の平均値差の絶対値
―――――――――――――――――――――――――
√((群内の平均平方)/(各群のサンプル数))
このとき注意して欲しいのは、群の数は水準数そのものであること、群内の自由度は上記の通りであることである。