心理学には、主に数値要約をその仕事の中心とする記述統計と、サンプルサイズを超えた母集団をサンプルから推し量ろうとする推測統計がある。筆者心理統計の基本的発想を一言で言うと「数値要約のウェイト(共通項)の分析」だと考えるが、この節ではそのあたりの話題を論ずるとともに、2つの平均値に差があるかどうかを推測するt検定について述べる。
数値要約の最もポピュラーなものは平均である。各サンプルから成る集合の各サンプルすべての総和をサンプル数で割ったものが平均である。平均の他にメディアン(中央値)、最頻値など数値要約する指標がある。外れ値(極端な値)がある場合は中央値を代表値にする方が適切である。では、数値要約はこれだけなのだろうか。数値要約には他に分散・標準偏差などがある。分散とは標本のばらつきの程度の指標で、データ1からデータnまでのそれぞれの数値について平均との差の二乗をとって総和しデータ数nで割ったものである。そのルートを標準偏差と言い、背後に正規分布を仮定できる場合、(平均-任意の標本)を標準偏差で割ったものがz得点と呼ばれ、「データは正規分布について標準化された」という。事象の分布には左右対称のなだらかな山が仮定され、これが正規分布と呼ばれるものである。山の両裾へ行くにつれ生起確率は小さくなり、z得点が-1.96以下か+1.96以上ともなると、その生起確率は5%以下になる。z得点を使った統計的検定にひとつの平均値の検定がある。ただしこの場合分散が既知でなくてはならない。
分散が未知の場合、不偏分散(データ数を(n-1)とした分散)が上記のような例では使われる。こうして求められた検定統計量をt値と呼び、t分布と呼ばれる分布図によって有意水準を知ることができる。そのさい自由度もまた(n-1)となる。対応のある(たとえば一卵性双生児の群一方ずつのような)2群のt検定の場合、z得点をtとして扱えばよい。
では独立な2つの平均値の差はどうやって検定できるのだろうか。独立な2群の平均値の差もまた正規分布することを考慮して、結論から書くと、 t=(X1-X2)÷√(((n1-1)σ1二乗+(n2-1)σ2二乗))/(n1+n2-2)×((1/n1)+(1/n2))) となる(フォントの関係でσと書いてあるのは不偏分散を意味する。以下同じ)。しかし2群のサンプルサイズが等しい場合は、 t=(X1-X2)÷√((σ1+σ2)/n) と単純化できる。このt値をもとにそれぞれ(n1+n2-2)、(n-2)の自由度でt分布を眺めれば、tが何%水準でどうなのかが分かるのである。