May 04, 2016

標準偏差と4部位数って何?

高校生の知り合いが、学校で標準偏差や4部位数について習ったらしい。 で、「試験に出るから教えて」と言われたのだが、そこで面白い質問が出た。

「そもそも、標準偏差とか4部位数って何ですか?」

なるほど、学校では計算方法だけ習ってその意味は教わらなかったのか。 学生さんにわかりやすいよう、成績分布図で考えてみよう。

例えば、100点満点のテストであなたが 70 点を取ったとする。 でも、この数字だけではあなたの成績が良かったのか悪かったのか何も分からない。 そこで、統計を使う。

真っ先に思いつく統計データは平均だ。 「平均点が 50 点のテストで 70 点を取った」 と言えば、少なくともあなたの成績は悪くない事がわかる。 ただ、平均からは「普通より上か下か」というザックリとしたデータしか出てこない。 (「普通」の定義はは置いといて。) 例えば、70 点という成績が上から 1/3 なのか、1/10 なのか、そういった情報もあると便利だ。

「じゃあ、○人中×番のように順位を言えば良い」と言う人もいるだろう。それはある意味正しい

理想的なテストと点数分布だと、下記のようになっているだろう。 (横軸が点数、縦軸が人数。)

https://upload.wikimedia.org/wikipedia/commons/8/8c/Standard_deviation_diagram.svg

Wikipedia 「正規分布」より引用

上記のようなキレイな分布図の場合、順位を言うことも悪くないだろう。 この場合の欠点と言えば、少し面倒な計算をする必要が有る事くらいだ。 例えば「1205 人中 352 位」と言われたら、「上位 1/4 から 1/3 くらい」という計算をするだろう。 また、2 人の差を見るときはもっと面倒だ。 「上から 1/7 の人と 1/5 の人の差は?」と言われたら、1/5 - 1/7 を計算しなくてはいけない。

しかし、通常はもっと深刻な問題がある。 それは、成績分布が上図のようにキレイなグラフにならない事だ。 実際には山の位置が平均からずれていたり、山が 2 個あったりする。 山の付近では点数が 1 点変わるだけで順位が大きく変わってしまう。 そのため、実際はほんの少しの差なのに大きな差があるように見えたり、逆の事もある。 山の位置が「平均付近に 1 個」と分かっていれば頭の中で補正する事も可能だろうが、「山がどこに、いくつあるか分かりません。」という状況だと補正のしようがない。

その欠点を補うのが標準偏差だ。 標準偏差は、実際の点数分布を無理やり上図のような図に近似したとき、あなたがどの程度の位置にいるかを示してくれる。

ちなみに、偏差値は標準偏差を 50 前後に見えるように数字をいじっただけのもの。 上図の 1 σ が偏差値 10 に相当し、中央が偏差値 50 だ。 つまり、偏差値 40 - 60 の間に全体の 66.27 % が入り、30 - 70 の間に全体の 95.45 % が入り、20 - 80 の間に 99.73 % が入る。

だから、「偏差値 60」といえば、実際の点数分布を理想的に近似した場合の上位 17% の位置という事になる。 (ちなみに、日常で 100 前後使うことが多いので、この程度の数字だとイメージしやすい。そのため、何かの指標を 100 前後になるよう調整することは良くある。天気予報の降雨確立が % で表記されているのもこの理由だろう。)

また、2 人の差を見るときも、標準偏差ならば単純に引き算すれば良い。 面倒な計算や山の位置を気にする必要も無い。 最初は少し難しく思えるかも知れないが、見慣れると標準偏差は非常に直観的でわかりやすい。

さて、標準偏差というのは中々便利なのだが、もちろん欠点だってある。 例えば大量のサンプルがないと統計的に意味のある値を出せないことだ。 データのサンプル数が極端に少ないと平均に意味がない事は分かるだろう。 標準偏差は平均よりもずっと多くの情報を提供する。 (平均は山の位置だけなのに、標準偏差は山の位置と形を提供するんだから当然だ。) 逆に言うと、標準偏差を計算するためにはそれだけ多くの情報、つまりサンプル数を提供する必要があるのだ。

では、サンプル数が少ないと具体的にどんな情報を得ることが難しいのだろうか? 例えば、グラフの平均から外れた位置の情報は取得が難しい。

例えば、40 人のクラスでテストをした場合、1 位の人がどの程度すごいのかを測る事は難しい。 もしかすると 1 万人に 1 人の天才が紛れているかもしれないし、たまたま上位層が薄くて、本当は 10 人に一人程度の成績かもしれない。 だって、上位の情報を得るために重要なのは、同様に成績上位者達の情報だ。 しかし、1 位、つまり上位 1/40 の情報を推測したくともサンプルは 1 人しかいないし、妥協して上位 1/10 の情報から推測しようにも、やっぱりサンプルは 4 人しかいない。 これでは統計的な情報を得ることは難しい。

だが逆に、クラスの真ん中付近の情報ならばそれなりにサンプル数がそろっているので何となく把握できる。

そんな時に使用するのが 4 部位数だ。 4 部位数ではサンプル数が少なくて良くわからない上下の端のデータを切り捨て、「上位 1/4, 中央、下位 1/4 がどの程度の位置か?」を指摘する。

直観で理解できるよう、あえて曖昧な表現を多用したが、うまく説明できただろうか? 最初に質問してきた知り合いのように、悩める高校生の助けになればと思いちょっと書いてみた。