標準偏差と4部位数って何?

高校生の知り合いが、学校で標準偏差や4部位数について習ったらしい。で、「試験に出るから教えて」と言われたのだが、そこで面白い質問が出た。
「そもそも、標準偏差とか4部位数って何ですか?」
なるほど、学校では計算方法だけ習ってその意味は教わらなかったのか。

学生さんにわかりやすいよう、成績分布図で考えてみよう。

例えば、100点満点のテストであなたが 70 点を取ったとする。でも、この数字だけではあなたの成績が良かったのか悪かったのか何も分からない。そこで、統計を使う。

真っ先に思いつく統計データは平均だ。「平均点が 50 点のテストで 70 点を取った」と言えば、少なくともあなたの成績は悪くない事がわかる。ただ、平均からは「普通より上か下か」というザックリとしたデータしか出てこない。(「普通」の定義はは置いといて。)例えば、70 点という成績が上から 1/3 なのか、1/10 なのか、そういった情報もあると便利だ。

「じゃあ、○人中×番のように順位を言えば良い」と言う人もいるだろう。それはある意味正しい。

理想的なテストと点数分布だと、下記のようになっているだろう。(横軸が点数、縦軸が人数。)
正規分布
Wikipedia 「正規分布」より引用

上記のようなキレイな分布図の場合、順位を言うことも悪くないだろう。この場合の欠点と言えば、少し面倒な計算をする必要が有る事くらいだ。例えば「1205 人中 352 位」と言われたら、「上位 1/4 から 1/3 くらい」という計算をするだろう。また、2 人の差を見るときはもっと面倒だ。「上から 1/7 の人と 1/5 の人の差は?」と言われたら、1/5 – 1/7 を計算しなくてはいけない。

しかし、通常はもっと深刻な問題がある。それは、成績分布が上図のようにキレイなグラフにならない事だ。実際には山の位置が平均からずれていたり、山が 2 個あったりする。山の付近では点数が 1 点変わるだけで順位が大きく変わってしまう。そのため、実際はほんの少しの差なのに大きな差があるように見えたり、逆の事もある。山の位置が「平均付近に 1 個」と分かっていれば頭の中で補正する事も可能だろうが、「山がどこに、いくつあるか分かりません。」という状況だと補正のしようがない。

その欠点を補うのが標準偏差だ。標準偏差は、実際の点数分布を無理やり上図のような図に近似したとき、あなたがどの程度の位置にいるかを示してくれる。

ちなみに、偏差値は標準偏差を 50 前後に見えるように数字をいじっただけのもの。
上手の 1 σ が偏差値 10 に相当し、中央が偏差値 50 だ。つまり、偏差値 40 – 60 の間に全体の 66.27 % が入り、30 – 70 の間に全体の 95.45 % が入り、20 – 80 の間に 99.73 % が入る。
だから、「偏差値 60」といえば、実際の点数分布を理想的に近似した場合の上位 17% の位置という事になる。
(ちなみに、日常で 100 前後使うことが多いので、この程度の数字だとイメージしやすい。そのため、何かの指標を 100 前後になるよう調整することは良くある。天気予報の降雨確立が % で表記されているのもこの理由だろう。)

また、2 人の差を見るときも、標準偏差ならば単純に引き算すれば良い。面倒な計算や山の位置を気にする必要も無い。最初は少し難しく思えるかも知れないが、見慣れると標準偏差は非常に直観的でわかりやすい。

さて、標準偏差というのは中々便利なのだが、もちろん欠点だってある。例えば大量のサンプルがないと統計的に意味のある値を出せないことだ。データのサンプル数が極端に少ないと平均に意味がない事は分かるだろう。標準偏差は平均よりもずっと多くの情報を提供する。(平均は山の位置だけなのに、標準偏差は山の位置と形を提供するんだから当然だ。)逆に言うと、標準偏差を計算するためにはそれだけ多くの情報、つまりサンプル数を提供する必要があるのだ。

では、サンプル数が少ないと具体的にどんな情報を得ることが難しいのだろうか?例えば、グラフの平均から外れた位置の情報は取得が難しい。

例えば、40 人のクラスでテストをした場合、1 位の人がどの程度すごいのかを測る事は難しい。もしかすると 1 万人に 1 人の天才が紛れているかもしれないし、たまたま上位層が薄くて、本当は 10 人に一人程度の成績かもしれない。だって、上位の情報を得るために重要なのは、同様に成績上位者達の情報だ。しかし、1 位、つまり上位 1/40 の情報を推測したくともサンプルは 1 人しかいないし、妥協して上位 1/10 の情報から推測しようにも、やっぱりサンプルは 4 人しかいない。これでは統計的な情報を得ることは難しい。

だが逆に、クラスの真ん中付近の情報ならばそれなりにサンプル数がそろっているので何となく把握できる。

そんな時に使用するのが 4 部位数だ。4 部位数ではサンプル数が少なくて良くわからない上下の端のデータを切り捨て、「上位 1/4, 中央、下位 1/4 がどの程度の位置か?」を指摘する。

直観で理解できるよう、あえて曖昧な表現を多用したが、うまく説明できただろうか?
最初に質問してきた知り合いのように、悩める高校生の助けになればと思いちょっと書いてみた。

重力波って何?

少し前の話なので遅きに失したという感がするが、重力波の話。

先日同僚と食事をしているときに、
「俺さんって重力波とかも何の事言っているか分かるんですか?」
と聞かれた。

その時にザックリと説明したら意外と理解してもらえたようなので blog にも掲載。

まず、相対性理論以前の重力の理論は全てニュートンの万有引力の法則で説明がついた。この万有引力は、2 個の物質の質量と距離だけで決まる。例えば、月と地球の間の引力は月と地球の質量と、間の距離だけで計算する事ができる。

例えば、今、月が真上にあるとしよう。この状態で体重を測ると、月の重力で上に引っ張られるため、本来の体重よりわずかに軽く測定されるはずだ。

では、月と地球の距離が少し変化した場合はどうだろう?
月は地球を中心とした完全な円軌道を回っているわけではない。月と地球の間の距離は、刻一刻と変化し続けている。その際、月と地球の間の引力はどうなるだろう?

ニュートンの万有引力の法則が絶対的に正しければ、月と地球の距離が変わるとその間の引力も瞬時に変わる。だから、月の位置が変わると体重計で測定される値はわずかだが瞬時に変わるはずだ。これは、「月の位置が変わった」という情報が光速を超えて地球に伝わったという事に他ならない。つまり、万有引力の法則は「情報が光速を超えて伝達する事は無い」という相対性理論と矛盾するのだ。

しかし、万有引力の法則に「重力波」という補正をかけると、この矛盾は解消する。こう考えてみよう。

  • 質量を持つ物質は、周囲に重力場を作る。
  • 質量を持つ物質は、他の物質が作った重力場から力を受ける。(これが引力)
  • 質量を持つ物質が移動すると、その近くの重力場が変わる。
  • 一部の重力場が変わると、その近くの重力場も少し変わる

こうして、質量を持つ物質が移動すると、その近くから順々に重力場が変わっていく。この連鎖的に重力場が変わる様子は波の性質を持っている。これが「重力波」だ。

いや、こんな事まで予言していたなんて、アインシュタインはすごいね。