小池:「映像教材を使った授業」と「普通の授業」、どちらの教育効果が高いかを分析するにはどうすれば良いのでしょうか。
西内 啓さん:
まず大前提として、「映像教材を使った授業」と「普通の授業」を比べることがとても大事です。比較して「映像教材を使った授業」を受けた生徒の点数の方が良ければ、その授業が優れているということが言えそうですよね。
瀬戸:そうですね。
でもこれに対して2つ考えなくてはいけないツッコミがあるんですよ。
1つ目が「たまたまじゃないの?」、もう1つが「映像教材を使った授業を受けた生徒はもともと優秀だったんじゃないの?」というツッコミです。
この2つを解消できるかどうかが、統計的に差があると言えるかどうかに関わってきます。
まず「たまたまじゃない?」というツッコミについて考えるために具体的な場面を想像してみます。
(例)「映像教材を使った授業を受けたAグループ」と「普通の授業を受けたBグループ」が100点満点のテストを受けたところ、
Aグループの平均点が70点、Bグループの平均点が65点だった。
この場合「5点分成績がアップするいい映像教材です」と言えるでしょうか。たまたま誰かのコンディションが悪かったり、片方のグループで先生がポロッとヒントを出してしまったりすると5点くらい変わるかもしれませんよね。
Aグループの実力が本当に上がったのかを検証するために使うのが「統計的仮説検定」というものです。この検証のためには「もともとどれくらいばらつきがあるか」と、「何人ぐらいでやったか」いうことを考える必要があって、それをまとめたものをP値と言います。
瀬戸:ピーチ?
小池:桃じゃないですからね。Pの値のことです。
Pはprobabilityの頭文字で「確率」という意味です。
まず「今後無制限に同じようなテストを繰り返した時、両グループの平均点に差がない」と仮定します。もしそのような状況でも、あるテストだけを見た時には平均点に差が出ることはありますよね。
今回で言うと両グループの間に5点以上の差がつく確率を示すのがP値というものです。
小池:全く学力に差がなくても、テストの結果にはばらつきが出てしまう。でもP値を見れば、平均点の差がばらつきの範疇なのか、それとも実力に差があると言えるのかを判断する指標になるということでしょうか。
そういうことですね。
平均点の差が5点以上になる確率が例えば5%以下だったら、「この差は自然なばらつきの範囲で、全く差のない集団です」と言うには無理がありそうですよね。
小池:「全く差がないと仮定した時にめったに起こらないような結果が出ています。これって『全く差がない』と言えますか?いや言えませんよね」という感じでしょうか。
そんな感じです。
瀬戸:このP値って出せるんですか?
Excelにも計算する関数ついているんですよ。
細かく説明するとややこしいんですけど、「中心極限定理」という大発明の恩恵です。ばらつき方にも偏りがあって、そのばらつきを表現したのが正規分布です。ベルカーブと言われる曲線になっていくということが、P値を出すのに役立っています。
小池:数を増やしていくと平均から大きく外れているものが少なくなっていくというグラフです。それに基づいて比較ができるということですね。
そうです、「たまたまじゃないの?」って言われたらP値を出します。
本編では「映像教材を使った授業を受けた生徒はもともと優秀だったんじゃないの?」というツッコミを解消するために使う「ランダム化」についても詳しくお話を伺っています!
なお、P値や他の統計的な手法については、扱いが難しく利用については注意が必要な点があります。
本編でも統計がもたらす「再現性の危機」について西内さんとお話ししていますので、そちらもぜひチェックしてみてください!