2012年3月11日日曜日

統計学を拓いた異才たち

統計学の歴史に関する本。カール・ピアソンによる一般の確率分布の4つの母数(平均、分散、歪度、尖度)をデータから推定するのが、科学の仕事である、という1890年代の統計革命の開始から、現在のカーネマン・トヴァスキーの個人確率までの100年余り統計学や確率論の話題を、数式を用いず、いろいろな逸話を交えて説明した本です。数式を用いない以上、どうしても分かった気にならない部分もありますが、この本はいい本です。面白い。

特に興味深かったのは、フィッシャーが喫煙は肺癌の原因だと認めることはできないと、最後まで主張した点。彼の主張は、癌にかかったヒトを後から調べて煙草をすっていたからといって、肺がんの原因が癌とは言えない、というもの。もしかしたら、癌になる遺伝子があり、その遺伝子を持った人が煙草を好む傾向にあるのかも知れない。煙草が癌の原因であると主張したいなら、彼の開発した実験計画法を使わないとダメ。つまり、ヒトを多数集め、そのうちランダムに選んだヒトに煙草をすわせ、残りの人に吸わせずにいて、この二つの集団で癌になる比率に「有意」な差があるなら、煙草が癌の原因(のひとつ)であると科学的に主張できる。もちろん、こういう実験はなかなか難しい。実際の研究は、癌にかかったヒトとかかっていないヒトのデータを集めてきて、後付けの知恵で解析するもの。彼の主張は正しいです。後付けの知恵でいいなら、いくらでも自説に有利に証拠固めが可能なので。その点、アメリカでは「差別訴訟」で、統計学の結果を証拠採用するかどうかでもめているそうで、統計学者はフィッシャーの論理で反対しているとも。

あと、個人確率で関してカーネマン・トヴァスキーの研究をコルモゴロフ流の確率論で扱うなら、ヒトのもつ「確率」は5つの値しかもたない、というスペッスの理論も興味深いです。

1:きっと正しい
2:どちらかといえば正しい
3:正しいか間違っているか同等
4:どちらかといえば間違っている
5:きっと間違っている

の5段階でヒトは確率を把握する、という理論。たしかに、ヒトは降水確率60%と70%の差を認識しているとは考え難い。けれど、競馬のオッズの精度は1%。得票率x%の馬の勝率はx%という法則が得票率1%から60%のほぼ全域で成立する。ヒト一人ひとりではあやふやでも、情報にコストがかかり、かつ多数が参加すれば集団での確率の認識力は高くなるのでしょう。

最後の競馬の話は蛇足ですが、この本に書いていることを数式を交え、逸話や概念の丁寧な説明もある確率・統計の本を読みたいものです。



2012年3月8日木曜日

告知:オープンレクチャー「情報カスケードの物理」

今週末の土曜日(2012年3月10日)、オープンレクチャーを行います。タイトルは、「情報カスケードの物理~人が群れるメカニズム」で、午後2時から1時間半、北里大学理学部S号館の3階セミナー室で行います。対象は、高校生ですが、中学生でも社会人でもOKです。

レクチャーは、30分程度の実験と1時間の講義で構成し、次のように進めます。

14時から14時10分       :情報カスケードとは
14時10分から14時50分 :二択のクイズによる情報カスケード実験とその解析
14時50分から15時10分 :休憩
15時10分から15時40分 :情報カスケードと相転移

最初の10分は、情報カスケードについて、知られていることなどをざっと概観します。その後、実験を実施し、その実験結果を眺めた後、情報カスケードの物理について講義をします。

実施する実験は、昨年(2011年)の6月から7月に北大で行った実験とほぼ同じものです。二択のクイズを120問出題し、まずは自分の知識だけで回答し、次に約50名の回答者の回答(二択の選択肢Aが何人、選択肢Bは何人という情報)を参考にして回答していただきます。各問2回の計240回の回答となります。そして採点し、他人の回答を参考にすることで、どのような変化が現れるのかを確認します。

成績の比較だけだと、イマイチやる気にならないかもしれないので、なんらかの景品を準備しようかと考えています。

ちなみに、現時点(3月8日午後1時)での参加希望者は1名だけ。「情報カスケード」という言葉にあまりなじみはないかも知れませんが、人がどのように群れ、そして間違うのかを物理や相転移というキーワードで語られたことはないはずです。ご興味ある方は、ぜひご参加ください。

ちなみに、写真は北大を訪れたときに携帯で撮影した「クラーク博士像」。


追記:理学部WEBページでは90分の講義となっているので、後半の講義の時間を短くし、また、実験の終了時間は人によりマチマチなので、実験後の休憩時間を20分と長めにしました。

追記2:前日午後5時半の時点で、参加希望者が2名追加。計3名だそうです。当日どの程度増えるのか分かりませんが、楽しめるものにしたい。

追記3:参加者は5名でした(それに十河先生、小寺先生)。参加者から「120問のクイズの回答が、他人の回答のカンニングによってどう変化するのか、だけでなく、講義で扱った「他人の情報をコピーする確率」の式を使って、解析できないか」、といご指摘をいただきました。確かにその通りで、せっかく120問回答したのだから、もっとそれを活用する方法を考えたいと思います。当初は、自分が他人の情報をコピーする確率の式を推定し、どの程度「素直」なのか「天の邪鬼」なのかを計測することも考えたのですが、開発時間がなくて断念・それは次の機会があればということにします。

最後に、参加者のみなさま、ありがとうございました。