本書の出版された時代背景
集合知とは何か - ネット時代の「知」のゆくえ /西垣 通 (中公新書 2013/2/22)の1章を朗読したので、その後もういちど精読してみた。
date
(実際にREALITY内で朗読配信を1時間強にわたって行っていたのだが、番組中で違和感があったので、番組を終えて検証をしてみた)
本書は、2009年のイタリア・ラクイラ地震で地震学者が地震発生前に大地震の兆候がないと判断し、それが記者会見で発表されたことが被害拡大につながったとして禁錮6年の有罪判決を受けたところからはじまる。 (2015年にイタリア最高裁が第二審での無罪を支持したことで最終的には無罪となった)
出版された2013年を思い起こせば、まだ2011年3月11日に発声した東日本大震災と津波被害、その後の福島第一原子力発電所に関連する事故や風評被害は記憶に新しかった時期である。
Twitterを中心とするSNSが社会の情報インフラとして確実に存在感を増し、それまで「140文字程度のミニブログで何ができるのか」、「情報が流れて行ってしまう」、「デマを拡散させる」といわれて評価されてこなかった自治体、それもありとあらゆる自治体の層がTwitterアカウントを運用し始めた時期であると記憶している。
私自身の個人的な背景
「集合知」については、ちょうど日本科学未来館での科学コミュニケータ時代にテーマとしていた。 3Fの展示物「アナグラのうた」、「情報科学技術と社会」展示改修プロジェクトの基本設計を担当していた関係もあり「集合知」についての研究や、その伝え方についての調査を日々行っていた。
本書で紹介されるジェームズ・スロウィッキー著『「みんなの意見」は案外正しい)』2009/11/25発行、原題『THE WISDOM OF CROWDS』、改訂版『群衆の智慧』や、スコット・ペイジ『「多様な意見」はなぜ正しいのか』(2009年)も大変勉強にはなった。 プログラミングでは『集合知プログラミング』が大変役に立った。
第1章「ネット集合知への期待」
第1章では、東日本大震災や原発事故における専門家・御用学者が何故、結果として噓となるような発言をしたのか、そして真実とも言い難いが、ある程度の真実味を持つTwitterでの一般の方々の知恵の事例を紹介しつつ「知とは何か」について質問を投げかけている。 集合知についての紹介をすると同時に、この『集合知』の流行の原典ともいえる、コラムニストであるスロウィッキーの『みんなの意見は案外正しい』を痛烈に批判している。 コラムニストが書いた「読み口が興味深くて、わかった感じになるけど、結局何も解き明かしていない書籍」の論理的な甘い個所を論破していくあたりは爽快感がある。
自分もこの本を読んでいた2009年ごろ、Twitterが台頭しつつある時代において数量の推測を中心とした集合知の話は若干の違和感があったし「まあこんなもんだろうな」と思って読んでしまっていたのだが、実際、その当時の世の中における『集合知』とは、より進んでいて、Twitterのような主観情報だけでなく、ビッグデータとしては『Tポイントカード』のような購買情報まで広く浸透しつつあった(一般の人々の理解とは別として)。
集合知定理 「集団誤差」=「平均個人誤差」―「分散値」
スロウィッキーのいう集合知の要素「分散性・独立性・多様性」痛烈批判しつつも、それぞれの要素を「結局は多様性」と整理していき、認めてもいる。 スコット・ペイジ『「多様な意見」はなぜ正しいのか』を数学的なアプローチで評価している点は共感が持てる。
p.36-37より(式番号はこちらで附番した)。
いまN人のある対象の数値(雄牛の体重、瓶の中のジェリービーンズの数など、スロウィッキーの書籍に出てくる例)を推測するとして、メンバー i の推測値を X(i) とする( i = 1,2,3,…, N )。 集団的推測値を A とすると、A は推測値の平均だから次式が成り立つ。
A = { X(1) + X(2) + X(3) + … + X(N) } / N … (1)
真の値(正解)を R とすると、メンバー i の推測誤差は ( X(i) - R )^2 である。したがって「平均個人誤差」は、
{ ( X(1) - R )^2 + ( X(2) - R )^2 + … + ( X(N) - R )^2 } / N … (2)
であたえられる。この値は N人のメンバーによる推測値が、平均として正解からどれだけズレているかを示している。
次に、N人の推測値のバラツキを考える。このバラつきこそ、多様性を表す値に他ならないのだが、これは統計学でいう X(i) の「分散値」に対応し、次式で与えられる。
{ (X(1) - A )^2 + ( X(2) - A )^2 + … + ( X(N) - A)^2 } / N … (3)
さて肝心の、集合知による推測の誤差、つまり「集団誤差」はどうなるのだろうか。これは当然、
( A - R )^2 … (4)
である。 この集団誤差が小さければ、N人のメンバーをあつめた衆知は正しいということになるわけだ。 ここで計算してみると、次式が成り立つことがわかる(読者諸賢は、紙と鉛筆を使って、確認していただきたい)。
「集団誤差」=「平均個人誤差」―「分散値」
本書はこれを「集合知定理」(ペイジの用語では「多様性予測定理」)とよぶ。 この定理こそ、集合知の正しさの本質を示す根拠といっても過言ではない。少なくとも、人々の衆知を集めることによって魔法のように正解が出現するというスロウィッキー流の例の大半は、この定理で説明できる。 謎の種明かしといってもよいだろう。
実際に解いてみてわかったこと。
実際に解いてみた。縦書きの書籍で数式が出てくると、どうしても検証しないと頭に入ってこない。
実際に鉛筆を動かして、雑に数式を書いてみて気になったことがある。
まずは
「集団誤差」=「平均個人誤差」―「分散値」
であるが、これは概念的には確かにそうなのだけど、誤差と分散「値」(値としての分散)は同じ次元にないように思う。分散は二乗がついている、もしくは±といった幅を持つという理解で扱えばいいのだけど、N人それぞれの母集団における分散なのか、個々の課題や正解と推測値なのかよくわからなくなってしまう。縦書きの中公新書の読者に配慮したものと推察する。
式に立ちかえると、「集団的推測値」と言っているのは「全員が推測した値の平均」である。雄牛の体重であれば、いちおうその分野に従事している人々の推測値、ジェリービーンズの場合は単なる視覚による推測だ。
真の値Rと各メンバーの推測値 X(i) を距離を二乗で求めている。アンダーだった場合もオーバーだった場合も、符号を無視して全部加算してNで割る。 これは「平均二乗誤差」であり、「平均個人誤差」と呼ぶのは違和感がある。平均として正解からどれぐらいズレているかを表す値とするならば分散なり偏差なりであり、同じ次元の値とするならば √ をとるべきではないだろうか。 また分散のことを「分散値」と表現されているが、分散と分散値は同じものではないので混乱を招くように思う。
分散は偏差の二乗の平均値。データの散らばりの度合いを表す量である。 (数研出版 数学I 平成23年検定教科書より)
「誤差」というと偏差なのか、標準誤差なのか…、ここは百歩譲って、いわゆる日本語の「誤差」という概念として扱っている理解とする。
(2)式は真値からの各メンバーの推測値の平均乖離量(西垣先生は「平均個人誤差」と呼んでいる)
(3)式は各メンバーの推測した平均Aからの平均乖離量(西垣先生は「分散値」と呼んでいる)
(4)式はちょっとよくわからない、概念的にはわかるけど、この式だと ( A- R )^2 は {(1) - R }^2 = (2) - (3) ということになる。
計算してみると、 (A - R)^2 = A^2 - 2AR + R^2 なので、 2AR が残る、(2)-(3)も -2X(N)Rと-2X(N)Aが残る…。
私のほうが何か勘違いしていると思うんだけど、手を動かしてみるとわかることってあるよな…。
★西垣先生、本当にすみません、私が計算間違っているに違いないです!! 「読者諸賢は、紙と鉛筆を使って、確認していただきたい」と書いているのでその通りでしたね
Twitterに投稿してみたら…集合知の何たるかを体感。
Twitterに投稿してみたら、すぐに突っ込みが入りました。
date
良き突込み ありがとうございます!
Aは推測大会に参加した人の推測した値の平均 Rは真値なので関係がない
期待値 E[AR]=0
と理解してよいと思います
date
ありがたかった点
・誤差(縦書き書籍での”誤差”が何を意味しているのかわからなかった→式の通り) ・定理、どれも2乗で問題ないことが分かった ・AとRの絡んだクロス項をどうやったらきれいに消えるのか(わからなかった→なんとなくわかった)
自力でわかるまで解きたい感じはした
これまさに「集合知とは何か」を如実に表したケースですね…。
恥ずかしい思いをするかもしれない、西垣先生ゴメンナサイ、とおもいながらノートの端を呟いてみてよかった…。 集合知の何たるかを体感してしまいました。
※クラシックな集合知の考え方では、数学の問題は解けない、ということになっていますが。
続きます
そんな感じで1章を朗読しながら精読してみたのですが、 推論統計学を使った4択クイズの証明はすばらしいし、 個々の住民は合理的な価値判断をしているのに、 選挙の投票による勝者は「住民の総意」としては非合理な価値判断になるという解説も上手だなとは思いました。
とりあえずまた朗読配信してみようと思います!