2016年05月28日

シグナル&ノイズ

本日はネイト・シルバー氏の
シグナル&ノイズ
です。
シグナル&ノイズ 天才データアナリストの「予測学」

本書はデータ予測に関する名著と聞き、購入しました。


著者は『マネー・ボール』で登場する
野球の成績予測モデルの開発者で、
2008年の米国大統領選の結果を予測し、
50州のうち49州的中させたという
統計の専門家の著書です。


500ページ超の大作で、内容も高度で読み易いものでは
ありませんが、予測することの本質をつかめます。

つまり、タイトルにもなっていますが、
データの中で何がシグナルか、何がノイズなのか
を見分けることが、予測で最も重要なのです。

格付け会社や天気予報、野球のスカウト、
そして、ギャンブラーなど、統計や確率にまつわる
職業はたくさんあります。
それらの特徴や予測モデル、その限界などを
豊富な実例を交えて、説明してくれます。


予測の方法論ももちろんですが、
著者のような予測の専門家が世の中をどう見ているか
ということが興味深い一冊でした。

読めばわかりますが、決して数式や予測モデル万歳
というわけではないのです。
むしろ、予測モデルの限界を把握した上で、
どのように分析結果を解釈するべきか、が重要です。


本格的に統計を勉強する人にお勧めの一冊です。
数理モデルの細部を議論する前に、
大局をつかむための事柄を学べるでしょう。



予測の失敗にはたいてい共通点がある。
現実の世界ではなく、希望する世界を示すシグナルに焦点を合わせる。
たとえ大きな脅威の兆しがあっても、測定の難しいリスクは無視する。
思っている以上に不完全な世界で推測をしたり、仮説をたてる。
そして不確実性を嫌う。


S&Pやムーディーズは、もっぱらウォール街の一流投資銀行に
就職できなかったような人材を雇っているのにもかかわらず、
その特権的地位を利用して巨額の収益を手にしてきた。


住宅バブルがはじける可能性は、格付会社にとって脅威だった。
人間は自分の生活を脅かすリスクを無視することにかけて
並外れた才能を持っている。


怖いのは、自分が対処できると思っているが、
実際には対処できないリスクである。


実際に生じたデフォルト件数は、格付け会社が見込んでいた件数の
200倍に達したので、モデルは2万パーセント外れていたことになる。


格付会社の予測の欠陥は、
リスクと不確実性の違いを認識できないところにあった。


市場において、自分が理解できないものを
誰かが売りつけようとしてくるとき、
相手は不良品を売ろうとしていると思ったほうがよい。


問題は、もちろん、その2万回のうち今回のように
酔っ払っていたケースはゼロだということだ。
飲酒運転のサンプルは2万回ではなくてゼロなのだから、
事故を起こすリスクを過去の経験を使って予測することはできない。


私たちは、モデルというのは世界を単純化したものだということを
つい忘れてしまう。


ムーディーズは小数点第2位まで計算した。
しかし、現実からは乖離していた。
ターゲットとは違う場所なのに、いつも同じ場所に当てることができるから、
自分は射撃がうまいと言っているようなものだ。


キツネはテレビやビジネス、政治の世界になかなかなじまない。
多くの問題は予測困難であり、不確実性には率直に向かい合うべきだ
とする彼らの信念は、自信のなさと受け取られてしまうからだ。
(中略)
しかし、キツネはよりよい予測をする。
彼らはデータのなかに大量のノイズがあることをすぐに察知し、
間違ったシグナルを追いかけない。
「わからないことがある」ことをよくわかっている。


私たちは飛行機が安全に着陸する確率が90パーセントというのと、
99パーセント、あるいは99.9999パーセントというのと区別できない。


野球は世界でもっとも豊富なデータセットを提供してくれるスポーツだ。
過去140年、メジャーリーグの球場で起きたことのほぼすべてが、
きちんと正確に記憶されている。


統計オタクにとっては、出塁率が打率よりも有益な指標であることや、
投手の防御率が勝敗数よりも公平な指標だということは、
地球が太陽の周りをまわっているのと同じくらい当たり前の事実だ。


大きく空振りしたときの選手を見るんだ。
ファンから見たら間抜けに見えるくらい大振りをしたときだよ。
そんなときに選手が笑っていればいい傾向だ。次回は大当たりする。


天気予報の解析精度を2倍にするために、
16倍の処理能力を手に入れる必要があるが、
その処理能力は幾何級数的に伸びてきており、
2年ごとに倍になってきている。
つまり、天気予報の解析精度を2倍にするには8年待つだけでいい。


民間企業の天気予報に関しては、どれほど正確かという
統計的な現実は必ずしも重要ではない。
消費者が正確だと認識することに価値がある。


降水確率20パーセントと予報したうち、
実際には5パーセントの回数でしか雨が降っていなかった。
わざとそうしていることはウェザーチャンネルも認めるだろう。


地震が起こる確率は毎年35分の1づつあり、
最後の地震から時間がたっていても
この確率はあまり変わらないと思ったほうがいいだろう。


政府が人為的に住宅価格を上昇させようとした場合、
価格は上昇するかもしれないが、
経済を測る指標ではなくなってしまう。


基本的な構造を把握せずに、
経済を変数や方程式の連続とみなすならば、
ほぼ確実にノイズをシグナルと間違えるだろうし、
実際は違うのに自分は正しい予測をしていると思い込むだろう


統計的な推論は、理論に裏づけされたときに強固なものとなる。


人間の行動を予測するとき、
予測という行為自体が人間の行動に影響することがある。
経済の世界で見られるように、ときにはその行動の変化が
予測そのものの結果を変える。
インフルエンザなど伝染力のある病気についての予測も、
この問題を抱えている。


近所で泥棒の件数が増えたというとき、
それは警察がそれまでは捕まえられなかった泥棒を
捕まえるようになったということだろうか、
それとも警察に通報しやすくなったということだろうか。
あるいは近所の治安が悪くなったのだろうか。


正確に予測できないのに、できるふりをすることは害になる。


7万ドルという期待値は、52万ドルになる確率25パーセントと
8万ドルを失う確率75パーセントから成り立っている。


ラプラスは確率を無知と知識の中間に位置するものと
みなすようになり、科学の発展には
確率の理解が不可欠だと思うようになった。


事前確率という考え方に反論した。
実験する前にどうなるかを見積もるなんて、
あまりにも主観的ではないだろうか。


神が存在する確率が100パーセント、
あるいは0パーセントだと信じていれば、
ベイズの定理のもとでは、どのような証拠が出てきても
その意見は変わらないことになる。


たとえ1万回プレーしても、強いプレイヤーが負けて、
弱いプレイヤーが勝つ可能性があることを意味する。


ポーカーというのは、現実には違うのに、
自分が勝てると思い込んでいる人間の集まりなんだ。
みんな幻想を抱いている。


人は、自分のほうが相手より強いという理屈に合う
データにしがみつくものなんだ


トレーダーが「自分がクビにならないのであれば、
会社や投資家に資金を失っても構わない」
という立場をとるのは、きわめて合理的な判断である。


あなたの支払い能力より市場の不合理性のほうが長続きする


私たちは自分にとって好ましい理屈を推し進めるシグナル、
あるいはより楽観的な結果を示すシグナルに気をとられてしまう。


「なじみのないこと」を「起こりそうもないこと」と思う私たち


テロリストは死体の数を最大にしようとしているのではなく、
人々の行動を変えさせるために与える恐怖の量を
最大にしようとしているのである。


―ごく少数のケースが、全体がもたらす影響のうち大部分を占める―
は、べき分布の特徴であり、地震はその一例だ。


1906年から2005年までの100年間に起きた地震のうち、
たった3回の地震 ―1960年のチリ地震、1964年のアラスカ地震、
2004年のスマトラ沖地震―で、
全ての地震のエネルギーのほぼ半分を占めている。


確率論的に考えることの本質は、立ち止まって時間をかけて
データを調べること、そして、自分の思考が不完全であることを
考慮することにある。
そのうち自分の判断力が上がっていることに気づく日がくるはずだ。








engineer_takafumi at 22:25│Comments(0)TrackBack(0)★理系本の書評 | ⇒ 一般・その他の科学

トラックバックURL

コメントする

名前
URL
 
  絵文字