2018年03月06日

統計学図鑑

本日は栗原伸一 氏、丸山 敦史 氏の
統計学図鑑
です。
統計学図鑑

本書は図やイラストを多用して読みやすく配慮した、
統計の入門書になります。

入門書ではありますが、「図鑑」とついているように
ある程度、網羅性を持っており、
カバー範囲は広く作られています。

数式は類書と比べて、はっきり少ないと思いますので、
数式アレルギーの方にもお勧めできる一冊です。


個人的には、検定の部分に多くページが割かれており、
例も豊富なので、理解に役立ちました。


統計を学び始めた人が、
用語集として手元に置いておくと良いと思います。
例が豊富なので、統計の理解が進むことでしょう。



幾何平均は、年々の成長率や対前年比といった
数値の平均を求めるのに適しています。


調和平均は、一定の距離を移動する際の
平均速度を求めるときに用いられます。


分布が左右対称か、右裾が長い(左側に偏っている)か、
左裾が長い(右側に偏っている)か、
分布のゆがみを表す指標が歪度です。


分布のとんがり度合いを表す指標が尖度です。


(ポワソン分布)
つくる個数がふえると正規分布に近づくぞ!


χ2分布は、正規分布に従う複数のデータを
一斉に扱うことができるので、
例えば、分散の分析に用いることができます。


(推測統計学)
観測データ(標本)から、その背景にある
母集団の特徴を推測する学問です。
データの少ない場合にでも、
分析結果を間違わないように「誤差」という考え方を
導入していることが記述統計学と異なります。


実は、記述統計学の手法で計算した分散(標本分散)は、
真の値(母分散)よりもやや小さくなってしまいます。
もちろん、その平方根である標本標準偏差も
母標準偏差より小さくなります。


帰無仮説が棄却できなくても、帰無仮説を採択して、
その内容(差がない)を正しいと判断してはいけません。
(中略)
帰無仮説が棄却されなかった場合でも採択はせずに、
「判定を保留」しておく程度の解釈に留めておいて下さい。


主張したい(差があるという)仮説は
無限に立てることができてしまうため、
いつまで経っても検定の手続きに入れません。
よって、唯一の内容となる主張したくない(差がない)
という仮説を立てて、それを反証するほうが合理的なのです。


なんとしても有意水準(大抵は両側で5%)よりも
小さなp値をたたき出そうと、
手を変え品を変えて頑張る学生をよく見かけます。
しかし、検定における有意差とは、せいぜい
「今回の実験では、帰無仮説の下では現れる確率が非常に小さいはずの値が観測されたので、帰無仮説は成り立たないだろう」
ということを意味している程度なのです。


標本サイズが25もあればt値は2.1になり、
5%水準ならば帰無仮説は棄却され、
「相関あり」と判定されています。
標本サイズが大きいほどこの傾向は強まり、
たとえばn=100ならば、なんとr=0.2でも
帰無仮説は棄却されてしまうのです。
というわけで、あまり無相関の検定の結果を
水戸黄門様の印籠(?)のように扱うのも考えものでしょう。


偏った範囲のデータしか観測できていないのにもかかわらず
相関係数を算出したり、無相関の検定を実施してしまうと、
本来は相関関係があるのに見逃したり、
逆に本来は相関はないのに「相関あり」と
結論づけてしまうことです。


同一の実験系で得られたデータに対して
何度も検定を繰り返すと、
たとえ1つ1つの検定では5%の
有意水準で実施していても、
全体で見ればいくつかの検定では誤って
有意となる確率が高く(=検定が甘く)
なってしまうからです。


(ノンパラメトリック手法)
「母集団が特定の確率分布に従っている」
という前提がいらない統計手法の総称で、
一般には「ノンパラ」という略称で呼ばれます。


t検定は極端な値があると検出力が下がるんだな……


正規分布していないデータでも、
その自然対数をとれば正規分布に近づくため、
t検定などが実施できるようになるのです。


無作為化とは、本来は誤差とすべき要因が、
系統だって(方向性を持って)実験結果に入り込まないよう、
実験空間の配置や時間の順番を
無作為に並び替えることです。


局所管理とは、空間的・時間的な実験の場を
小分け(ブロック化)にして、
その中で実験を一通り実施し、分析することです。
無作為化と同じように、目的ではない要因が系統立って
実験結果に交絡しないようにする方法なのですが、
偶然誤差に転化するのではなく、
系統誤差自体を1つの要因として扱うことで、
系統誤差そのものをなくしてしまいます。


特に注意しなくてはならないのは、
「見せかけの関係」を因果関係として
とらえてしまうことです。
見せかけの関係は、第3の変数の影響を受けて、
別の2変数間に因果関係が
生じているように見える関係です。


(主成分分析)
多くの変数に含まれている情報を、
少数の変数で表したい(総合的な指標を作りたい)
ときに用いる方法です。


(クラスター分析)
たくさんの個体から似たものをグルーピングして、
クラスター(集団)を作るための手法です。


(ベイズ統計学)
・分析の解釈が自然である
・柔軟性が高い(複雑な問題にも適用できる)
・新データの逐次利用で精度を上げられる


(事後確率)
ベイズ統計学では、観測されたデータから、
時間を遡ってそれを引き起こした原因の確率を
推定するところに特徴があります。






engineer_takafumi at 23:01│Comments(0) ★理系本の書評 |  ⇒ 数学

コメントする

名前
URL
 
  絵文字