2018年10月21日

ベイズ推定入門

本日は大関真之 氏の
ベイズ推定入門
です。


機械学習がブームの中、
ベイズ推定が注目を集めています。
本書はそのベイズ推定の入門書です。

通常入門書はベイズの定理と呼ばれる
確率の公式を中心に話が進みます。
「ベイズ推定=事前確率を利用する」という
ストーリーです。

しかし、本書はあえて「分布」の話を扱った
というところに特徴があります。

事前確率がどう変化するかだけではなく、
分布がどう変化するかという話まで
突っこんでいるところが意欲的です。

また、マンガといえど、
肝心な部分は難解な入門書が多い中、
本書は最後まで噛み砕いて説明されていました。


個人的には、
正則化、ノンパラメトリック、特異性などの
言葉の理解が深められたことが収穫でした。


数式なしの本の方が好きな人にお勧めの一冊です。
マンガの絵を含め、イメージでベイズ推定を
学ぶことができるでしょう。



全部しらみつぶしに調べるより、
怪しいところを探すというわけです。
それだけで最尤推定よりも効率よく
探索ができるそうだと思いますよね。
それがベイズ推定の威力です


予測精度の良さを示す汎化性能について調べると、
モデルに含まれるパラメータの個数が少ないほど
汎化性能が良くなることがわかりました。


複雑なモデルであればあるほど、
目の前にあるものに合わせること自体はたやすい。
でもそれでは目の前で起こったことを
再現することに集中しすぎていて、
未だ知らないこれからのことを予測することには
注力できていません。過適合と言います。


様々な意見を取り入れる計算のことを積分と言います。
事後確率分布を積分して、
総合的に判断する事後平均を計算します。


機械学習のときは微分が役に立って、
ベイズ推定では積分が役に立つなんて
数学って便利ねー


これを正則化と言います。
ちょうど事前分布の効果を追加することに対応しています。
事前情報を利用して最尤法とは異なる
最適化を実行しています。


正則なモデルというのは、例えばガウス分布のように、
パラメータを動かすと、その動きに対応して
分布の形がちゃんと変形するものを言います


得られたデータに対して、パラメータをいくら動かしても
全く挙動のないことが起こり得るモデルを、
特異なモデルと言います


モデルが複雑なせいで特異性をもってしまう。
これがニューラルネットワークの最適化で
問題になる特異性です。
どんなデータか分からないので、
複雑なモデルを用意しがちです。
そうなると特異なモデルと向き合う必要がある。
そこでレバーの動かし方を工夫することにしました。
これがさっきの適応的勾配法の話です。


データが少ないせいで生じる特異性というのもあります


例えば傾きは小さいはずだ! って
事前に知っていれば、1点しかないデータであっても、
とりあえず傾きが小さい直線を書けば、
事実に矛盾せずに事前情報にも矛盾しない
結果になりますよね。


パラメータを変えたときにどこもかしこも
丸みをもっている場合、正則なモデルと呼びます。
この場合にはパラメータの最適化を行うと
必ず1つのところに収まるという性質があります。


ニューラルネットワークは残念ながら特異なモデルであり、
最適なパラメータがどこにあるのか分からない、
うまく最適化のできないプラトーが存在する
という障壁がありました。
現在では、そのプラトーを抜け出す適応的勾配法の
活躍により効率良く最適化をすることが
できるようになりました。


機械学習にはデータがたくさん必要といわれる理由の1つが、
データの数とパラメータの数の関係から生じる
特異性にあります。


スパークス性を利用した正則化、スパース正則化を利用すると、
そのパラメータの調整のときにいっそのこと
パラメータをゼロにしようとします


式の数は少ないのに未知数が多い方程式のことを、
劣決定系方程式と言います


実際には、方程式の数は少なくて未知数の数が多くても、
本当に重要な未知数の数が実は少ないことがあって、
その場合は解けるんです。
そのための考え方がスパース性です。


数式に惑わされるよりも、何をするのか、
実行する方法とそれを実行するのは何のためか、
実行すると何ができるのかが分かることの方がよっぽど大事です。


とにかくたくさんの関数を重ね合わせたモデルを
ノンパラメトリックモデルと言います


ニューラルネットワークも重みのパラメータを
動かすだけなのでノンパラメトリックモデルです。
形は固定してその組合せを考えていますので


ベイズ最適化は、データを取得するのに時間がかかったり、
危険でリスクを伴う場合に、効率よく探索をしながら
最適化問題を解く方法として注目されています。


分散が大きいってことはデータが不足しているから、
そこを探索したら推定結果がさらに良くなるしね







engineer_takafumi at 23:51│Comments(0) ★理系本の書評 | ⇒ コンピュータ・情報科学

コメントする

名前
 
  絵文字