2018年08月02日

大学4年間のデータサイエンスが10時間でざっと学べる

本日は久野遼平 氏、木脇太一 氏の
大学4年間のデータサイエンスが10時間でざっと学べる
です。
大学4年間のデータサイエンスが10時間でざっと学べる

本書は東大でデータサイエンスに携わる研究者が
一般向けにコンパクトにデータサイエンスを説いたものです。

10時間で学ぶというコンセプトなので、
当然、あまり深く理解することはできませんが、
基礎的な用語を覚えることができます。

実際のところ、本書程度の知識さえあれば、
一般向けの記事を読むには不自由しないでしょう。


コンピュータの仕組みやプログラミングの基礎から
機械学習に関する統計学までカバーされています。

数学的に難しい部分は苦しいものの、
少なくとも学習の取っ掛かりは得られます。

熟読しようとは考えずに、
入門書の一冊として、読み流すといった
活用方法がお勧めです。


話題のデータサイエンスの最低限の知識を素早く学びたい、
という人にお勧めの一冊です。
少し専門的な文章も理解できるようになることでしょう。




パラメトリックモデルとは数式を用い、
明示的に関数を定義したモデルのことを指します。


パラメトリックモデルの利点は
一般的にノンパラメトリックモデルに比べ、
モデルを安定してフィットするのに必要な
データ数が比較的少なくすみ、
モデルの推定も容易なことです。


関数型に対して明示的な仮定をおかないモデルのことを、
ノンパラメトリックモデルと呼びます。


線形回帰モデルを適用する際に
統計学では共線性を気にするようによく注意されます。
共線性とは、線形回帰において特徴量間の
相関が強すぎる状況を指します。


ロジスティック回帰とは、出力変数が2値(0か1)の
データを自然にモデリングするため、
0および1があらわれる確率値が出力となるように
線形回帰モデルを拡張したものです。


主成分分析とは多変数のデータを
小変数で表現しなおす手法です。
これを一般的に次元削減と呼びます。
元の変数に相関関係がなければ有効な手法ではありませんが、
株価の時系列など変数の値に比べばらつきを生む主要因が
少ないときには非常に有効な手法になります。


主成分分析の場合、ばらつき(分散)を
多く説明しているものがよいものとされます。


ニューラルネットワークは、
動物の神経システムを模倣した学習モデルの総称です。


ディープニューラルネットワークとは、
3層以上の深い階層をもつニューラルネットワークの総称









engineer_takafumi at 00:15│Comments(0) ★理系本の書評 | ⇒ コンピュータ・情報科学

コメントする

名前
 
  絵文字