データ解析入門
さまざまなデータ解析(1章)
画面操作キー(全画面,ワイド表示,ソースコードハイライト)
- Pressing 'f' toggles fullscreen viewing
- Pressing 'w' toggles widescreen
- Pressing 'h' highlights code snippets
本講義の学習目標
学習の進め方
- 教科書の第1部(3章〜5章中心)を順に講義
- 印刷授業の「レポート課題」相当の作成を講義内で実施
- 計算機による演習は,iPad(JavaScript版)で実施
- 課題を書いた紙を配布するので,課題を実施して提出
- 5章では,紙と鉛筆(+電卓)を使った演習
- 仮想マシンによる演習の様子も紹介
- 最後に科目試験を実施.主にレポート課題の理解を問う
さまざまなデータ解析
- 統計解析
- 3年1組35人のテストの平均と標準偏差を求める(記述統計学)
- インフルエンザ新薬の有効性を確かめる(検定,推測統計学)
- 小規模で,解析の目的先にありき
- 多変量解析(より複雑な統計解析)
- データマイニング
- 統計解析や多変量解析に加え,機械学習などを利用
- 大規模.データ先にありき(何が導けるかも手探りの場合)
- 集合知:大規模にすることで生じる知識・価値
- 本講義:主にデータマイニングを行うためのデータ解析入門
データマイニング
- インターネットや組織に大量のデータ(ビッグデータ)
- データマイニングは,ビッグデータから価値を取り出す手段
- 文書データ(ビッグデータの例)
- 大量.使われている単語膨大(高次元データ)
- 計算機で解析し(クラスタリング),全体像把握
- 購買ログ
- ネット商店.誰が何を買った/閲覧したか.利用者数×商品数
- 計算機で解析し,「オススメ」を提示
- 解析目的に合わせて十分な処理能力を用意することが必要
- 理論の理解+計算機スキル(プログラミング等)が重要
データマイニングのTop10アルゴリズム
ICDM(International Conference on Data Mining 2006)
- 順位と投票数
- C4.5(61 votes),k-means(60),SVM(58),Apriori(52)
- EM(48),PageRank(46),AdaBoost(45),k-NN(45)
- Naive Bayes(45),CART(34)
- クラスタリングと分類アルゴリズムが多数を占める
- クラスタリング:{k-means, EM}
- 分類:{C4.5, SVM, AdaBoost, k-NN, Naive Bayes, CART}
- 本講義は,クラスタリングアルゴリズムのk-meansと
- 分類器のナイーブベイズについて,原理を理解し使いこなせるように
- 数式,プログラムのソースコード,実験用のデータを用意
近年注目のアルゴリズム(モデル)
- ディープラーニング(Deep Learning)
- ニューラルネットワークの進化系(第3次ブーム)
- 1次はパーセプトロン(1958),2次は多層パーセプトロン(1986)
- 多層化に伴う学習困難性を克服し,劇的に性能向上.Alpha碁
- 未解明部分あり(なぜ性能向上?).過大評価の可能性も残る
- トピックモデル(教科書では8.5節で紹介)
- クラスタリングの進化系.基礎研究から応用研究まで盛ん.
- 講義の範囲では,ナイーブベイズで使う多項分布と関連
- 膨大な文書,音声,画像,行動ログ‥などから特徴を自動抽出
- 原理の理解(レベルは何段階かある)なしには使いこなせません
- 本講義も,基礎の一部を提示.地道に理解を進めることが大事
<Thank You!>
データ解析入門(第1章) 内山俊郎