データ解析入門

さまざまなデータ解析（１章）

画面操作キー（全画面，ワイド表示，ソースコードハイライト）

Pressing 'f' toggles fullscreen viewing
Pressing 'w' toggles widescreen
Pressing 'h' highlights code snippets

本講義の学習目標

学習目標：データ解析の基礎の理解
データ解析とは：
- モデルを用いてデータの背後にある関係性を明らかにすること
- 手段：計算機を使って観測データをモデルにあてはめる
- 理論の理解と計算機スキルの両方が求められる
印刷授業：仮想マシンによるプログラミングなどの計算機演習を用意
本面接授業：（仮想マシンによる計算機演習は困難）
- 計算機による演習は行うが，理論の理解を重視
- 計算機スキル（C++プログラミング）学習（支援サイト参照）
支援サイト[http://www01.do-johodai.ac.jp/IntroDataAnalysis/]

学習の進め方

教科書の第１部（３章〜５章中心）を順に講義
印刷授業の「レポート課題」相当の作成を講義内で実施
- 計算機による演習は，iPad（JavaScript版）で実施
- 課題を書いた紙を配布するので，課題を実施して提出
- 5章では，紙と鉛筆（＋電卓）を使った演習
仮想マシンによる演習の様子も紹介
最後に科目試験を実施．主にレポート課題の理解を問う

さまざまなデータ解析

統計解析
- 3年1組35人のテストの平均と標準偏差を求める（記述統計学）
- インフルエンザ新薬の有効性を確かめる（検定，推測統計学）
- 小規模で，解析の目的先にありき
多変量解析（より複雑な統計解析）
データマイニング
- 統計解析や多変量解析に加え，機械学習などを利用
- 大規模．データ先にありき（何が導けるかも手探りの場合）
- 集合知：大規模にすることで生じる知識・価値
本講義：主にデータマイニングを行うためのデータ解析入門

データマイニング

インターネットや組織に大量のデータ（ビッグデータ）
データマイニングは，ビッグデータから価値を取り出す手段
文書データ（ビッグデータの例）
- 大量．使われている単語膨大（高次元データ）
- 計算機で解析し（クラスタリング），全体像把握
購買ログ
- ネット商店．誰が何を買った／閲覧したか．利用者数×商品数
- 計算機で解析し，「オススメ」を提示
解析目的に合わせて十分な処理能力を用意することが必要
理論の理解＋計算機スキル（プログラミング等）が重要

データマイニングのTop10アルゴリズム

ICDM（International Conference on Data Mining 2006）

順位と投票数
- C4.5(61 votes)，k-means(60)，SVM(58)，Apriori(52)
- EM(48)，PageRank(46)，AdaBoost(45)，k-NN(45)
- Naive Bayes(45)，CART(34)
クラスタリングと分類アルゴリズムが多数を占める
- クラスタリング：{k-means, EM}
- 分類：{C4.5, SVM, AdaBoost, k-NN, Naive Bayes, CART}
本講義は，クラスタリングアルゴリズムのk-meansと
分類器のナイーブベイズについて，原理を理解し使いこなせるように
数式，プログラムのソースコード，実験用のデータを用意

近年注目のアルゴリズム（モデル）

ディープラーニング（Deep Learning）
- ニューラルネットワークの進化系（第3次ブーム）
- 1次はパーセプトロン(1958)，2次は多層パーセプトロン(1986)
  - パーセプトロンは，4章で紹介．
- 多層化に伴う学習困難性を克服し，劇的に性能向上．Alpha碁
- 未解明部分あり（なぜ性能向上？）．過大評価の可能性も残る
トピックモデル（教科書では8.5節で紹介）
- クラスタリングの進化系．基礎研究から応用研究まで盛ん．
- 講義の範囲では，ナイーブベイズで使う多項分布と関連
- 膨大な文書，音声，画像，行動ログ‥などから特徴を自動抽出
原理の理解（レベルは何段階かある）なしには使いこなせません
本講義も，基礎の一部を提示．地道に理解を進めることが大事

<Thank You!>

データ解析入門（第1章）内山俊郎