データ解析入門

さまざまなデータ解析(1章)

画面操作キー(全画面,ワイド表示,ソースコードハイライト)

本講義の学習目標

  • 学習目標:データ解析の基礎の理解
  • データ解析とは:
    • モデルを用いてデータの背後にある関係性を明らかにすること
    • 手段:計算機を使って観測データをモデルにあてはめる
    • 理論の理解と計算機スキルの両方が求められる
  • 印刷授業:仮想マシンによるプログラミングなどの計算機演習を用意
  • 本面接授業:(仮想マシンによる計算機演習は困難)
    • 計算機による演習は行うが,理論の理解を重視
    • 計算機スキル(C++プログラミング)学習(支援サイト参照)
  • 支援サイト[http://www01.do-johodai.ac.jp/IntroDataAnalysis/]

学習の進め方

  • 教科書の第1部(3章〜5章中心)を順に講義
  • 印刷授業の「レポート課題」相当の作成を講義内で実施
    • 計算機による演習は,iPad(JavaScript版)で実施
    • 課題を書いた紙を配布するので,課題を実施して提出
    • 5章では,紙と鉛筆(+電卓)を使った演習
  • 仮想マシンによる演習の様子も紹介
  • 最後に科目試験を実施.主にレポート課題の理解を問う

さまざまなデータ解析

  • 統計解析
    • 3年1組35人のテストの平均と標準偏差を求める(記述統計学)
    • インフルエンザ新薬の有効性を確かめる(検定,推測統計学)
    • 小規模で,解析の目的先にありき
  • 多変量解析(より複雑な統計解析)
  • データマイニング
    • 統計解析や多変量解析に加え,機械学習などを利用
    • 大規模.データ先にありき(何が導けるかも手探りの場合)
    • 集合知:大規模にすることで生じる知識・価値
  • 本講義:主にデータマイニングを行うためのデータ解析入門

データマイニング

  • インターネットや組織に大量のデータ(ビッグデータ
  • データマイニングは,ビッグデータから価値を取り出す手段
  • 文書データ(ビッグデータの例)
    • 大量.使われている単語膨大(高次元データ)
    • 計算機で解析し(クラスタリング),全体像把握
  • 購買ログ
    • ネット商店.誰が何を買った/閲覧したか.利用者数×商品数
    • 計算機で解析し,「オススメ」を提示
  • 解析目的に合わせて十分な処理能力を用意することが必要
  • 理論の理解+計算機スキル(プログラミング等)が重要

データマイニングのTop10アルゴリズム

ICDM(International Conference on Data Mining 2006)

  • 順位と投票数
    • C4.5(61 votes),k-means(60),SVM(58),Apriori(52)
    • EM(48),PageRank(46),AdaBoost(45),k-NN(45)
    • Naive Bayes(45),CART(34)
  • クラスタリングと分類アルゴリズムが多数を占める
    • クラスタリング:{k-means, EM}
    • 分類:{C4.5, SVM, AdaBoost, k-NN, Naive Bayes, CART}
  • 本講義は,クラスタリングアルゴリズムのk-meansと
  • 分類器のナイーブベイズについて,原理を理解し使いこなせるように
  • 数式,プログラムのソースコード,実験用のデータを用意

近年注目のアルゴリズム(モデル)

  • ディープラーニング(Deep Learning)
    • ニューラルネットワークの進化系(第3次ブーム)
    • 1次はパーセプトロン(1958),2次は多層パーセプトロン(1986)
      • パーセプトロンは,4章で紹介.
    • 多層化に伴う学習困難性を克服し,劇的に性能向上.Alpha碁
    • 未解明部分あり(なぜ性能向上?).過大評価の可能性も残る
  • トピックモデル(教科書では8.5節で紹介)
    • クラスタリングの進化系.基礎研究から応用研究まで盛ん.
    • 講義の範囲では,ナイーブベイズで使う多項分布と関連
    • 膨大な文書,音声,画像,行動ログ‥などから特徴を自動抽出
  • 原理の理解(レベルは何段階かある)なしには使いこなせません
  • 本講義も,基礎の一部を提示.地道に理解を進めることが大事

<Thank You!>

データ解析入門(第1章) 内山俊郎