- ナイーブベイズ分類器を例として「確率モデル」を解説.データ解析が
- 「モデルを用いて,データの背後にある特徴や関係を明らかにする」
ことを示す - 分類器を構成する方法は2つ(本章では後者について解説)
- 直接的に識別関数を学習する(4章)
- クラスに属する特徴ベクトル(入力ベクトル)の生成モデルを用いて分類器構成
- 理解に必要な「確率論」を概説(目標:「壺の問題」が解ける)
- 同時確率,事前確率,事後確率.確率計算での対数の利用
- 文書解析などで欠かせない多項モデルをフルーツポンチの例で解説
内山 俊郎 - 北海道情報大学
「アンケート回答のうち,男子は7割で,男子かつコーヒーが好きという人は56%,女子かつコーヒーが好きという人は15%」→確率の表作成
B1 | B2 | 計(周辺) | |
A1 | P(A1,B1)=0.56 | P(A1,B2) | P(A1)=0.7 |
A2 | P(A2,B1)=0.15 | P(A2,B2) | P(A2) |
計(周辺) | P(B1) | P(B2) | 1 |
事象A1:男子の回答である, 事象A2:女子の回答である
事象B1:好きという回答である, 事象B2:嫌いという回答である.
B1 | B2 | 計(周辺) | |
A1 | P(A1,B1)=0.56 | P(A1,B2) | P(A1)=0.7 |
A2 | P(A2,B1)=0.15 | P(A2,B2) | P(A2) |
計(周辺) | P(B1) | P(B2) | 1 |
2つの壺があり,第1の壺には赤玉が2個と白玉が1個,第2の壺には赤玉が1個と白玉が2個入っている.第1の壺と第2の壺は,2:1の確率で選ばれる.今,いずれかの壺を選んで玉を取り出したところ,白玉であった.第1の壺が選ばれていた確率を求めよ.
2つの壺があり,第1の壺には赤玉が2個と白玉が1個,第2の壺には赤玉が1個と白玉が2個入っている.第1の壺と第2の壺は,2:1の確率で選ばれる.今,いずれかの壺を選んで玉を取り出したところ,白玉であった.第1の壺が選ばれていた確率を求めよ.与えられているのは条件付き確率と一部の周辺確率.確率の表作成
A1:第1の壺が選ばれる事象,A2:第2の壺が選ばれる事象,(←既知)
B1:赤玉が選ばれる事象,B2:白玉が選ばれる事象(←未知)
B1 | B2 | 計(周辺) | |
A1 | P(A1,B1)=P(B1|A1)P(A1) | P(A1,B2)=P(B2|A1)P(A1) | P(A1) |
A2 | P(A2,B1)=P(B1|A2)P(A2) | P(A2,B2)=P(B2|A2)P(A2) | P(A2) |
計(周辺) | P(B1) | P(B2) | 1 |
[演習5.5]2つの壺a,bがあり,aの壺には赤玉が2個と白玉が3個,bの壺には赤玉が4個と白玉 が8個入っている.今,どちらかの壺を選んで玉を取り出したところ,赤玉であった.aの壺が選ばれていた確率を求めよ(ヒント:壺aと壺bが選ばれる確率は同じ)
[演習5.6]赤と青の2つの箱があり,赤の箱にはりんごが2個とオレンジが6個,青の箱にはり んごが3個とオレンジが1個入っている.赤い箱は40%,青い箱は60%の確率で選ばれる.今,箱の1つをランダムに選び,フルーツをランダムに1個取り出したところ,オレンジであった.青い箱が選ばれていた確率を求めよ.
トロピカル,クラシック,山形,山梨というラベルが付いた壺があり,それぞれ特徴的なフルーツポンチ.オーダーにより壺を選び,選んだ壺からフルーツポンチをすくい,ボウルに入れて提供.
トロピカル | クラシック | 山形 | 山梨 | |
---|---|---|---|---|
0.5 | 0.05 | 0.03 | 0.05 | |
0.1 | 0.1 | 0.1 | 0.1 | |
0.03 | 0.3 | 0.05 | 0.05 | |
0.03 | 0.1 | 0.15 | 0.5 | |
0.04 | 0.1 | 0.4 | 0.05 | |
0.1 | 0.3 | 0.25 | 0.2 | |
0.2 | 0.05 | 0.02 | 0.05 |
P(Ck|X)=P(Ck)P(X|Ck)P(X)
logP(Ck)+7∑m=1xmlogqkm
平方和最小基準クラスタリングには生成モデルがあり,観測値をモデルに当てはめてモデルパラメータを推定していた(以下の導出は参考)
続き
データ解析入門(第5章) 内山俊郎