わかりやすいデータ解析入門

内山俊郎著（ムイスリ出版 2016.01.27発行）A5判, 248ページ, 2450円+税　ISBN：978-4-89641-244-4
概要：データ解析を学ぶ学生および実践者のための理論と実際の解析について解説・紹介．データマイニングについての基礎理論とデータ解析演習を用意．必要なプログラムのソースコード，コンパイル方法，実行例を提示．
[基礎編]１章:さまざまなデータ解析, ２章:データ解析のための基本操作, ３章:クラスタリング, ４章:識別関数の学習, ５章:確率論と確率モデル, [発展編:行列表現の利用]６章:特徴変換, ７章:行動ログデータの解析, ８章:文書データの解析, 付録Ａ:演習問題解答例と各種データ, 付録Ｂ:参考ソースコード
ソースコードのダウンロード
正誤表，サポート情報
講義用ノート１章，２章補足C++入門1，C++入門2, ３章，４章，５章，７章補足

	\({\boldsymbol x}\) あるいは \({\boldsymbol \mu}\)	\({\boldsymbol x}-{\boldsymbol \mu}\)	\(\\|{\boldsymbol x}-{\boldsymbol \mu}\\|^2\)
札幌市	\((0.0, 0.0)\)	\((-12.8, 7.3)\)	\(12.8^2+7.3^2\)
千歳市	\((23.8,-26.4)\)	\((11.0,-19.1)\)	\(11.0^2+19.1^2\)
江別市	\((14.6, 4.6)\)	\((1.8, 11.9)\)	\(1.8^2+11.9^2\)
重心\({\boldsymbol \mu}\)	\((12.8,-7.3)\)

\({\boldsymbol x}\) あるいは \({\boldsymbol \mu}\)

\({\boldsymbol x}-{\boldsymbol \mu}\)

\(\|{\boldsymbol x}-{\boldsymbol \mu}\|^2\)

札幌市

\((0.0, 0.0)\)

\((-12.8, 7.3)\)

\(12.8^2+7.3^2\)

千歳市

\((23.8,-26.4)\)

\((11.0,-19.1)\)

\(11.0^2+19.1^2\)

江別市

\((14.6, 4.6)\)

\((1.8, 11.9)\)

\(1.8^2+11.9^2\)

重心\({\boldsymbol \mu}\)

\((12.8,-7.3)\)

例えば，空の文書を含む文書データ（３つ組）20ngNoS.datとクラスラベル情報20ng.labelがある場合，下記 reallocateDocId.cppを

//reallocateDocId.cpp #include <iostream> #include <fstream> #include <string> #include <vector> #include <set> #include <sstream> #include <Eigen/Dense> #include <Eigen/Sparse> using namespace Eigen; using namespace std; int main(int argc, char* argv[]){ string fname = argv[1]; // 文書疎行列（3つ組）ファイル string fnameC = argv[2]; //（クラスラベル）ファイル入力 string fnameC2 = argv[3]; //（クラスラベル）ファイル出力 int nRows = 0, nCols = 0; // 行数（ndim）と列数（文書数）を表す変数の宣言 int row, col; double val; string buf; set<int> validDocIds; // 0始まり．有効な文書idの集合 typedef Triplet<double> T; vector<T> triplets; ifstream ifile( fname ); while( getline(ifile,buf) ){ istringstream iss(buf); iss >> row >> col >> val; triplets.emplace_back(T(row-1,col-1,val)); if( row > nRows ) nRows = row; if( col > nCols ) nCols = col; validDocIds.insert(col-1); // 文書idを有効な文書id集合に追加 } ifile.close(); int ndim = nRows; // 行数は，単語種類数（特徴の次元数ndim=M）を表す int nvec = nCols; // 列数は，文書数nvec=Nを表す SparseMatrix<double> spX(ndim,nvec); spX.setFromTriplets(triplets.begin(), triplets.end()); ifstream ifileC( fnameC ); vector<int> vecC; while( getline(ifileC,buf) ) vecC.emplace_back(stoi(buf)-1); ifileC.close(); int Did = 0; ofstream ofileClass( fnameC2 ); for( int i = 0 ; i < nvec ; i++ ){ // すべての文書idについて if( validDocIds.find(i) != validDocIds.end() ){ // 空文書でない有効idなら ofileClass << vecC[i]+1 << endl; for(SparseMatrix<double>::InnerIterator it(spX,i);it; ++it) cout << it.row()+1 << " " << Did+1 << " " << it.value() << endl; Did++; } } }

わかりやすいデータ解析入門-C++による演習

ソースコードのダウンロード

正誤表

サポート情報

ストップワード除去における空の文書除去