Rのtmパッケージメモ - さんごー日記。

Rのtmパッケージの関数の日本語の説明が少ない。

「入門機械学習」に掲載されているコードで使われている関数を中心に、調べる。

英語のドキュメントをなんとなく翻訳してメモする。

Rのtmパッケージについてぐぐると「Introduction to the tm Package Text Mining in R」という英語の資料が出てくる。8ページほどの短い資料。

tmパッケージに含まれる機能は以下のようなものがあります。

VCorpus()やPCorpus()という関数を使ってコーパスオブジェクトを生成する。

また、VCorpus()などの引数にはVectorSource()やDirSorce()の結果を使う。これは元データの読み込みタイプによって使い分ける。ディレクトリを指定するか、ベクトルデータを指定するかという意味。

writeCorpus()という関数を使ってデータを出力する。

inspect()という関数を使うとコーパスデータの詳細を表示できる。

print()のちょっとすごい関数。

ステミングやストップワードの削除ができる。

ステミングというのは語幹が変わる単語の統合。

ストップワードというのは英語だとtheとかaとかの事。

stopwords()といった関数をtm_map()と組み合わせて使ったりする。

以下のようにする。

> reuters <- tm_map(reuters, stripWhitespace)

以下のようにする。

reuters <- tm_map(reuters, content_transformer(tolower))

> reuters <- tm_map(reuters, removeWords, stopwords("english"))

> tm_map(reuters, stemDocument)

tm_filter()という関数で条件に合った行を抽出できる。

いったんここまで。

「入門機械学習」で、 tmパッケージを使ったコードで機械学習の説明がされています。