さんごー日記。

映画や本やゲームの感想をゆるく記録したり、プログラミングの勉強をゆるく記録するゆるい日記です。

Rのtmパッケージメモ

Rのtmパッケージの関数の日本語の説明が少ない。

「入門 機械学習」に掲載されているコードで使われている関数を中心に、調べる。

英語のドキュメントをなんとなく翻訳してメモする。

 

 

概要

Rのtmパッケージについてぐぐると「Introduction to the tm Package Text Mining in R」という英語の資料が出てくる。8ページほどの短い資料。

https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

 

tmパッケージに含まれる機能は以下のようなものがあります。

 

  • データのインポート
  • コーパスの処理
  • 前処理
  • メタデータの管理
  • 用語の行列の作成

 

 

データ入力(インポート)

VCorpus()やPCorpus()という関数を使ってコーパスオブジェクトを生成する。

また、VCorpus()などの引数にはVectorSource()やDirSorce()の結果を使う。これは元データの読み込みタイプによって使い分ける。ディレクトリを指定するか、ベクトルデータを指定するかという意味。

 

データ出力

writeCorpus()という関数を使ってデータを出力する。

 

データ検査

inspect()という関数を使うとコーパスデータの詳細を表示できる。

print()のちょっとすごい関数。

 

データ変換

ステミングやストップワードの削除ができる。

ステミングというのは語幹が変わる単語の統合。

ストップワードというのは英語だとtheとかaとかの事。

stopwords()といった関数をtm_map()と組み合わせて使ったりする。

 

空白の削除

以下のようにする。

> reuters <- tm_map(reuters, stripWhitespace)

 

小文字化

以下のようにする。

reuters <- tm_map(reuters, content_transformer(tolower))

 

ストップワード削除

> reuters <- tm_map(reuters, removeWords, stopwords("english"))

 

ステミング

> tm_map(reuters, stemDocument)

 

フィルタリング

tm_filter()という関数で条件に合った行を抽出できる。

 

 

いったんここまで。

 

「入門 機械学習」で、 tmパッケージを使ったコードで機械学習の説明がされています。

入門 機械学習

入門 機械学習

  • 作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2012/12/22
  • メディア: 大型本
  • 購入: 2人 クリック: 41回
  • この商品を含むブログ (11件) を見る