Rのtmパッケージの関数の日本語の説明が少ない。
「入門 機械学習」に掲載されているコードで使われている関数を中心に、調べる。
英語のドキュメントをなんとなく翻訳してメモする。
概要
Rのtmパッケージについてぐぐると「Introduction to the tm Package Text Mining in R」という英語の資料が出てくる。8ページほどの短い資料。
https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
tmパッケージに含まれる機能は以下のようなものがあります。
- データのインポート
- コーパスの処理
- 前処理
- メタデータの管理
- 用語の行列の作成
データ入力(インポート)
VCorpus()やPCorpus()という関数を使ってコーパスオブジェクトを生成する。
また、VCorpus()などの引数にはVectorSource()やDirSorce()の結果を使う。これは元データの読み込みタイプによって使い分ける。ディレクトリを指定するか、ベクトルデータを指定するかという意味。
データ出力
writeCorpus()という関数を使ってデータを出力する。
データ検査
inspect()という関数を使うとコーパスデータの詳細を表示できる。
print()のちょっとすごい関数。
データ変換
ステミングやストップワードの削除ができる。
ステミングというのは語幹が変わる単語の統合。
ストップワードというのは英語だとtheとかaとかの事。
stopwords()といった関数をtm_map()と組み合わせて使ったりする。
空白の削除
以下のようにする。
> reuters <- tm_map(reuters, stripWhitespace)
小文字化
以下のようにする。
reuters <- tm_map(reuters, content_transformer(tolower))
ストップワード削除
> reuters <- tm_map(reuters, removeWords, stopwords("english"))
ステミング
> tm_map(reuters, stemDocument)
フィルタリング
tm_filter()という関数で条件に合った行を抽出できる。
いったんここまで。
「入門 機械学習」で、 tmパッケージを使ったコードで機械学習の説明がされています。
- 作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也
- 出版社/メーカー: オライリージャパン
- 発売日: 2012/12/22
- メディア: 大型本
- 購入: 2人 クリック: 41回
- この商品を含むブログ (11件) を見る