2013年4月12日金曜日

r テキストマイニング

r と MeCab でどこまでのテキストマイニングができるのかを調査中。

まずは単語の出現回数をしらべてみた。

次のようなスクリプトで確認できた。

library(RMeCab) #起動のたびに必要?

txres <- RMeCabFreq("tmp.txt")

#降順にならべかえ
df <- txres[sort.list(txres$Freq , decreasing=TRUE),]

#5回以上出現、名詞のみ
df[df$Freq >= 5 & df$Info1 == "名詞", ]

#ファイル保存(カンマ区切りではない)
write.table(df, "output.txt", quote=F,  col.names=T, append=F)

0 件のコメント:

コメントを投稿