r と MeCab でどこまでのテキストマイニングができるのかを調査中。
まずは単語の出現回数をしらべてみた。
次のようなスクリプトで確認できた。
library(RMeCab) #起動のたびに必要?
txres <- RMeCabFreq("tmp.txt")
#降順にならべかえ
df <- txres[sort.list(txres$Freq , decreasing=TRUE),]
#5回以上出現、名詞のみ
df[df$Freq >= 5 & df$Info1 == "名詞", ]
#ファイル保存(カンマ区切りではない)
write.table(df, "output.txt", quote=F, col.names=T, append=F)
0 件のコメント:
コメントを投稿