r と MeCab により、頻出語をしらべようと思った。
ところが、ごく一般的な単語のみ抽出されてしまい、特定分野固有の用語の
頻出度がわからなかった。
そこで、よい方法はないか調べていたが、
termmi
というツール?を入れることで可能のようだったので、試してみた。
<termmi のインストール>
Active Perl
ppm install File::MMagic
MeCab
TermExtract "win_install.pl"を実行
termmi "Configure.pl"
IMP_M.BAT へのショートカットを作成し、そこにファイルをドラッグする。
ところがエラーが出る。
<termmi のエラー>
エラー1
Can not open tmp.txt/ at ./termmi.pl line 116.
・次のように修正した。
# ディレクトリ中のテキストファイル一覧を得る
sub get_text_file {
my $dir = shift; # 処理対象ディレクトリ
[追加→] $dir = 'c:\termmi'; # なぜかエラーになるため
$dir .= '/'; # Shift-JIS対策
エラー2
c:\termmi>perl -w mi_mecab.pl tmp.txt
Cleaning working directory
Execute MeCab now
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
output indivisual document score
output total document score
output common terms
output unique terms
(この状態だとoutput などのフォルダはできるものの、
結果が入っていない。)
・次のように修正した。
# 「和布蕪」を実行
sub exec_mecab {
my $dir = shift;
my $file = shift;
[追加→] $dir = 'c:\termmi'; # なぜかエラーになるため
[追加→] $dir .= '/'; # Shift-JIS対策
0 件のコメント:
コメントを投稿