ある社内ＳＥのヒント集: 専門用語の抽出

r と　MeCab により、頻出語をしらべようと思った。
ところが、ごく一般的な単語のみ抽出されてしまい、特定分野固有の用語の
頻出度がわからなかった。

そこで、よい方法はないか調べていたが、

termmi

というツール？を入れることで可能のようだったので、試してみた。

＜termmi のインストール＞

Active Perl
ppm install File::MMagic
MeCab
TermExtract　"win_install.pl"を実行
termmi　"Configure.pl"

IMP_M.BAT へのショートカットを作成し、そこにファイルをドラッグする。
ところがエラーが出る。

＜termmi のエラー＞

エラー１
Can not open tmp.txt/ at ./termmi.pl line 116.

・次のように修正した。

# ディレクトリ中のテキストファイル一覧を得る
          sub get_text_file {
              my $dir = shift; # 処理対象ディレクトリ
[追加→]    $dir = 'c:\termmi'; # なぜかエラーになるため
              $dir .= '/';     # Shift-JIS対策

エラー２
c:\termmi>perl -w mi_mecab.pl tmp.txt
Cleaning working directory
Execute MeCab now
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
指定されたパスが見つかりません。
output indivisual document score
output total document score
output common terms
output unique terms

（この状態だとoutput などのフォルダはできるものの、
　結果が入っていない。）

・次のように修正した。

# 「和布蕪」を実行
          sub exec_mecab {
              my $dir = shift;
              my $file = shift;
[追加→]    $dir = 'c:\termmi'; # なぜかエラーになるため
[追加→]    $dir .= '/';     # Shift-JIS対策

ある社内ＳＥのヒント集

2013年4月15日月曜日

専門用語の抽出

0 件のコメント:

コメントを投稿