まず、前提ソフトから入れてみよう!
今回は、一番オーソドックスな kakasi を使うことにした。
他にも、Chasen などを”わかち書き”ソフトとして利用する方法があるようです。
日本語変換に nkf (とperl-NKF)を使用していますが、これは、rpm や、ports などで、簡単にインストールできるので、ここでは、省略します。
kakasi は、http://kakasi.namazu.org/ から最新版をダウンロードします。
適当なディレクトリーに kakasi-2.3.4.tar.gz などを入れて、
tar zxvf kakasi-2.3.4.tar.gz
cd kakasi-2.3.4
./configure
make
make install
これで、終わりです。
次に、マイクロソフトの excel からテキストを抽出するソフト、
xlhtml をインストールします。
前提ソフトとして、tcl と tcsh ガ必要ですが、このインストールも省略します。
xlhtml は、rpm や、ports から入れないと、64ビットに対応したパッチを当てるのが面倒でした。
仕方がないので、私は、yum で入れてしまいました。apt-get か、ports でも多分OKと思います。
どうも、xlhtml-0.5.1.tar.gz は、見つけにくいのでここに置いておきます。
次に、マイクロソフト word からテキストを抽出する、
wv をダウンロードします。
これも、 rpm や、ports からインストールできる様です。
同様に、
tar zxvf wv-1.2.4.tar.gz
cd wv-1.2.4
./configure
make
make install
次に、PDF から、テキストに変換する xpdf ですが、
これは、今はほとんどの Linux でプレインストールされているので省略します。
rpm や、ports で入れてください。
いや、依存関係がややこしいので、yum か、 apt-get の方がよいかも。
ちなみに、公式サイトはこれです。
さて、これだけでは動きません。
Perl のモジュールが必要です。
CPAN.org から、最新のモジュールを入手します。
まず、Text-Kakasi を入れます。
適当なディレクトリーに Text-Kakasi-2.04.tar.gz を入れて
tar zxvf Text-Kakasi-2.04.tar.gz
cd Text-Kakasi-2.04
perl Makefile.PL
make
make install
だいたい、Perl のモジュールの入れ方は同じです。
同様に、File-MMagic IO-stringy OLE-Storage_Lite を入れます。
ここで、ひとつ問題です。
一太郎のテキスト抽出に unicode.pl というのが必要です。
ここから、持ってきます。念のためここにも置いておきます。(注意:名前を付けてリンク先を保存として.txtを.plに)
で、これは、直接 Perl のライブラリーに放り込みます。
cp unicode.pl /usr/lib/perl5/site_perl/5.8.8/.
などとします。
さあ、やっと前提ソフトが揃いました。
おっと、gettext も必要でした。でも、これも、大概プレインストールされています。rpm ports などで入れてください。
namazu をダウンロードしましょう。
適当なディレクトリーで、
tar zxvf namazu-2.0.19.tar.gz
cd namazu-2.0.19
./configure
make
make install
で、/usr/local/ 以下にインストールされました。
|