テキストマイニングをしようと思っていることは何度も書いているが、
そのデータを用意するのが一苦労だ。

先日の日記にも書いたが、テキスを1件1件、Excelのセルにコピー。
600件×17項目。

元となるテキストデータは17項目以上の内容が1つのファイルに
書かれているだけなので、どの項目か&どこからどこまでか&
改行の修正などなどを行って、やっと1つのセルにコピーできる。

コツコツやっていると、今は目標600×17だけど、数千×17とかに
なってしまうと、気が遠くなってやる気も萎えてしまいそうなので、
少しでも楽になるように、前処理プログラムを作ることにした。
(Excelの処理でも何とかなるかもしれないけど・・・)

で、作り始めたはいいけれど、久々なので、ちょっとしたことに
異常に時間がかかっている。
む~、がんばろう。。。それしかない。