3つめの事例のテキストマイニングを進めています。
総数(n数)は、これまでの2つの事例とほぼ変わらず4百数十件なのですが、件数の分布がこれまでの事例とは異なっていて、結構偏っています。
集計は年単位で行っているのですが、今日処理した2002年の分は、71件。
この後の2年位は更に増えます。

事前処理の確認をしながら、テキストマイニングを行っているのですが、本日対象とした71件の内、1件が事前処理されていないことが分かる。
これは、事前処理した総数と元データに含まれる数との比較でわかったのですが、どの元データが事前処理されていないのか分からない。
仕方が無いので、テキストマイニングの処理を70件済ませてから探すことに。
実際、その方が効率が良かったと思われる。

何とか残り1件を見つけ出して、テキストマイニング処理を行う。
そうこうしてたら、こんな時間。
明日も眠そうな目で仕事だな。。。