溢れ出る加齢臭

カレー臭に加え加齢臭が溢れ出る年齢になりました。

自由回答をデータマイニングで分析するのは有用か。

個人的な経験で言えば、難しいと言わざるを得ない。その理由は以下の通り。

  • 回答者によって漢字、カナ、かななど表記の揺れが発生する。
  • 回答者は思いこみで言葉を使うので、固有名詞が間違っていたり、独特の短縮が見られる。
  • 同じ文でも前後の文脈によってニュアンスが変わる。
  • そもそも正しい日本語が書かれていない。送りがながおかしい、助詞が抜けているなど枚挙にいとまがない。

以下の記事で紹介されているKH CODERを使ったことはあるのだが、結局全ての回答を自分で書き直さなければ、集計そのものができなかった。それならば、むしろ自由回答から自分で欲しい分析に必要なデータを抽出する方が早かった。そうしなければ、データマイニングで集計したデータが正しいかどうかの確証が持てない。ちなみにそのとき使ったデータはおよそ8000票である。

自由回答データを定量的な切り口で分析するには? − @IT情報マネジメント