自然言語処理方面は詳しくないけど、経験的な話で。
発言内容を元に人物を統計・機械学習的手法で分類するというのは難しいと思う。
・psbに貼ったデータ量じゃ少なすぎ(経験的
・内容に偏りがありすぎる(不均衡データ)
・psbにはたれたec-発言一覧の中で、どれが真ec-、偽ec-かわからない->教師データを作りようがない
この状況で適当に結果を出せたとしても根拠が薄い

固有名詞?特定単語?を抜き出して割合を出してるのも、
そもそもドルアンしおかのcottageからデータを持ってきてるわけで
{'栞': '0.30', '桜': '0.26', '羽衣': '0.04', '玉': '0.06', '楠': '0.02', '塩': '0.04'}
↑このあたりの単語に意味がある(特徴ベクトルとして)のか?
ドルアンしおかのcottageから持ってきてるんだが、「栞」も「桜」も「塩」も一般的過ぎないか?