あとこの話はもう少し後でしようと思ってたんだが
>>39-41でちょうど出てるから報告しとく

いまメモリに乗らないくらいの大きなデータを扱うために、データベースを経由して
類似判定を行うコードを書いてる
これができればデータがディスクに乗る限り10万でも100万でも処理できるように
なるはずだが、パフォーマンスがどれくらい出るかまだ未知数なので、できたら
テストして報告する