音声認識とリアルタイムなフィルタリングはちょっぴり難易度が違うと思う
例えば1秒間に3回「レイプ」を言う場合でも、子音と母音を分割すると
l-e-i-p-u-l-e-i-p-u-l-e-i-p-u
となる

それぞれの母音の範囲は0.1秒にも満たないし、子音から母音、母音から母音の変化も連続的だ
そこに的確にフィルタを適用するのは結構むずい
リアルタイムじゃなきゃまだ余地はあるだろうけど