>>445
遅レスですが、字幕作成フリーウェアSubtitle EditのAudio to Text(Vosk/Whisper)を使うのはいかがですか
音声・動画ファイルをD&D
音声波形表示部で右クリック、タイムコードの推測を実行
Audio to Textを実行、Voskがおすすめ、様々な言語可

15年前のPCで2倍、2年前のPCで1.2倍ぐらいの時間がかかります
batch modeがあるので、大量のSpeech To Textが可能です
テキストをもっていない昔のNHK英語講座の音声ファイルなどで英語STTで使ってますが、
日本語部分(STT不要部分)→空耳英語として認識
英語部分(STT必要部分)→9割ぐらい認識
して、テキスト化してくれます