Я делал методички по обучающим видео. Там не просто речь, а иногда термины, цифры, акценты. Искал сервис, где можно не просто получить текст, но и чтобы распознавание было максимально точным. В итоге стал использовать инструмент, который делает преобразование аудио и видео в текст:
https://pr-cy.ru/speech-to-text/ . У него достаточно простой интерфейс, с ним легко работать: загружаешь ролик и получаешь расшифровку. Ещё удобно, что всё это онлайн, без установки программ.