Нейросеть для Whisper очень неплохо генерирует текст по аудио. Есть
ошибки, на вскидку, 1% или значительно меньше, но в целом типичный
пороговый уровень человеческого понимания (80%) успешно покрывает с
лихвой. Затем можно затолкать в гуглтранслейт и подобное и получить
субтитры (естественно, только "корявые", тот же гугл теряет смыслы и
акценты, и без ручной правки никуда). На примере лучшего сериала
всех времён и народов, скрин ниже. Как видно, специфическую медицинскую
речь нейросеть переваривает не всегда корректно, но разговорную
определяет почти идеально.
win билд https://github.com/Purfview/whisper-standalone-win/releases
При первом запуске закачиваются веса, на выбор tiny, small, medium, large, large-v1, large-v2 ... :
(wine) whisper-faster.exe --model large-v2 --language en -o ./result -- "файл видео или аудио"
Для win/wine требуется ffmpeg.exe в папке c whisper-faster.exe.
Комментариев нет:
Отправить комментарий