суббота, 19 августа 2023 г.

Нейросеть Whisper для получения текста из аудио/видео

Нейросеть для Whisper очень неплохо генерирует текст по аудио. Есть ошибки, на вскидку, 1% или значительно меньше, но в целом типичный пороговый уровень человеческого понимания (80%) успешно покрывает с лихвой. Затем можно затолкать в гуглтранслейт и подобное и получить субтитры (естественно, только "корявые", тот же гугл теряет смыслы и акценты, и без ручной правки никуда). На примере лучшего сериала всех времён и народов, скрин ниже. Как видно, специфическую медицинскую речь нейросеть переваривает не всегда корректно, но разговорную определяет почти идеально.
win билд https://github.com/Purfview/whisper-standalone-win/releases

При первом запуске закачиваются веса, на выбор tiny, small, medium, large, large-v1, large-v2 ... : 

(wine) whisper-faster.exe --model large-v2 --language en -o ./result -- "файл видео или аудио"

Для win/wine требуется ffmpeg.exe в папке c whisper-faster.exe.

 


Комментариев нет:

Отправить комментарий

Резюме - бэкап от 6 ноября 2023 г.

Прочнист, инженер-прочнист, инженер-исследователь, инженер-математик Специализации: Учитель, преподаватель, педагог Инженер-конструктор, инж...