Авто субтитры для аудио
Обзор и тест сервисов для автоматического создания субтитров
С 1 января 2020 года телеканалы обязали обеспечить доступность транслируемого контента для инвалидов по слуху в объеме не менее 5% от общего недельного трафика. Один из самых явных способов исполнения требований закона — использование субтитров. Идея логичная, но, как и большинство подобных идей, она имеет серьезные препятствия для применения на практике.
Во-первых, ГОСТ, регламентирующий создание и демонстрацию субтитров, предъявляет очень высокие требования к конечному продукту. Для выполнения такой работы должны привлекаться узкопрофильные специалисты с большим опытом.
Во-вторых, качество распознавания голоса также может внести коррективы в планы его использования.
Мы решили проверить, насколько имеющиеся на рынке продукты подходят для автоматического создания субтитров.
Существующие системы можно разделить на два класса: общего назначения и специализированные. Первые решают разнообразные задачи, в том числе связанные с преобразованием речи в текст. Вторые разработаны непосредственно для создания субтитров.
Из систем общего назначения, поддерживающих русский язык, мы обратили внимание на наиболее известные.
Это облачное решение для конвертации речи в текст на основе нейронных сетей. Система автоматически распознает и определяет более 120 языков, достаточно точно транскрибирует имена собственные и числительные, сама расставляет знаки препинания. В ней есть голосовое управление. Решение работает с несколькими предварительно созданными моделями распознавания. Они привязаны к конкретным ситуациям. Это может быть, например, показ баскетбольного матча по ТВ, звонок клиента в банковскую службу поддержки с вопросом о кредитной карте, обращение пользователя к умному телевизору с просьбой запустить ТВ-эпизод.
Службы речи от Microsoft
Обладает широким диапазоном возможностей распознавания и создания речи в режиме реального времени, включая транскрибирование речи, преобразование текста в речь и наоборот, а также перевод речи. Система адаптирует базовые модели с учетом конкретных акустических и языковых данных, формирует рейтинг наиболее распространенных слов.
Пользователям доступна настройка акустической модели — классификатора, сопоставляющего краткие звуковые фрагменты с одной из нескольких фонем или звуковыми единицами каждого из представленных языков (более 40). Это помогает более точно распознать речь в нетипичных ситуациях, например в шумной среде.
Распознает аудио или озвучивает любой текст на нескольких языках: русском, английском и турецком. Именно на основе SpeechKit работает «Алиса» — голосовой помощник «Яндекса».
В основном система фокусируется на распознавании коротких фрагментов и, хотя это явно и не обозначено в документации, в первую очередь предназначена для создания голосовых помощников.
Это сервис автоматического транскрибирования аудио- и видеофайлов на основе искусственного интеллекта (ИИ). Платформа решает ряд профессиональных задач, например транскрибирование записей встреч, интервью или переговоров. Отличительная особенность — функция проверки и редактирования результата, который можно сравнить с оригинальной записью. Система поддерживает достаточно много аудио- и видеоформатов, а также форматов экспорта.
Заказчики вправе запускать Trint из облака либо инсталлировать на своих компьютерах. Разработчик отмечает, что система может быть полезна в таких отраслях, как маркетинг, СМИ, наука, юриспруденция, судебное производство, законотворчество и здравоохранение. Пользователям доступна также веб-версия и приложение для iOS.
AppTek Subtitling and Captioning
Данное решение управляет рабочим процессом создания титров и субтитров в режиме реального времени или на стадии постпродакшена. AppTek применяет нейронные сети для анализа и расшифровки текстовых данных и речи, что существенно повышает точность перевода. Отметим, что сервису доступна интеллектуальная линейная сегментация файлов (линейное членение речевого потока на составляющие отрезки — прим. ред.) и создание метаданных.
Продукт от AppTek имеет много областей применения (кол-центры, ретейл, госорганизации, адаптация людей с ограниченными возможностями), его несложно кастомизировать. Количество распознаваемых языков и диалектов — более 30.
Основанная на ИИ система превращает голосовые данные в текст для последующего анализа в реальном времени или при загрузке аудио- или видеофайлов. Диапазон форматов импорта и экспорта довольно широкий. Отличительная особенность — оптимизированная работа с акцентами языков, а также с набором звуков и пользовательским словарем, который можно пополнить контекстно зависимыми словами. Это помогает заранее определить обстоятельства разговора. Кроме того, система способна идентифицировать говорящего.
Платформу от Speechmatics можно запускать из облака или инсталлировать на компьютеры предприятия. Она подойдет для кол-центров, СМИ, телерадиовещателей. В платной версии предусмотрена интеграция с интерфейсом прикладного программирования.
А теперь перейдем непосредственно к тесту платформ.
Для сравнения результатов мы выбрали фрагменты из фильма «Служебный роман». Дело в том, что в нем много разговоров, в том числе на фоне музыки и постороннего шума, но при этом не используются специальные подавляющие эффекты.
Во время исследования мы использовали методику, предложенную Европейским вещательным союзом. Она основана на метрике Word Error Rate (WER). По сути, WER — это количество ошибок, разделенное на общее количество слов. Чтобы получить искомое значение, нужно сложить такие параметры, как замены, вставки и удаления, которые встречаются в последовательности распознанных слов. Полученное число делим на общее количество слов, которое высчитывается с помощью суммирования замен, удалений и правильных слов. Результатом является WER.
· Замена происходит, когда слово заменяется другим
· Вставка обозначает добавление слова, которое не было сказано
· Удаление происходит, когда слово полностью исключается из транскрибирования
Формула метрики такова:
Низкое значение WER указывает на то, что система точнее распознает речь, и наоборот.
Результаты представлены в таблице.
А теперь самое интересное — как системы на практике справились с задачей транскрибирования? Для эксперимента мы выбрали речевой фрагмент из того же фильма.
Системы транскрибировали фрагменты следующим образом:
· Службы речи от Microsoft (0.393544 WER)
· Speechmatics (0.409341 WER)
· Yandex SpeechKit (0.554602 WER)
· Google Speech-to-Text (0.564904 WER)
· AppTek (0.812500 WER)
Назначается за единицу времени: чем длиннее исходный медиафайл, тем больше заплатит пользователь. Но здесь есть и исключения. К тому же почти все платформы предлагают бесплатные опции. Оговоримся сразу, что ниже мы обозначили только порядок цен, конечная стоимость услуги будет зависеть от ваших индивидуальных задач и количества пользователей.
Итак, сервис Microsoft готов бесплатно транскрибировать 5 часов аудио для 1 одновременного запроса, далее от 62,5 рублей за час аудио для 20 одновременных запросов.
Yandex SpeechKit попросит примерно 36 рублей за 60 минут аудио. В качестве бонуса облачный сервис дарит 4000 рублей на 2 пробных месяца.
AppTek и Speechmatics не раскрывают прайсы на своих сайтах. Для получения ценового предложения необходимо отправить запрос.
Лидерами рейтинга стали системы от Microsoft и Trint. Они показали самое низкое значение WER.
Невысокая точность речевого распознавания системой «Яндекса» объясняется тем, что решение рассчитано в первую очередь на голосовые помощники. Удивили относительно низкие показатели Google. Возможно, компания уделяет меньше внимания региональным языкам по отношению к английскому.
Близкий по значению индекс WER лидирующей тройки, скорее всего, говорит о том, что разработчики используют очень близкие подходы/модели. Хотя вполне возможен и тот факт, что дело в наборе тестовых данных, на которых они тренируются. Если используются одни и те же открытые наборы данных, то результаты могут быть похожими.
Тем не менее все инструменты, даже лидеры рейтинга, не подходят для субтитрирования ТВ-контента в полностью автономном режиме. Ясно, что для получения более качественного результата необходима специализация именно на телевизионных субтитрах. Разработчики больше сосредоточены на других сценариях применения своих сервисов.
Платформам еще только предстоит научиться не обращать внимание на сопутствующую звуковую завесу (музыку, окружающие шумы), чтобы безошибочно вычленять речь из общего аудиопотока и преобразовывать ее в текст. Следующим важным шагом может стать автоматическая расстановка пунктуации. В общем, разработчикам еще есть, над чем поломать голову.
Подпишитесь на канал «Телеcпутника» в Telegram: перейдите по инвайт-ссылке или в поисковой строке мессенджера введите @telesputnik, затем выберите канал «ТелеСпутник» и нажмите кнопку +Join внизу экрана.
Подпишитесь на канал «Телеcпутника» в Telegram: перейдите по инвайт-ссылке или в поисковой строке мессенджера введите @telesputnik, затем выберите канал «ТелеСпутник» и нажмите кнопку +Join внизу экрана.
7 трюков для понимания видео на иностранном языке, который не знаешь
Представим ситуацию, что есть видео на немецком (японском, корейском, английском) и вам надо быстро узнать о чем в нем говорят. Но навык понимания устной речи на этом языке у вас развит очень плохо или отсутствует. Что делать?
Расскажем о некоторых трюках, которые могут пригодиться в такой ситуации.
1. Скачиваем субтитры
Наличие текстовой версии видео очень помогает в этой ситуации. Ее можно скопировать в Google Translate или читать со словарем.
2. Ищем видео с субтитрами
Если Downsub выдал сообщение об отсутствии субтитров, то можно попробовать поискать на YouTube его копию, но уже с субтитрами. Это можно сделать с помощью расширенного поиска.
3. Автоматически создаем субтитры
Если версии с субтитрами для интересного вас видео на YouTube нет, то можно загрузить оригинальный файл на свой канал (не забудьте указать настройку «Доступ по ссылке» или «Ограниченный доступ») и воспользоваться функцией автоматического создания субтитров.
Если у вас нет исходного файла с роликом, а есть только ссылка на него, то попробуйте скачать его с помощью сайта ru.savefrom.net.
Как автоматически создать субтитры? Очень просто. YouTube самопроизвольно пытается транслировать в текст все видео на русском, английском, французском, немецком, испанском, итальянском, нидерландском, португальском, корейском и японском.
Ссылка на автоматически созданные субтитры появляется через некоторое время после загрузки видео. Для трехминутного ролика их пришлось ждать больше пяти минут. Субтитры для видео, которые размещены на вашем канале можно скачать непосредственно с YouTube.
Иногда текст получается вполне себе соответствующим видео. Но если речь в нем звучит непонятно, то результат может рассмешить и удивить. Справка YouTube предупреждает, что для роликов совсем плохого качества автоматически субтитры могут так и не сгенерироваться.
Этот способ — неплохой лайфхак для студентов. Задали посмотреть трехчасовое видео с лекцией? Автоматически созданный файл с субтитрами и Command+F поможет быстро найти в каких отрезках ролика освещаются нужные вам темы.
4. Конвертируем аудио в видео
5. Преобразуем речь в текст
Если вам не нужно переводить все видео целиком, а только понять только короткие отдельные фрагменты, то удобнее воспользоваться плагином SpeechLogger для браузера Google Chrome.
Естественно, с его помощью можно преобразовать в текст и весь ролик. В плагине удобно работать с кусочками текста (записывать по одной фразе и сразу корректировать ошибки).
Готовый результат можно сохранить на Google Drive или скачать себе на компьютер для дальнейшего редактирования.
Как и в случае с автоматическими субтитрами, качество результата — лотерея. Неторопливая речь человека с хорошей дикцией на простую бытовую тему может распознаваться на отлично. А быстрый монолог с фоновыми шумами плагин может проигнорировать.
6. Меняем настройки воспроизведения
Способ очень банальный, но очень действенный. Если в два раза уменьшить скорость воспроизведения, то звук воспринимается совершенно по другому. Это касается не только людей, но и плагинов/приложений для распознавания речи. Чем медленнее темп, тем меньше они делают ошибок.
7. Пробуждаем свой мозг
Этот способ подходит для тех, кто очень хорошо понимает печатный текст на иностранном языке, но немного тормозит с пониманием устной речи. Такое бывает, когда статьи и книги приходится читать каждый день, а смотреть видео/слушать аудио гораздо реже или почти никогда.
Перед просмотром ролика на какую-то тему надо взять несколько статей на эту же тему (чтоб терминов побольше) и прослушать их с помощью плагина SpeakIt. При этом не забывать внимательно вчитываться в текст и соотносить его со звуком. В настройках расширения можно поменять женский голос на мужской, который звучит приятнее и понятнее.
Кому-то достаточно 20 минут, чтобы проснулись навыки понимания устной речи (при условии, что вы их когда-то отрабатывали), а кому-то ощутимо больше. Эффект такой же, как при визите в другую страну. Сначала легкий шок, но в течении нескольких дней все слова и фразы, которые когда-то были выучены вспоминаются и речь людей вокруг из шумового фона постепенно превращается в нечто осмысленное и понятное.
В заключении стоит напомнить, что перевод — совсем недорогая услуга. В случае с английским это будет стоить не более 100 рублей за каждую минуту расшифровки аудио/видео + 200-400 рублей за страницу переведенного текста. Для других языков выйдет немного дороже.
В Google Chrome появились субтитры для любого аудио и видео на сайтах
Функция «Автоматические субтитры» доступна для Windows, macOS и Linux
Компания Google официально объявила о выпуске давно ожидаемой функции Live Caption (Автоматические субтитры) в фирменном десктопном браузере Chrome.
Автоматические субтитры для видео- и аудиоконтента стали доступны в Chrome для Windows, macOS и Linux.
Изначально Google представила функцию Live Caption в 2019 году вместе с операционной системой Android 10. «Автоматические субтитры» полностью оправдывают своё название — они автоматически преобразуют речь в текст. Долгое время она была «эксклюзивом» для избранных моделей смартфонов.
В прошлом году функцию начали испытывать в тестовых сборках Chrome, а в феврале 2021 года она появилась как экспериментальная в стабильной версии Chrome 88. Теперь же функцию не требуется активировать специальным флагом на странице тестовых функций chrome://flags. Она включается и отключается в разделе дополнительных настроек Chrome «Спец. возможности».
Субтитры доступны для самых разных сайтов — в социальных сетях, видеохостингах, подкастах, интернет-радио, персональных видеобиблиотеках, таких как Google Photos (Google Фото), встроенных видеоплеерах, а также в большинстве веб-версий сервисов видео- или аудиочатов.
Как автоматически создавать субтитры для ваших видео с помощью бесплатных инструментов
Если вам когда-либо приходилось вручную добавлять подписи и метки времени для видео увеличенной длины, вы поймете, насколько сложным это может быть процесс. Существуют различные бесплатные и профессиональные продукты, которые могут распознавать речь и расшифровывать аудио, чтобы вы могли манипулировать ими с помощью программного обеспечения для создания субтитров. Мы опишем один из таких методов с использованием мощного автоматического ИИ для создания субтитров Youtube и бесплатного программного обеспечения с открытым исходным кодом youtube-dl.
Установление ожиданий
Я хотел бы ограничить ожидания при использовании любого решения для преобразования текста в речь. Ни один из них не работает 100% времени. Будут обнаружены ошибки записи, которые необходимо будет просмотреть и отредактировать. Однако большая часть работы будет просто переписана, что сэкономит вам кучу времени и головной боли. Во-вторых, я предполагаю, что вам нужны субтитры для видео, которое не обязательно будет просматриваться на сайте обмена видео, таком как YouTube. Иногда вам нужны подписи для других целей, что является нашей целью.
После того, как вы создали свой контент
Первое, что вы сделаете, это загрузите свой видеофайл в YouTube. Мне нравится использовать транскрибер YouTube, поскольку он также автоматически добавляет метки времени к вашим субтитрам, которые вы, в свою очередь, можете загрузить с помощью программы youtube-dl, описанной ниже. Кроме того, вы можете при желании использовать Watson (Да, искусственный интеллект конкурса опасностей), чтобы сделать расшифровку за вас, но тогда вам придется создавать временные метки самостоятельно.
Мы будем загружать видео файлы в приватном режиме. Это позволяет нам держать видеофайлы под нашим контролем и не делиться ими с миром. Помните, у меня YouTube делает только быструю и грязную расшифровку видеофайла, который я хочу обработать локально на моем компьютере. После расшифровки мы можем полностью удалить его с YouTube, если вы захотите. После того, как вы создали свой видеофайл на своем компьютере, сделайте следующее.
Теперь вы ждете, пока YouTube сделает свое дело, транскрибируя аудиофайл видео в субтитры с помощью своего ИИ. Время, которое это может занять, зависит от того, насколько загружены серверы YouTube. У меня были часовые видео, расшифрованные за 10 минут. Я также записал десятиминутные видеоролики за несколько часов. Терпение здесь — ключ к успеху. Вы узнаете, что субтитры были добавлены автоматически, когда вы сможете выбрать опцию CC внизу видео.
Чтобы получить доступ к автоматически созданным подписям, нам нужно использовать youtube-dl. Youtube-dl — бесплатное программное обеспечение с открытым исходным кодом, которое вы можете скачать напрямую от сопровождающих или вы можете использовать менеджер пакетов, например Варить чтобы скачать двоичные файлы. Чтобы получить полное руководство по установке диспетчера пакетов Brew, чтобы вы могли получить доступ к сотням удивительного бесплатного программного обеспечения с открытым исходным кодом прямо из вашего терминала, ознакомьтесь с нашим руководством по установке Brew. Предполагая, что у вас уже установлен Brew, сделайте следующее.
После установки мы можем теперь использовать youtube-dl для загрузки подписей. Поскольку мы загрузили наш видеофайл и установили его частный доступ, нам придется использовать наши учетные данные YouTube, чтобы получить доступ к видеофайлу и извлечь подписи и временные метки. Мы также будем избегать повторной загрузки видеофайла, поскольку он уже есть на нашем компьютере. Вот как мы это делаем.
При необходимости измените вашу информацию.
После того, как вы нажмете Enter, ваши подписи будут сохранены в формате WEBVTT с отметками времени в текущем рабочем каталоге терминала.
Заключительные комментарии
Ну это все! Теперь вы можете использовать эти подписи и при необходимости изменять их. Исправляйте ошибки, добавляйте их в свои собственные видео для публикации и т. Д. Есть много других способов использовать свободно доступный AI для преобразования вашего видео и аудио в текст, например SirI и Google Docs. Вы можете увидеть, что лучше всего подходит для вас, и сообщить нам в комментариях, как у вас дела!
Отличное программное обеспечение для редактирования видео для вашего Mac
Вам не нужно покупать дорогое программное обеспечение для редактирования видео, чтобы выполнить свою работу. Вот одни из самых популярных программ для редактирования видео для Mac на рынке сегодня.
Как добавить субтитры к видео, фильму (находим и включаем уже готовые, или создаем свои)

При просмотре определенных видео — очень желательно включать субтитры* (например, для изучения иностранного языка, при плохом звуке, шипении, когда никак не удаётся разобраться что за слово произносит диктор и пр.). Тем более это актуально для людей с нарушением слуха.
Субтитры — это текстовое содержание диалога (или того, что происходит на видео), появляющееся в нижней части окна.
Вообще, для большинства популярных видео (фильмов) — включить субтитры не представляется сложным (главное, иметь нужный плеер 👌).
Ниже в заметке я хочу рассмотреть не только этот вопрос, но и создание своих собственных субтитров (например, если вы захотели к какому-то домашнему видео сделать свои текстовые примечания. ).
Способы вкл. (вставки) субтитров
На YouTube (и др. онлайн-сервисах / кинотеатрах)
На компьютере
Сразу хочу отметить, что не ко всем видео на YouTube можно включить субтитры (зависит как от видео, так и от настроек, которые задал автор ролика*).
В общем случае достаточно кликнуть в нижней части окна воспроизведения по спец. значку 
Включаем субтитры на YouTube (скриншот телепередачи НТВ с YouTube)
Обратите внимание, что YouTube предлагает на выбор несколько вариантов субтитров:
Настройки YouTube (скрин с онлайн-сервиса)
Кстати, если на YouTube субтитров к нужному видео нет — попробуйте найти ролик (фильм) на других сервисах. Например, у Яндекса на hd.kinopoisk можно смотреть как русские, так и англ. субтитры! Плюс см. ссылки ниже. 👇
1) Где еще можно посмотреть видео, кроме YouTube (аналоги видеосервиса).
2) Лучшие сайты для просмотра фильмов и сериалов онлайн: топ-10 легальных кинозалов в сети!
Скрин с сайта hd.kinopoisk
На телефоне
1) Запускаем просмотр нужного видео в браузере Google Chrome.
2) Кликаем по окну с видео и открываем его настройки (не перепутайте с настройками самого браузера!).
3) В строке «Субтитры» выберите нужную версию (если есть из чего. 😉).
Включение субтитров на YouTube с телефона
Если нужное видео на YouTube идет без субтитров — совет аналогичный: попробуйте его найти 👉 на др. сервисах.
В видеоплеере
Если субтитры идут вместе с фильмом (роликом)
Вообще, мне давно нравится (по целому ряду причин) один простой проигрыватель 👉 Light Alloy.
В плане субтитров — тут все очень быстро и легко: достаточно просто нажать по значку 
Light Alloy — отображение субтитров / Скрин из фильма «Oz the Great and Powerful»
Кстати, если кликнуть правой кнопкой мыши по этому же значку — то вы сможете вручную выбрать нужные вам субтитры ( примечание : иногда их может быть несколько к одному фильму/видео).
Выбор субтитров Light Alloy
Если субтитров нет
Не все фильмы и видеофайлы, которые вы загружаете, идут с субтитрами. Но ко многим файлам — их достаточно легко найти!
Кстати, субтитры обычно идут в файле формата «SRT». Этот файл необходимо поместить в папку вместе с файлом видео. Плюс переименовать его один в один, как название фильма. 👇
Файл субтитров обычно в формате SRT
Теперь, открыв просмотр видео в плеере, он автоматически найдет субтитры и отобразит их. Легко?! 👌
Выбор субтитров — Light Alloy
Создать свои субтитры к видео
Способ 1: автоматический (загрузить видео на YouTube)
Если у вас есть свой канал на YouTube — то добавить субтитры к видео можно в автоматическом режиме (они не всегда идеальные, но в целом качество достойное).
Примечание : эта функция доступна не для всех языков! Для русского, английского, немецкого, французского — это работает.
Процесс создания и добавления субтитров очень простой:
Субтитры к видео (меню автора)
Функция автоматических субтитров есть и на др. сервисах: Facebook, VEED.IO, Kapwing, Amara и пр.
Способ 2: ручной (создаем файл SRT сами)
Кратко опишу, как с ней работать.
1) После запуска программы, необходимо перейти в меню «Video / Open. « и открыть нужный вам видеофайл.
2) После запускаем просмотр видео и на нужной минуте кликаем правой кнопкой мыши по окну «List View» и вставляем строку с нужным текстом. Теперь на этой минуте (и в нужной продолжительности) она будет появляться в нижней части видео.
Указываем время и нужный текст
3) Разумеется, аналогичные операции следует сделать для всего вашего видео (ну или для тех участков, которые вы хотите снабдить субтитрами). По завершении — просто сохраните свою работу в файл SRT.
Далее этот файл SRT можно скопировать в папку с видео и смотреть субтитры в обычном видеоплеере.
Включаем свои субтитры
Субтитры появились / Light Alloy
Способ 3: воспользоваться видеоредактором
Сделать это можно в большинстве видеоредакторов. Например, довольно легко это выполнить 👉 в редакторе Movavi Suite. Покажу ниже на примере.
1) После запуска Movavi Suite — перейдите в раздел редактирования видео и добавьте нужный ролик в проект. После перенесите его на дорожку, в нижнюю часть окна. 👇
Movavi Suite — добавление видео на дорожку
2) Найдите нужный момент в видео, и нажмите по меню «Т» и добавьте субтитры на дорожку в нижнюю часть окна.
Обратите внимание, что вы можете изменить размер текста, фона, расположения и пр. Можно сделать свои уникальные неповторимые субтитры.
Добавляем текст-субтитров в нужную часть ролика
3) Далее нужно найти следующий момент и добавить новый «кусок» субтитров. Так, шаг за шагом, необходимо прокомментировать весь ролик.
Находим следующий момент
4) Последний шаг — сохранение видео (тут, думаю, без комментариев). 👌
Сохраняем полученное видео















































