О том, как преобразовать речь в текст, мы уже рассказывали раньше на нашем сайте в статье о Голосовом блокноте Speechpad. С помощью этого инструмента можно легко набрать текст голосом на компьютере.
В статье «Набор текста голосом» Вы также могли узнать, как записать (транскрибировать) текст с видео и аудио, используя микрофон.
Сегодня мы поговорим об автоматической транскрибации, когда извлечение текста ведётся напрямую из аудио или видеофайла или из youtube-ролика без применения микрофона.
Перевод речи непосредственно из аудиофайлов или видео в текстовые файлы называют автоматической «транскрибацией». Такой перевод аудио в текст в модуле транскрибирования Голосового блокнота Speechpad можно осуществить, используя стерео микшер.
Открываем Голосовой блокнот Speechpad
В настоящее время в голосовом блокноте доступно извлечение текстов из форматов html5 видео и аудио, в том числе из форматов MP4 и MP3, а также из видеозаписей YouTube.
Однако существуют некоторые ограничения. Транскрибирование звуковых файлов длинной более 15 минут относится к расширенным возможностям блокнота. За них взимается небольшая плата.
Обо всех подробностях установке расширения SpeechPad на компьютер Вы можете прочитать в вышеуказанной статье.
Впрочем, Вы можете самостоятельно найти и установить приложение SpeechPad на Ваш компьютер. Для этого н нужно: — Открыть браузер Google Chrome и в его настройках, в открывшемся меню выбрать «Дополнительные инструменты» и перейти в расширения.
— В самом низу нажимаем на ссылку «Ещё расширения». Откроется новое окно интернет магазин Chrome.
— В поле поиск по магазину нужно вписать «Speechpad» и нажать на клавиатуре «Enter».
— Находим наше расширение. На странице «Голосовой блокнот» жмём кнопку «Установить».
— Расширение установится и в правом верхнем углу браузера появится соответствующий значок.
Теперь Голосовой блокнот полностью активирован, и Вы можете приступать к работе.
В любом случае Вы должны оказаться на сервисе для транскрибации: https://speechpad.ru
Как включить Стереомикшер
Для начала необходимо определиться со звуковыми настройками. Если мы собираемся записывать видео с Ютуба, то нам нужно включить стереомикшер на нашем компьютере, чтобы его услышал браузер.
По умолчанию данный компонент отключен в Windows 10. Однако его можно включить следующим образом:
- — Нажимаем правой кнопкой мыши на значке «Динамики» (что на панели задач) и выбираем «Звуки»».
- — Откроется новое окно. Переходим во вкладку «Запись».
- — Нажимаем правой кнопкой мыши на пустом месте и выбираем «Показать отключённые устройства».
- — Появится «Стерео микшер». Нажимаем на нем правой кнопкой мыши и выбираем «Включить».
- — Далее нажимаем «Применить» и OK.
Но может случиться так, что на Вашем компьютере в устройствах записи звука не окажется стереомикшера, и никакие Ваши действия, типа: включение Показа отключенных или отсоединенных устройств, всё равно не могут его найти.
Это могло произойти из-за того, что при установке стандартного пакета Windows 10 для видеокарты или аудиокодека, встроенного в материнскую плату вашего компьютера не были установлены соответствующие аудиокодеки, а установились стандартные кодеки Windows.
В разделе «Устройства записи звука» это можно увидеть, так как написано: Устройство с поддержкой Hy Definicion Audio. Производитель этого драйвера – Microsoft. Это стандартный драйвер, который не умеет работать с нестандартными функциями. А функция стереомикшера – это как раз не стандартная функция и доступна она только в драйверах производителя аудиокодека, в данном случае Realtek.
Для того чтобы кодек появился, соответственно нужно установить драйвера Realtek. После перезагрузки или двойной перезагрузки в «Устройствах записи» появится стереомикшер.
Драйверы Realtek High Definition Audio можно скачать с сайта:
https://realtek-drivers.ru/realtek-high-definition-audio-drivers/
Закроем окно панели управления и перейдём в голосовой блокнот. Опускаемся вниз и нажимаем по надписи «Транскрибация».
Обратите внимание, что всё происходит в Google Chrome!
Кнопка Транскрибация включает панель воспроизведения звуковых и видео файлов. В настоящее время в голосовом блокноте доступен перевод аудиотекстов из форматов html5 видео и аудио, а также из видеозаписей youtube. Для форматов html5 видео и аудио необходимо указать URL медиа файла, для воспроизведения записи youtube нужно ввести ID этой записи в Youtube. После чего следует нажать на кнопку включить запись.
После нажатия кнопки Транскрибация открывается новое окно. Опускаемся ниже до раздела «Панель транскрибации». Здесь выбираем нужный Медиа тип:
- Youtube video
- HTML5 video
- HTML5 audio
- Выбираем нужный файл на своём компьютере Или
URL медиа файла для проигрывания.
Транскрибация видео с YouTube
Допустим, нам нужно транскрибировать видео из YouTube, которое называется «Как включить стереомикшер на Windows 10». URL этого видео:
https://www.youtube.com/watch?v=0IqQex2jwZo
Для того, чтобы транскрибировать это видео, отмечаем галочкой «YouTube видео».
В результате откроется окошко с предупреждением «Закрыть приложение» с пояснением, что данные могут быть не сохранены. Здесь нужно нажать «Закрыть.
После чего открывается окно, где нам нужно ввести не URl, а ID-этого видеофайла.
Чтобы его определить, нужно открыть это видео, в браузере и в поисковой строке после знака равенства (=) копируем все символы до конца строки. В результате получится:
Далее:
- — Выделяем, копируем, идём в голосовой блокнот и правой кнопкой мыши в поле ID-файла вставляем из буфера обмена сохранённый ID.
- — Нажимаем «обновить».
- — Появляется заставка нашего видео, жмём на кнопку воспроизведения в плеере с нашим видео.
- — Нажимаем кнопку «Включить запись» в Голосовом блокноте и всё. Начинается автоматическая транскрибация. Мы просто ждём.
- — По окончании копируем полученный текст в Результирующем поле, переносим его в текстовый документ и редактируем.
- Транскрибация видео и аудиофайлов
У Вас есть готовое видео. Чтобы его транскрибировать: — Переходим на Speechpad, опускаемся ниже и нажимаем кнопку «Транскрибация».
- — Страница перезагружается. Опускаемся ниже, находим Панель транскрибации и там, где предлагается выбор типа Медиа, отмечаем HTML 5 audio.
- — Нажимаем кнопку «Выбрать файлы».
- — В открывшемся окне находим на нашем компьютере нужное видеофайл MP4 и нажимаем «открыть».
- — Файл загружается на Speechpad и открывается во встроенном видеоплеере.
- — Нажимаем в плеере воспроизведение, а в Голосовом блокноте «Включить запись».
Когда всё записалось, то, как обычно, выделяем текст, можно с помощью горячих клавиш ctrl+a, затем копируем его (ctrl+c). Переходим в текстовый документ и вставляем текст в него (ctrl+v).
Теперь можно его править.
Аналогично поступаем с аудиофайлами.
В этом видео Александр Руднев покажет на конкретных примерах, как настроить и произвести автоматическую транскрибацию видео и аудио в голосовом блокноте Speechpad.
**
Следует заметить, что в результате транскрибации мы получаем текст в виде одного или нескольких абзацев, без разбивки на предложения, без заглавных букв, без запятых и точек. Конечно такой текст требует серьёзной доработки.
Для удобной правки текста можно на экране монитора открыть одновременно видеоплеер с видео и текстовый документ с транскрибированным текстом. Размеры обоих окон ̶ и документа, и видеопроигрывателя ̶ можно отрегулировать до удобной величины, чтобы они не перекрывали друг друга на экране, расположить их так, как нам удобно, и редактировать текст.