Некоторые авторы сайтов и сообществ не знают, как перевести аудио в текст онлайн за считанные минуты. В связи с этим они пытаются ввести текст вручную, на что уходит несколько дней, хотя справиться можно за пару часов.
Ведь с каждым годом растет число сервисов, программ и других способов оперативной расшифровки аудио в текст.
Расшифровка аудио в текст — кому это надо?
Не всем читателей журналов, подписчикам сообществ, каналов, блогеров удобно смотреть и слушать видеоролики. Есть немало пользователей, которым удобнее читать текст, а не слушать подкаст. интервью или выступление.
Текстовая версия удобна еще и тем, что цитировать интервью становится намного проще — все, кто хотят на него ссылаться, могут копировать цитаты со ссылкой на текст. А уж в тексте цитату легче найти, чем в видео (особенно, если оно без тайм-кода). Текстовая версия в этом случае еще и работает на популярность видео.
Есть и ряд других причин, которые делают текстовую версию необходимой:
- Читать речь человека в тексте — это быстрее, чем ее слушать. И если вам нужно быстренько усвоить лекцию и сделать ее конспект, лучше сделать запись и транскрибировать в текст.
- Нужно написать статью? Вы можете надиктовать голосом ключевые мысли и оцифровать их текстом. Затем в виде текста их намного проще будет раскидывать по статье.
- Записать голосовое сообщение и быстро превратить его в текст — удобное решение, если его нужно отправить плохо слышащему человеку. Ведь если мыслей в голове много, часть из них потеряется, если их писать текстом..
В партнерском маркетинге такие сервисы могут быть полезны для быстрого наполнения сайтов под поисковое продвижение для целей арбитража. Ярчайший пример таких сайтов — порталы для студентов, через которые продвигают офферы в эссейной нише. Наполнение их лекциями по разным предметам повышает интерес студентов, побуждает их посещать больше страниц. Следовательно, повышает шансы, что студент перейдет по баннеру и закажет написание работы.
Но перевод речи в текст должен быть быстрым. И это касается не только записи своих голосовых, но и транскрибации интервью, лекций, выступлений. Когда вы разрабатываете сайт под заказ, клиенту в оговоренные сроки важно получить не только готовый, и но и наполненный ресурс. И если специалист в тематике сайта будет контент надиктовывать, переводя сразу в текст, наполнение статьями сильно ускорится.
Быстрый перевод могут выполнять только автоматические сервисы. Ведь на расшифровку одной минуты речи уходит, в среднем, 6-8 минут. Соответственно, если выступление часовое, то на транскрибацию нужен полный рабочий день непрерывной работы.
Поэтому сейчас для перевода речи в текст следует рассматривать только автоматизированные сервисы, которые даже многочасовую запись обработают за несколько минут.
Как перевести аудио в текст бесплатно?
Среди сервисов-транскрибаторов есть как платные, так и условно бесплатные. Ко второй категории относятся те, у которых бесплатного тарифа вполне хватает на базовые нужды, а платные нужны для продвинутого функционала, который не всем необходим.
Важно! Что бесплатные, что платные системы расшифровки очень чувствительны к качеству звука. В примерах ниже текст диктовался прямо в микрофон максимально четкой дикцией. Очень плохой звук, невнятную речь, разговор с посторонними шумами ни одна нейросеть качественно не расшифрует.
Блокнот для речевого ввода (Speechpad)
В базовом функционале сервис доступен бесплатно и без регистрации. Есть браузерная версия, а также есть расширение для Google Chrome, а также есть приложения для Windows, Linux MacOS.
В бесплатной версии доступна расшифровка записей до 15 минут. В платной сервис также предлагает добавление новых языков и интеграцию с программами Microsoft Office. Последняя дает возможность вводить текст в документы Word, Excel голосовыми сообщениями.
Без регистрации сохранение текста недоступно — после отцифровки его можно лишь скопировать. После регистрации доступно сохранение записей в текстовые блокноты.

После регистрации система высылает на почту пароль. Его вместе с почтой, которая теперь и логин, вводим в соответствующие поля и заходим в учетку.

На расшифровку можно отправлять аудиозаписи, в том числе, и сохраненные голосовые из телеграм.
Расшифровку текста Speechpad проводит довольно качественно.

Главный минус сервиса в следующем: знаки препинания он расставляет. только если их ему надиктовывать. Если же загрузить лекцию из YouTube или аудио, он пропечатает текст без точек и запятых.
Для речевого ввода текста на форум или в соцсеть подходит браузерное расширение Speechpad для Google Chrome. Здесь главный минус — сложно привыкнуть проговаривать знаки препинания, чтобы система их корректно расставляла.
Платный тариф — 100 рублей в месяц, 250 рублей за три месяца или 800 рублей за год.
Он открывает возможность интегрировать сервис с операционной системой ПК, чтобы надиктовывать текст для ввода в документы, и не только в Word, но и в Docs Google, почту и другие текстовые поля на разных сайтах.
Сервис работает только через браузер Google Chrome. Чистота перевода в текст зависит от дикции, скорости речи и посторонних шумов. Для качественной расшифровки голосового ввода, нужен хороший микрофон.
Dictation.io
Это аналог сервиса Speechpad, с почти теми же возможностями, но более простым функционалом. Сделан он, кстати, на том же движке от Google. Языковой набор у Dictation довольно широк — более 100 языков. Регистрации не требуется вообще.
Надиктуем для проверки следующий текст: “Тестовое сообщение точка Партнерская сеть появилась недавно запятая но команда уже предлагает эксклюзивные офферы запятая бесплатные приложения и сильный саппорт точка Делимся преимуществами с партнерами и реальными отзывами арбитражников”.
То что получилось, видно на скриншоте.

Если не продиктовывать знаки препинания, машина их не пропишет.
Как видим, сервис, в целом, справляется, но терминологию арбитража трафика не очень тянет.
Из дополнительных плюсов — сказанную заметку можно сразу же твитнуть, нажав на соответствующую кнопку внизу блокнота.
Из минусов — на некоторых версиях Chrome не работает расшифровка аудиозаписей. Нет функционала для перевода в текст роликов из YouTube. Сервис полностью на английском. И хотя Google Chrome переводит вполне сносно, иногда встроенный переводчик может не работать и страницу придется перезагружать.
SpeechLogger
Сервис переводит в текст, как с диктовки на микрофон, так и с аудио- и видеофайлов. Голосовой ввод текста регистрации не требует и доступен в неограниченном объеме. Поддерживает наиболее распространенные языки Европы и Азии.
Разработчики заявляют, что SpeechLogger способен проставлять автоматически и знаки препинания. Однако наш тест показал обратное.
Была продиктована следующая фраза: “Ищу кейсы по арбитражу трафика. Хочется повторить их и получить профит. Особенно интересуют кейсы по пуш трафику.” Результат на скриншоте.

По факту сервис не расставил знаки препинания, даже после включения плашки “Автопунктуация”. Кроме основного текста сверху набирается огромное количество чернового варианта красным шрифтом.
Транскрибация аудио- и видеозаписей платная и делается по цене 10 центов за минуту — час будет стоить 6 долларов. Для этого нужно залогиниться через аккаунт в Google.
Кроме транскрибации сервис позволяет конвертировать звуковые файлы из одного формата в другой и уменьшать их размер.
Вышеприведенные сервисы универсальны и подходят максимально широкой аудитории. А вот сервисы ниже имеют ряд ограничений и подойдут не всем.
Speech to Text BOT
Несмотря на название, это браузерный сервис, доступный со стационарных и мобильных устройства только через браузер Chrome. Speech to Text рассчитан только на запись текста под диктовку — аудиофайлы он не расшифровывает. Знаки препинания нужно наговаривать голосом, хотя разработчики утверждают, что сервис распознает пунктуацию.
Надиктуем ему следующий текст: “Распознавание текста в арбитраже трафика нужно. Его можно оцифровать на лендинги и прелендинги по крипте, нутре и гэмблингу”.

Как видим, с задачей он справляется довольно неплохо, хотя и допускает неточности. Записанный текст можно скопировать, скачать, распечатать. Сервис отлично подходит для набора заметок в блокнот.
У гугл-документов есть внутренний преобразователь Его можно вызвать, нажав сочетание клавиш “Ctrl Shift S”, а можно найти на панели “Инструменты”.
Сервис полностью бесплатный и наговаривать можно сколько угодно, но он умеет переводить в текст лишь диктовку по микрофону.
Вот как он расшифровал текст: “Иметь свой сайт — это прибыльно. Как разрабатывать, покупать и продавать сайты?”.

Сама обработка довольно качественная и слова распознаются верно с минимумом ошибок. Следует обязательно прочитывать знаки препинания, иначе текст будет набран без них. Для работы через компьютер требуется подключить микрофон и разрешить браузеру Google Chrome доступ к нему. Набирать текст из голосового можно только во вкладке документа.
Это разработка энтузиастов-частников. Работает бесплатно, но только в пределах ВК.

Сервис полностью бесплатный — возможно, разрабы в дальнейшем выпустят платные версии с большим числом возможностей.
Чтобы бот сработал, нужно не диктовать сообщение непосредственно в чат, а пересылать его из другой переписки.
К сожалению, бот не проставляет и не распознает знаки препинания, поэтому их придется проставлять вручную.
К минусам также относится то, что бот не может обрабатывать аудиофайлы другого типа. Чтобы воспользоваться, нужно перейти в их сообщество и начать переписку.
Otter для англоязычных
Фишка этого сервиса в том, что он умеет различать голоса. Перед работой его нужно настроить, введя запись своим голосом. Otter его запомнит и будет отличать вашу речь от чужой.

Страница для запоминания вашего голоса.
После этого в сервис можно загружать записи вашим голосом и чужими и он будет различать, где чей. Однако с распознаванием слов у него не все гладко.

Если нужно расшифровать аудио, видео или чье-то голосовое сообщение на английском, Otter — один из оптимальных вариантов.
Платные способы перевода аудио в текст
Некоторые из платных сервисов формально имеют бесплатную версию. Однако по факту бесплатную версию фактически невозможно использовать ни в каких целях. Зато за скромную плату будет предоставлен неплохой функционал, который даст более качественную расшифровку, чем у бесплатных аналогов.
Telegram-бот Voicy
Это популярный бот в телеграм-чатах. Так как не все участники хотят слушать голосовые сообщения, администраторы устанавливают его, чтобы голосовое сообщение сразу перешло в текст.

Voicy поддерживает три движка для расшифровки речи.
Недавно бот обновился и для использования в чатах требует единоразовую оплату в размере 7 долларов.
Для начала работы нужно дать команду /help, а затем выбрать движок с помощью функции /engine. После этого выбираем язык. Над набором языков авторы поработали — их не меньше 200.
С самой обработкой речи у бота не слишком гладко. Вот как обработано сообщение: “Тестирую функционал нового войси. Посмотрим, насколько хорошо обработал донат”.
При этом бот самостоятельно расставляет знаки препинания.

Voicy также расшифровывает сообщения, если их непосредственно переслать боту в чат.Расшифровке поддаются не только голосовые, но и другие форматы аудиофайлов. Бот удобен в следующих случаях:
- Перевести в текст голосовое сообщение собеседника;
- Отправить свое голосовое сообщение собеседнику в виде текста;
- Расшифровать лекцию, монолог из аудиозаписи.
А главное, для его использования нужно просто зайти в телеграм и отправить аудио в чат.
Google Cloud
Если говорить о небольших потребностях, то этот сервис можно отнести к условно-бесплатным. Ведь после регистрации выдается бесплатно более 200 часов расшифровки аудиофайлов.
При регистрации необходимо ввести данные своей пластиковой карты, например, Visa или MasterCard. На счету должен быть хотя бы один доллар — система его спишет и тут же вернет на карту обратно. Перед началом работы придется пройти несколько страниц с вопросами о том, для каких целей нужен сервис и кто вы — бизнесмен, генеральный директор, исследователь, инженер или кто еще.
Перед тем, как загружать файлы с компа, потребуется создать папку, куда они будут сохраняться вместе с готовым текстом. Затем после загрузки файла нужно будет выбрать язык и модель расшифровки. Можно менять и другие параметры (например, частоту дискретизации).
Что касается цены, то она составляет 0,6 центов за 15 секунд записи или 1,44 доллара за час.
Вот как сервис расшифровал текст: “Иметь свой сайт — это прибыльно. Как разрабатывать, продавать и покупать сайты?”.

Есть неточности, а одно слово даже пропущено. Знаки препинания сервис не расставляет, даже если их диктовать. Однако в целом использовать его можно для транскрипции больших записей. Тем более, он проставляет таймкоды к тексту и позволяет скачать и сохранить его.
Другой минус сервиса — он англоязычный, и встроенный в браузер переводчик не слишком качественно переводит его меню.
Dragon Dictation
Представляет собой приложение для iOS и доступно только для обладателей яблочных телефонов. Скачивается в iTunes.

Программа бесплатная. Поддерживает все европейские языки и не только их, но требует продиктовки точек и запятых.
С помощью Dragon Dictation можно переводить голос в текст для мессенджеров, чатов, форумов, соцсетей, блокнотов и других ресурсов.
Приложение платное — нужно купить месячную подписку за 15 долларов, либо бессрочную за 149 долларов.
RealSpeaker
Платный сервис, который расшифровывает аудио по цене 8 рублей. Чтобы приступить:
- Выбираем язык аудиозаписи;
- Вставляем файл на транскрибацию;
- Переходим в раздел “Мои медиа” и нажимаем “Транскрибировать”;
- Появляется кнопка “Текстовые поля” — по ней и доступен текст.
Хотя в целом, сервис работает неплохо, арбитражную терминологию он “понимает” очень слабо. На скрине ниже расшифровка вот такого текста: “Преленд под нутру: виды, структура, ошибки и как придумать свою транзитку. Рассказали о структуре построения конвертящих прелендов, выделили основные ошибки и дали схему, по которой придумываем транзитные страницы.

У сервиса есть и другой недостаток — отсутствие функции текстового ввода под диктовку.
Платно расшифровываются тексты длительностью от 1,5 минуты, а максимальная допустимая длина аудиозаписей — 180 минут. Работать можно без регистрации.
Transcribe
Это полностью платный сервис. Раньше в нем был бесплатный семидневный тестовый период, однако недавно его убрали. Теперь только часть текст можно отцифровать бесплатно. Перед началом работы нужно выбрать между автоматической и самостоятельной транскрипцией. Первая — это расшифровка готового аудио, а вторая — диктовка и голосовой ввод в текст.

Transcribe не только расшифровывает записи, но и позволяет установить тайм-коды, а также разграничивает спикеров.
Вот как он расшифровал следующий текст: “Смотрите новые видео о том, как возникают ограничивающие убеждения и как их убирать из своей жизни.
Наша тема сегодня: Парадокс Я-концепции”.

Как видим, текст он разбирает почти без погрешностей, и знаки препинания расставляет довольно сносно.
Speechnotes
Это приложение для Андроид, а также браузерный онлайн-сервис. Весит всего 7 Мб и быстро устанавливается на телефон. Тариф — 10 центов за минуту расшифровки в браузере, и $9,9 за бессрочную подписку, либо $1,36. В платной версии приложения, кстати, убирается реклама.
На скрине расшифровка следующего фрагмента: “ТикТок закручивает гайки, но некоторые арбитражники продолжают сливать условно бесплатный трафик и по сей день. Как с затратами в 30 долларов налить 200 тысяч уников и заработать 14 с половиной тысяч долларов за месяц — об этом рассказал автор кейса.”

Сервис позволяет набранный текст сразу отправить в мессенджер или сохранить в блокнот. Поддерживается более 50 языков.
Zapisano.org
Ни одна нейросеть пока неспособна расшифровать текст так же хорошо и точно, как это делает живой человек. Поэтому если нужно перевести в текст аудио, не делая вообще никаких правок, работу стоит поручить профессиональным исполнителям.
Zapisano.org — единственный в России сервис, где вам расшифруют аудио- или видеозапись с максимальной грамотностью и в кратчайшие сроки.

Для использования:
- Регистрируемся;
- В личном кабинете вставляем файлы для начала работы;
- Выбираем тип расшифровки. Доступны три варианта — стандартная, для суда и перевод с иностранного;
- Выбираем срочность и если цена устраивает отправляем заказ в работу.
Теперь остается только ждать и отслеживать в аккаунте процесс выполнения работы.

Кстати, есть возможность заказать тестовую бесплатную работу.
Если систематизировать сервисы по разным задачам текстового ввода, то получится следующая таблица:
Надиктовать сообщение в мессенджер, соцсеть или блокнот. | Dragon Dictation, Speechnotes. |
Надиктовать свою речь в документ, например, Word. | Распознаватель в Google Docs, Spechpad, Dictation.io, SpeechLogger Google Cloud. |
Перевести аудио или видео в текст. | Speechpad, SpeechLogger, Transcribe. |
Качественно расшифровать текст сразу, чтобы потом не пришлось его править. | Zapisano.org |
Примеры конвертации аудио в текст для заработка
Ярчайший пример заработка на конвертации аудио в текст — проект на фриланс-биржах. В среднем исполнителям предлагают 10-15 рублей за минуту расшифровки текста. В основном, такую цену запрашивают исполнители на Kwork.

Если воспроизведение аудио нечеткое, речь быстрая или нужно проставить еще и тайм-коды, заказчик может предложить цену в два-три раза выше.

И как правило, исполнитель не будет полностью вводить текст вручную. Он лучше прогонит аудио через сервис-транскрибатор. Затем уже примется корректировать текст, параллельно прослушивая его. Такая практика существенно экономит время на работу (но не делает ее мгновенной).
Еще транскрибация очень важна при генерации контента для дорвеев — о них у нас есть отдельная статья. Дорвеи создаются массово, следовательно, и текста для них нужно много. А чтобы сгенерировать максимальное количество текста в кратчайшие сроки, необходимы именно конвертеры аудио в текст. Они создадут из голоса огромные простыни, а уж корректировать их особо не нужно — для дорвеев главное количество и оптимизированность текста, а не его качество и информативность.
Заключение
Несмотря на обилие программ конвертации аудио в текст, запрос рынка на живых транскрибаторов не уменьшается — это видно, если открыть любую фриланс-площадку. И это на руку фрилансерам, которые специализируются на оцифровке в текст. Ведь с одной стороны, уровень сервисов расшифровки аудио растет, а с другой — запрос рынка не падает. Поэтому становится проще автоматизировать свою работу, забирая все больше и больше заказов.
Она нужна по разным причинам: сделать контент для сайта на основе лекции и интервью, прописать беседу текстов в социальных сетях, чтобы больше людей ее читали, записать ключевые мысли в блокнот или документ, чтобы потом их включить в статью или быстро надиктовать сообщение, чтобы затем его отправить в виде текста собеседнику (не все любят прослушивать голосовые).
Это сервисы голосового ввода в Google-документах, на телефоне, Speechpad, Dictation.io, Speech to Text Bot. Также это можно сделать через Google Cloud Speechnotes — на бесплатном тарифе возможностей достаточно для оцифровки больших объемов текста.
Любые сайты можно заполнять транскрибированными текстами. Если стоит задача поискового продвижения, в полученные статьи придется добавить ключевые слова. Сайты для студентов можно заполнять лекциями, а кредитные агрегаторы, новостные витрины — новостями, которые переведены из слов журналистов в текст.
В каталогах фриланс бирж сотни людей годами размещают предложения о перевода аудио в текст с расстановкой тайм-кодов, разбивкой по подзаголовкам и другими необходимыми опциями. А в списках заданий на фрилансе регулярно появляются запросы на перевод аудио в текст. Следовательно, заработок в этой сфере есть.