Преобразовать аудио в текст — 10 форматов на входе

Преобразование аудио в текст технически устроено как конвейер: сервис принимает файл, извлекает звуковую дорожку, прогоняет её через распознающую модель и собирает результат в документ. EdWord выполняет весь цикл автоматически — от вас требуется только исходник. На входе подойдёт MP3, WAV, M4A, FLAC, OGG или WebM; видеоконтейнеры MP4, AVI, MOV и MKV тоже принимаются, звук из них извлекается без вашего участия.

Точность 98%
50+ языков
TXT, DOCX, SRT, VTT
Таймкоды реплик

Лимиты: 2 ГБ на файл и до 3 часов записи. В эти рамки помещается полный рабочий день переговоров или длинная лекция; более объёмные материалы разбейте на части. Распознаванием занимаются модели Whisper-класса: на чистой дорожке они выдают точность около 98%, сами определяют язык и работают более чем с 50 языками. Обработка часового файла занимает 4–6 минут.

Выходных форматов четыре. TXT — чистый текст без разметки, удобен для вставки в заметки и мессенджеры. DOCX открывается в Word и годится для отчётов. SRT и VTT — субтитровые форматы с таймингом, они пригодятся, если исходником было видео. Таймкоды можно включить и в обычной расшифровке: тогда рядом с абзацами появятся метки времени, по которым легко вернуться к исходной записи.

Запустить конвейер можно тремя путями: загрузкой на сайте edword.ru, пересылкой файла Telegram-боту @mywhisperedbot или ссылкой на ролик с YouTube, VK Видео либо Rutube. Все результаты складываются в историю кабинета. Новый аккаунт получает 60 минут преобразования бесплатно, дальше объём докупается пакетами от 390 ₽ за час — разовыми, без подписки, с минутами, которые остаются на балансе бессрочно. Такой формат оплаты удобен при нерегулярной нагрузке: подкастер преобразует выпуски раз в неделю, аналитик — пачку записей раз в квартал, и оба платят строго за обработанные часы.

Как перевести в текст

1

Загрузите файл

Перетащите файл на сайт или отправьте в Telegram-бот @mywhisperedbot

2

Нейросеть распознаёт речь

Whisper обработает запись: расставит знаки препинания и разделит текст на абзацы

3

Скачайте текст

Скопируйте результат или скачайте в формате TXT. Текст сохранится в личном кабинете

Как устроен конвейер преобразования

Этап первый — приём файла: сайт, Telegram-бот или загрузка по ссылке. Этап второй — подготовка: из видеоконтейнера извлекается аудиодорожка, звук приводится к виду, с которым работает распознающая модель. Этап третий — само распознавание моделями Whisper-класса с автоопределением языка. Финал — сборка документа: текст делится на абзацы, при включённой опции к ним добавляются таймкоды, готовый результат появляется в истории кабинета с кнопками копирования и экспорта. Весь цикл для часовой записи укладывается в 4–6 минут, участие человека нужно только на первом шаге.

Пакеты минут вместо подписки

Оплата в EdWord привязана к объёму, который вы реально обрабатываете. Тестовый лимит — 60 минут, он выдаётся каждому новому аккаунту без ввода карты. Платные пакеты: 1 час за 390 ₽, 3 часа за 990 ₽, 10 часов за 2 990 ₽, 50 часов за 12 900 ₽. Командам, где записи преобразуют несколько человек, подойдут пакеты 50 часов за 9 900 ₽ и 100 часов за 17 900 ₽. Срока действия у минут нет: остаток с прошлого проекта дождётся следующего. Автосписаний тоже нет — баланс уменьшается только тогда, когда вы что-то обрабатываете.

Что говорят клиенты

«Раньше тратил 3 часа на расшифровку часовой лекции. Сейчас загружаю в EdWord и забираю готовый текст через 4 минуты.»

Алексей М. автор подкаста, 120+ выпусков

«Добавили бот в рабочий чат — теперь все голосовые становятся текстом сразу. Не надо переслушивать.»

Ирина С. продакт-менеджер, команда 8 человек

«Русский язык распознаёт хорошо — пропускаю всего пару слов на 15-минутном интервью. И что важно — без подписки и прямо из Telegram.»

Дмитрий К. журналист, расследования

Выберите пакет

60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут

1 час

390 ₽

6.50 ₽/мин

3 часа

990 ₽

5.50 ₽/мин

−15%

Популярный

10 часов

2 990 ₽

4.98 ₽/мин

−23%

50 часов

12 900 ₽

4.30 ₽/мин

−34%

Частые вопросы

Какие аудиоформаты можно преобразовать в текст?

MP3, WAV, M4A, FLAC, OGG и WebM. Если звук зашит в видео, загружайте контейнер целиком: MP4, AVI, MOV и MKV тоже поддерживаются, дорожка извлечётся автоматически. Перекодировать файл заранее в какой-то «правильный» формат нет смысла — на точность распознавания это почти не влияет.

Есть ли ограничение на размер и длительность файла?

Ограничения: 2 ГБ на файл и до 3 часов записи — этого хватает на длинную конференционную сессию в MP3 или M4A. Более долгую запись разбейте на части. Сжатые форматы быстрее загружаются, на цену и точность формат не влияет: списание идёт по фактической длительности аудио.

В каком виде я получу текст?

На выбор четыре формата экспорта: TXT для чистого текста, DOCX для работы в Word, SRT и VTT для субтитров с таймингом. Можно вообще ничего не скачивать — открыть результат в кабинете и скопировать в буфер одним кликом. Таймкоды подключаются опционально.

Насколько точным будет преобразование?

На чистой записи с внятной речью модели Whisper-класса дают около 98% точности. Качество снижают фоновая музыка, эхо и разговор нескольких людей одновременно. Термины, имена и цифры стоит проверить глазами — это самое уязвимое место любого автоматического распознавания.

Поддерживаются ли языки кроме русского?

Да, больше 50 языков, включая английский, испанский, немецкий и китайский. Указывать язык вручную нет необходимости — сервис определяет его по первым секундам записи. Расшифровка выполняется на языке оригинала: английская речь станет английским текстом.

Сколько стоит расшифровка в EdWord?

Новые пользователи получают 60 минут бесплатно — без привязки карты и подписки. Далее доступны пакеты: 1 час за 390 ₽ (6.50 ₽/мин), 3 часа за 990 ₽ (5.50 ₽/мин), 10 часов за 2 990 ₽ (4.98 ₽/мин). Для команд и компаний — пакеты до 100 часов от 9 900 ₽. Купленные минуты не сгорают, списываются только за реально обработанное аудио.

Какая точность распознавания?

До 98% при качественной записи. EdWord использует нейросеть Whisper от OpenAI — одну из лучших моделей speech-to-text в мире. Поддерживается более 50 языков, включая русский, английский, немецкий, французский, испанский, украинский, казахский. Точность зависит от качества звука: внешний микрофон, отсутствие эха и битрейт от 128 kbps дают прирост 5–10%.

Безопасно ли загружать файлы в EdWord?

Да. Файлы шифруются при передаче по HTTPS и удаляются с серверов EdWord сразу после транскрибации. Мы не используем ваши записи для обучения моделей и не передаём третьим лицам. В личном кабинете хранится только текст расшифровки — вы можете удалить его в любой момент.

Есть ли ограничения по длительности или размеру?

Максимальный размер файла — 2 ГБ, максимальная длительность одной записи — 6 часов. Этого хватает на большинство совещаний, интервью, лекций и подкастов. Если нужно расшифровать более длинную запись — разбейте её на части или напишите в поддержку: для бизнес-тарифов возможны индивидуальные условия.

Попробуйте EdWord прямо сейчас

60 бесплатных минут для новых пользователей. Регистрация через Telegram или Яндекс — без карты.

Загрузить файл Открыть Telegram-бот

Преобразовать аудио в текст: любой формат на входе

Как перевести в текст

Загрузите файл

Нейросеть распознаёт речь

Скачайте текст

Как устроен конвейер преобразования

Пакеты минут вместо подписки

Что говорят клиенты

Выберите пакет

Частые вопросы

Похожие форматы

Перевести аудио в текст за три минуты

Конвертер аудио в текст

MP3 в текст онлайн

WAV в текст — расшифровка несжатого звука

Распознавание аудио в текст

Транскрипция аудио в текст

Попробуйте EdWord прямо сейчас

Поддержка