Преобразовать аудио в текст: любой формат на входе
Конвертация речи из MP3, WAV, M4A, FLAC, OGG и даже видеофайлов в текст с таймкодами и экспортом в четыре формата.
Преобразование аудио в текст технически устроено как конвейер: сервис принимает файл, извлекает звуковую дорожку, прогоняет её через распознающую модель и собирает результат в документ. EdWord выполняет весь цикл автоматически — от вас требуется только исходник. На входе подойдёт MP3, WAV, M4A, FLAC, OGG или WebM; видеоконтейнеры MP4, AVI, MOV и MKV тоже принимаются, звук из них извлекается без вашего участия.
- Точность 98%
- 50+ языков
- TXT, DOCX, SRT, VTT
- Таймкоды реплик
Лимиты: 2 ГБ на файл и до 3 часов записи. В эти рамки помещается полный рабочий день переговоров или длинная лекция; более объёмные материалы разбейте на части. Распознаванием занимаются модели Whisper-класса: на чистой дорожке они выдают точность около 98%, сами определяют язык и работают более чем с 50 языками. Обработка часового файла занимает 4–6 минут.
Выходных форматов четыре. TXT — чистый текст без разметки, удобен для вставки в заметки и мессенджеры. DOCX открывается в Word и годится для отчётов. SRT и VTT — субтитровые форматы с таймингом, они пригодятся, если исходником было видео. Таймкоды можно включить и в обычной расшифровке: тогда рядом с абзацами появятся метки времени, по которым легко вернуться к исходной записи.
Запустить конвейер можно тремя путями: загрузкой на сайте edword.ru, пересылкой файла Telegram-боту @mywhisperedbot или ссылкой на ролик с YouTube, VK Видео либо Rutube. Все результаты складываются в историю кабинета. Новый аккаунт получает 60 минут преобразования бесплатно, дальше объём докупается пакетами от 390 ₽ за час — разовыми, без подписки, с минутами, которые остаются на балансе бессрочно. Такой формат оплаты удобен при нерегулярной нагрузке: подкастер преобразует выпуски раз в неделю, аналитик — пачку записей раз в квартал, и оба платят строго за обработанные часы.
Как перевести в текст
Нейросеть распознаёт речь
Whisper обработает запись: расставит знаки препинания и разделит текст на абзацы
Скачайте текст
Скопируйте результат или скачайте в формате TXT. Текст сохранится в личном кабинете
Как устроен конвейер преобразования
Этап первый — приём файла: сайт, Telegram-бот или загрузка по ссылке. Этап второй — подготовка: из видеоконтейнера извлекается аудиодорожка, звук приводится к виду, с которым работает распознающая модель. Этап третий — само распознавание моделями Whisper-класса с автоопределением языка. Финал — сборка документа: текст делится на абзацы, при включённой опции к ним добавляются таймкоды, готовый результат появляется в истории кабинета с кнопками копирования и экспорта. Весь цикл для часовой записи укладывается в 4–6 минут, участие человека нужно только на первом шаге.
Пакеты минут вместо подписки
Оплата в EdWord привязана к объёму, который вы реально обрабатываете. Тестовый лимит — 60 минут, он выдаётся каждому новому аккаунту без ввода карты. Платные пакеты: 1 час за 390 ₽, 3 часа за 990 ₽, 10 часов за 2 990 ₽, 50 часов за 12 900 ₽. Командам, где записи преобразуют несколько человек, подойдут пакеты 50 часов за 9 900 ₽ и 100 часов за 17 900 ₽. Срока действия у минут нет: остаток с прошлого проекта дождётся следующего. Автосписаний тоже нет — баланс уменьшается только тогда, когда вы что-то обрабатываете.
Что говорят клиенты
«Раньше тратил 3 часа на расшифровку часовой лекции. Сейчас загружаю в EdWord и забираю готовый текст через 4 минуты.»
«Добавили бот в рабочий чат — теперь все голосовые становятся текстом сразу. Не надо переслушивать.»
«Русский язык распознаёт хорошо — пропускаю всего пару слов на 15-минутном интервью. И что важно — без подписки и прямо из Telegram.»
Выберите пакет
60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут
Частые вопросы
Какие аудиоформаты можно преобразовать в текст?
MP3, WAV, M4A, FLAC, OGG и WebM. Если звук зашит в видео, загружайте контейнер целиком: MP4, AVI, MOV и MKV тоже поддерживаются, дорожка извлечётся автоматически. Перекодировать файл заранее в какой-то «правильный» формат нет смысла — на точность распознавания это почти не влияет.
Есть ли ограничение на размер и длительность файла?
Ограничения: 2 ГБ на файл и до 3 часов записи — этого хватает на длинную конференционную сессию в MP3 или M4A. Более долгую запись разбейте на части. Сжатые форматы быстрее загружаются, на цену и точность формат не влияет: списание идёт по фактической длительности аудио.
В каком виде я получу текст?
На выбор четыре формата экспорта: TXT для чистого текста, DOCX для работы в Word, SRT и VTT для субтитров с таймингом. Можно вообще ничего не скачивать — открыть результат в кабинете и скопировать в буфер одним кликом. Таймкоды подключаются опционально.
Насколько точным будет преобразование?
На чистой записи с внятной речью модели Whisper-класса дают около 98% точности. Качество снижают фоновая музыка, эхо и разговор нескольких людей одновременно. Термины, имена и цифры стоит проверить глазами — это самое уязвимое место любого автоматического распознавания.
Поддерживаются ли языки кроме русского?
Да, больше 50 языков, включая английский, испанский, немецкий и китайский. Указывать язык вручную нет необходимости — сервис определяет его по первым секундам записи. Расшифровка выполняется на языке оригинала: английская речь станет английским текстом.
Сколько стоит расшифровка в EdWord?
Новые пользователи получают 60 минут бесплатно — без привязки карты и подписки. Далее доступны пакеты: 1 час за 390 ₽ (6.50 ₽/мин), 3 часа за 990 ₽ (5.50 ₽/мин), 10 часов за 2 990 ₽ (4.98 ₽/мин). Для команд и компаний — пакеты до 100 часов от 9 900 ₽. Купленные минуты не сгорают, списываются только за реально обработанное аудио.
Какая точность распознавания?
До 98% при качественной записи. EdWord использует нейросеть Whisper от OpenAI — одну из лучших моделей speech-to-text в мире. Поддерживается более 50 языков, включая русский, английский, немецкий, французский, испанский, украинский, казахский. Точность зависит от качества звука: внешний микрофон, отсутствие эха и битрейт от 128 kbps дают прирост 5–10%.
Безопасно ли загружать файлы в EdWord?
Да. Файлы шифруются при передаче по HTTPS и удаляются с серверов EdWord сразу после транскрибации. Мы не используем ваши записи для обучения моделей и не передаём третьим лицам. В личном кабинете хранится только текст расшифровки — вы можете удалить его в любой момент.
Есть ли ограничения по длительности или размеру?
Максимальный размер файла — 2 ГБ, максимальная длительность одной записи — 6 часов. Этого хватает на большинство совещаний, интервью, лекций и подкастов. Если нужно расшифровать более длинную запись — разбейте её на части или напишите в поддержку: для бизнес-тарифов возможны индивидуальные условия.
Похожие форматы
Перевести аудио в текст за три минуты
Загрузите запись — получите готовый текст с таймкодами. Первые 60 минут бесплатно, карта не нужна.
Конвертер аудио в текст
Загрузите аудиофайл, голосовое или запись встречи и получите редактируемый текст.
MP3 в текст онлайн
Расшифровка MP3 с битрейтом от 32 до 320 kbps, моно и стерео. Точность до 98% на нейросети Whisper.
WAV в текст — расшифровка несжатого звука
Студийные и диктофонные WAV-записи распознаются с максимальной точностью: PCM без потерь отдаёт модели самый чистый исходник речи.
Распознавание аудио в текст
Автоматическое распознавание речи из аудиофайлов, голосовых и записей встреч.
Транскрипция аудио в текст
Аудиозаписи, интервью, лекции и голосовые превращаются в текст с таймкодами.
Попробуйте EdWord прямо сейчас
60 бесплатных минут для новых пользователей. Регистрация через Telegram или Яндекс — без карты.