Автоматическое распознавание речи

Расшифровка аудио в текст онлайн

Q: Есть ли API для расшифровки аудио?

Функция API находится в разработке. Сейчас можно использовать веб-интерфейс на edword.ru или Telegram-бот для расшифровки аудио в текст.

EdWord — онлайн-сервис перевода аудио в текст. Загрузите MP3, WAV, M4A, FLAC, OGG или другой поддерживаемый формат, дождитесь обработки и вычитайте результат. Качество зависит от исходной записи.

Стартовый баланс — до 60 минут, если доступен аккаунту

Загрузить аудиофайл Или через Telegram-бот

interview-01.mp3

12.4 МБ · 14:32

Результат

«Итак, коллеги, подводим итоги квартала. Продажи выросли на 24%, это лучший результат с 2023 года...»

Как перевести аудио в текст

Загрузите файл

Перетащите аудиофайл на сайт или отправьте в Telegram-бот @mywhisperedbot

Нейросеть распознаёт речь

Модель распознавания обработает аудио, расставит знаки препинания и разделит текст на абзацы

Скачайте текст

Скопируйте результат или скачайте в формате TXT. Текст сохранится в личном кабинете

Какие форматы поддерживаются

MP3 / WAV

Самые популярные аудиоформаты — загружайте записи с диктофона, телефона, компьютера. Подробнее про MP3 →

M4A / FLAC

Форматы Apple и lossless-аудио. Идеально для качественных записей

OGG / WebM

Голосовые сообщения из Telegram и другие веб-форматы

Видеоформаты

MP4, AVI, MOV, MKV — извлечём аудиодорожку и расшифруем

Таблица форматов и ограничений

EdWord принимает перечисленные ниже расширения напрямую. Для каждого файла также действуют общие лимиты: до 3 часов и до 2 ГБ.

Формат	Макс. размер	Рекомендуемый битрейт	Особенности
MP3	2 ГБ	128–192 kbps	Универсальный формат. Подходит для подкастов, диктофонных записей, интервью. Лёгкий, быстро загружается. Отдельная страница про расшифровку MP3 →
WAV	2 ГБ	16 bit / 44,1 kHz	Несжатый PCM-звук. Максимальное качество, но большой вес — час записи занимает около 600 МБ.
M4A	2 ГБ	128–256 kbps	Формат Apple на базе AAC. Стандартный вывод диктофона iPhone и QuickTime.
FLAC	2 ГБ	lossless	Сжатие без потерь. Идеально для студийных записей и архивных материалов.
OGG	2 ГБ	96–192 kbps	Открытый контейнер Vorbis/Opus. Часто встречается в веб-приложениях и играх.
WebM	2 ГБ	96–160 kbps	Браузерный формат с кодеком Opus. Типичный вывод онлайн-звонилок и записей экрана.
OPUS	2 ГБ	32–128 kbps	Кодек голосовых Telegram и WhatsApp. Экономичный, сохраняет разборчивость речи даже на низком битрейте.

Файлы с расширениями AAC и WMA веб-загрузка не принимает. Сначала сохраните их как M4A, MP3, WAV или другой формат из таблицы.

Что влияет на точность распознавания

Единого процента точности для всех записей нет: результат зависит от микрофона, фонового шума, дикции и одновременных реплик. Проверьте сервис на своём типичном файле.

Качество записи
Битрейт 128 kbps и выше, частота дискретизации от 16 kHz. На записях ниже 64 kbps «съедаются» согласные, растёт процент ошибок.
Количество спикеров
Один голос распознаётся точнее всего. При двух и более собеседниках без перебиваний точность сохраняется; хоровая речь и наложения усложняют работу модели.
Фоновый шум
Улица, кафе и гудящая вентиляция могут ухудшить распознавание. Записывайте в тихом помещении или используйте микрофон, расположенный ближе к говорящему.
Акцент и дикция
Язык определяется автоматически; также можно выбрать русский, английский, немецкий, французский или испанский. Чёткая артикуляция и умеренный темп обычно упрощают вычитку.
Длина файла
Обрабатываем записи до 3 часов и до 2 ГБ за одну загрузку. Более длинный материал разбейте на части — длинные записи сегментируются при распознавании автоматически.
Шум на записи
Сервис не выполняет отдельное шумоподавление. Если голос плохо слышен из-за ветра, эха или гула, по возможности очистите запись перед загрузкой и обязательно вычитайте результат.

Для каких задач подходит

Подкастеры

Расшифровка эпизодов для шоунотов, нарезка цитат в соцсети, подготовка тайм-кодов и пост-продакшн черновика.

Журналисты

Расшифровка интервью и диктофонных записей под статью или большое исследование. После обработки цитаты можно проверить по таймкодам.

Студенты

Получите текст лекции с таймкодами и вручную соберите из него конспект для подготовки к экзаменам.

Специалисты

Расшифровка телефонных звонков с клиентами, разборов и голосовых заметок. Удобно для юристов, риелторов, консультантов.

до 60 мин если стартовый лимит доступен

TXT, DOCX экспорт текста

SRT, VTT экспорт субтитров

до 2 ГБ файлы

Кому полезна расшифровка аудио

Бизнес

Транскрибация совещаний, звонков, планёрок. Ничего не потеряется

Студенты

Расшифруйте лекцию, проверьте важные места и соберите конспект вручную

Журналисты

Расшифровка интервью для статей и исследований

Подкастеры

Готовые транскрипты для шоунотов и SEO

Выберите пакет

Если аккаунту доступен стартовый лимит, его объём составит до 60 минут. Без подписки — покупайте пакеты минут

1 час

390 ₽

6.50 ₽/мин

3 часа

990 ₽

5.50 ₽/мин

−15%

Популярный

10 часов

2 990 ₽

4.98 ₽/мин

−23%

50 часов

12 900 ₽

4.30 ₽/мин

−34%

Частые вопросы

Как расшифровать аудио в текст онлайн?

Загрузите аудиофайл на edword.ru или отправьте небольшой файл в Telegram-бот @mywhisperedbot. Модель распознавания обработает речь, расставит знаки препинания и разделит текст на абзацы. Результат веб-обработки можно скопировать или скачать в формате TXT.

Какие аудиоформаты поддерживаются?

EdWord принимает все популярные аудиоформаты: MP3, WAV, M4A, FLAC, OGG, WebM. Также поддерживаются видеоформаты: MP4, AVI, MOV, MKV — мы автоматически извлечём аудиодорожку. Максимальный размер файла — 2 ГБ.

Расшифровка аудио бесплатная?

Если аккаунту доступен стартовый лимит, после регистрации появится до 60 минут без привязки карты. Далее доступны разовые пакеты от 390 ₽ за 1 час. Купленные минуты не сгорают.

Какая точность распознавания речи?

Качество зависит от исходной записи: шума, расстояния до микрофона, разборчивости речи и одновременных реплик. Язык определяется автоматически; результат стоит проверить на своём файле.

Можно ли расшифровать длинную запись?

Да, EdWord принимает записи длительностью до 3 часов и размером до 2 ГБ за одну загрузку. Более длинную запись разделите на части. Доступный баланс должен покрывать длительность файла.

Какой максимальный размер аудиофайла?

До 2 ГБ и до 3 часов на один файл. Если запись превышает любой из лимитов, разбейте её на части перед загрузкой.

Как повысить точность расшифровки?

Используйте внешний или петличный микрофон, записывайте в тихом помещении без эха и избегайте повторного сжатия файла. Попросите собеседников говорить по очереди: перебивания и дальний микрофон увеличивают объём вычитки.

Можно ли загрузить несколько файлов сразу?

Сайт обрабатывает один активный файл на пользователя. Дождитесь завершения текущей расшифровки, затем загрузите следующий файл. Каждый веб-результат сохранится в истории кабинета.

Есть ли API для расшифровки аудио?

Функция API находится в разработке. Сейчас вы можете использовать веб-интерфейс на edword.ru или Telegram-бот для расшифровки аудио в текст.