Перейти к основному содержимому

MP3 в текст онлайн

Расшифровка MP3 с битрейтом от 32 до 320 kbps, моно и стерео. Точность до 98% на нейросети Whisper.

60 бесплатных минут — без регистрации карты

MP3 — это почти вся запись, которая попадает в руки людям каждый день. С диктофона iPhone, из Telegram Voice Messages (после экспорта чата), с профессионального Zoom H1n на интервью, из Audacity после обработки подкаста, со звонков в Skype или Google Meet, скачанных отдельной дорожкой. Когда через час разговора остаётся файл на 60 минут — расшифровывать руками значит убить вечер. EdWord делает это за 2–5 минут: загрузил MP3 — получил текст с тайм-кодами, можно править и экспортировать.

Формат MP3 хорошо распознаётся нейросетями: битрейт 32–320 kbps, частоты 32/44.1/48 kHz, моно и стерео — EdWord принимает всё это без предварительной конвертации. На точность сильнее влияет качество записи, чем битрейт: 96 kbps с петличным микрофоном в тихой комнате разбирается лучше, чем 320 kbps со смартфона у оживлённой улицы. Под капотом — нейросеть Whisper от OpenAI, которая показывает до 98% точности на чистой русской речи и поддерживает 50+ языков, включая украинский, казахский, немецкий, английский. VBR-файлы тоже принимаются.

Типичные сценарии: журналисты расшифровывают интервью перед публикацией, студенты превращают часовую лекцию с диктофона в конспект за 5 минут, подкастеры получают текст для шоу-нотов и SEO-описаний эпизода, бизнес-команды — протоколы встреч из Zoom. EdWord отличается от десктопных решений тем, что работает прямо из Telegram: бот @mywhisperedbot принимает голосовые и MP3-вложения, а в групповых чатах может расшифровывать сообщения участников на лету — без установок, без миграции команды на новый инструмент.

Как перевести в текст

1

Загрузите файл

Перетащите файл на сайт или отправьте в Telegram-бот @mywhisperedbot

2

Нейросеть распознаёт речь

Whisper обработает запись: расставит знаки препинания и разделит текст на абзацы

3

Скачайте текст

Скопируйте результат или скачайте в формате TXT. Текст сохранится в личном кабинете

Характеристики формата

КодекMPEG-1 Audio Layer III (ISO/IEC 11172-3)
Битрейт32–320 kbps (CBR и VBR), частоты 32 / 44.1 / 48 kHz
Макс. размер файла2 ГБ
Расширения.mp3
Типичное применениеДиктофонные записи, подкасты, голосовые сообщения, экспорт из Zoom и Google Meet

Выберите пакет

60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут

1 час
390₽
6.50 ₽/мин
3 часа
990₽
5.50 ₽/мин
−15%
Популярный
10 часов
2990₽
4.98 ₽/мин
−23%

Частые вопросы

Какой максимальный битрейт MP3 поддерживает EdWord?

Принимаем весь стандартный диапазон MPEG-1 Layer III: от 32 до 320 kbps, включая VBR. Файлы с MPEG-2 extension (8–32 kbps) тоже распознаются, но на таких битрейтах точность падает на 5–10%.

Нужно ли конвертировать MP3 в WAV перед загрузкой?

Нет. EdWord работает с MP3 напрямую, конвертация не нужна и не даст прироста точности — Whisper распознаёт декодированный сигнал одинаково, кодек источника роли не играет.

Стерео и моно MP3 — есть разница для распознавания?

Для точности нет: модель смешивает каналы в моно перед распознаванием. Но стерео полезно, если на разных каналах записаны разные спикеры — в будущем планируем diarization по каналам.

Что делать, если расшифровка MP3 получилась неточной?

Основные причины — низкий битрейт (ниже 64 kbps), шум, эхо или несколько говорящих одновременно. Переэкспортируйте из исходника в 128 kbps и выше, уберите шум в Audacity фильтром Noise Reduction — обычно это поднимает точность на 10–15%.

Поддерживает ли EdWord MP3 с переменным битрейтом (VBR)?

Да, VBR-файлы обрабатываются так же, как CBR. Большинство MP3 из Telegram, WhatsApp и современных диктофонов — именно VBR, никаких дополнительных настроек делать не нужно.

Можно ли расшифровать MP3-подкаст на 2 часа?

Да. Лимит одной записи — 6 часов, вес файла — 2 ГБ. Двухчасовой эпизод подкаста обычно весит 60–120 МБ и обрабатывается за 8–15 минут. Результат доступен в кабинете и через API бота.

Сколько стоит расшифровка в EdWord?

Новые пользователи получают 60 минут бесплатно — без привязки карты и подписки. Далее доступны пакеты: 1 час за 390 ₽ (6.50 ₽/мин), 3 часа за 990 ₽ (5.50 ₽/мин), 10 часов за 2 990 ₽ (4.98 ₽/мин). Для команд и компаний — пакеты до 100 часов от 9 900 ₽. Купленные минуты не сгорают, списываются только за реально обработанное аудио.

Какая точность распознавания?

До 98% при качественной записи. EdWord использует нейросеть Whisper от OpenAI — одну из лучших моделей speech-to-text в мире. Поддерживается более 50 языков, включая русский, английский, немецкий, французский, испанский, украинский, казахский. Точность зависит от качества звука: внешний микрофон, отсутствие эха и битрейт от 128 kbps дают прирост 5–10%.

Безопасно ли загружать файлы в EdWord?

Да. Файлы шифруются при передаче по HTTPS и удаляются с серверов EdWord сразу после транскрибации. Мы не используем ваши записи для обучения моделей и не передаём третьим лицам. В личном кабинете хранится только текст расшифровки — вы можете удалить его в любой момент.

Есть ли ограничения по длительности или размеру?

Максимальный размер файла — 2 ГБ, максимальная длительность одной записи — 6 часов. Этого хватает на большинство совещаний, интервью, лекций и подкастов. Если нужно расшифровать более длинную запись — разбейте её на части или напишите в поддержку: для бизнес-тарифов возможны индивидуальные условия.

Попробуйте EdWord прямо сейчас

60 бесплатных минут для новых пользователей. Регистрация через Telegram или Яндекс — без карты.