Распознавание речи в текст — точность ~98%

Распознавание речи — это работа нейросети, которая слушает звуковую волну и предсказывает, какие слова в ней произнесены. Современные модели обучены на сотнях тысяч часов речи, поэтому справляются с разными голосами, темпом, акцентами и бытовым шумом. EdWord построен на моделях Whisper-класса — том самом поколении технологии, которое подняло качество машинной расшифровки до уровня, пригодного для рабочих документов: на чистой записи точность держится около 98%.

Точность 98%
50+ языков
TXT, DOCX, SRT, VTT
Таймкоды реплик

Модель воспринимает речь целостно, с контекстом. Слово «замок» она запишет правильно, потому что учитывает соседние фразы; окончания и пунктуацию расставит по смыслу предложения. Язык определяется автоматически по звучанию первых секунд, распознаётся более 50 языков — от русского и английского до китайского. Расшифровка всегда выполняется на языке оригинала: французская речь станет французским текстом.

Живую речь EdWord принимает в нескольких видах. Диктовка — через EdWord Mini на edword.ru/mini: наговорили мысль в микрофон браузера, остановили запись — через несколько секунд расшифровка на экране; инструмент устанавливается на компьютер как PWA. Голосовые сообщения — через Telegram-бот @mywhisperedbot, который расшифровывает войсы, кружки и аудиофайлы, в том числе в групповых чатах. Записанные разговоры — через сайт: файлы до 2 ГБ в MP3, WAV, M4A, FLAC, OGG, WebM или видеоформатах, час речи распознаётся за 4–6 минут.

Результат распознавания приходит в личный кабинет: текст с опциональными таймкодами, копирование одним кликом, выгрузка в TXT, DOCX, SRT или VTT. Проверить технологию на собственном голосе можно бесплатно — новым пользователям начисляется 60 минут без привязки карты, дальше действуют пакеты от 390 ₽ за час с бессрочными минутами. Часа хватит, чтобы прогнать через модель и диктовку, и пару голосовых, и запись рабочего созвона.

Как перевести в текст

1

Загрузите файл

Перетащите файл на сайт или отправьте в Telegram-бот @mywhisperedbot

2

Нейросеть распознаёт речь

Whisper обработает запись: расставит знаки препинания и разделит текст на абзацы

3

Скачайте текст

Скопируйте результат или скачайте в формате TXT. Текст сохранится в личном кабинете

Что влияет на качество распознавания

Главный фактор — соотношение голоса и шума. Речь, записанная близко к микрофону в тихой комнате, распознаётся почти без ошибок; гулкий зал, улица и работающий телевизор добавляют промахи. Второй фактор — манера говорящих: чёткая размеренная речь читается лучше скороговорки, а одновременный разговор двух людей — самая сложная ситуация для любой модели. Третий — лексика: редкие фамилии, локальные аббревиатуры и профессиональный жаргон модель может записать на слух. Практический вывод: пишите звук ближе к говорящему, а после распознавания пробегитесь по именам и цифрам — остальное EdWord сделает сам.

Три сценария работы с живой речью

Диктовка: EdWord Mini превращает браузер в голосовую печатную машинку — наговорили абзац, скопировали, вставили в документ. Подходит тем, кто думает вслух быстрее, чем печатает. Голосовые: бот @mywhisperedbot читает войсы за вас — перешлите сообщение или добавьте бота в групповой чат, и каждое голосовое будет появляться там текстом. Записи: разговор с клиентом, выступление на конференции или диктофонная заметка загружаются на сайт файлом до 2 ГБ и возвращаются текстом с таймкодами через несколько минут. Во всех трёх сценариях расходуется один общий баланс минут.

Что говорят клиенты

«Раньше тратил 3 часа на расшифровку часовой лекции. Сейчас загружаю в EdWord и забираю готовый текст через 4 минуты.»

Алексей М. автор подкаста, 120+ выпусков

«Добавили бот в рабочий чат — теперь все голосовые становятся текстом сразу. Не надо переслушивать.»

Ирина С. продакт-менеджер, команда 8 человек

«Русский язык распознаёт хорошо — пропускаю всего пару слов на 15-минутном интервью. И что важно — без подписки и прямо из Telegram.»

Дмитрий К. журналист, расследования

Выберите пакет

60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут

1 час

390 ₽

6.50 ₽/мин

3 часа

990 ₽

5.50 ₽/мин

−15%

Популярный

10 часов

2 990 ₽

4.98 ₽/мин

−23%

50 часов

12 900 ₽

4.30 ₽/мин

−34%

Частые вопросы

Как нейросеть распознаёт речь?

Модель анализирует звуковую волну по коротким фрагментам и предсказывает наиболее вероятную последовательность слов, опираясь на контекст всей фразы. Обучение на огромных массивах речи научило её различать похожие звуки, восстанавливать окончания и расставлять пунктуацию. В EdWord эту работу выполняют модели Whisper-класса.

Какая точность у распознавания речи?

На чистой записи с внятной дикцией — около 98%: из ста слов модель ошибается в одном-двух. Точность падает на сильном фоновом шуме, при наложении голосов и очень тихой речи. Имена собственные, аббревиатуры и узкие термины стоит проверять — это слабое место любой системы распознавания.

Распознаётся ли речь с акцентом или диалектом?

Да, модели Whisper-класса обучались на речи тысяч разных людей, поэтому устойчивы к акцентам, региональному произношению и индивидуальной манере. Сильный акцент может снизить точность на отдельных словах, но общий смысл текста сохранится, а спорные места легко сверить по таймкодам.

Как надиктовать текст голосом?

Для диктовки есть EdWord Mini на edword.ru/mini: открываете страницу в браузере, разрешаете доступ к микрофону, наговариваете и останавливаете запись — через несколько секунд текст готов. Mini ставится на компьютер как PWA-приложение, поэтому запускается с ярлыка одним кликом. Удобно наговаривать письма, заметки и черновики статей.

Речь на каких языках распознаёт EdWord?

Больше 50 языков: русский, английский, немецкий, французский, испанский, китайский и другие. Выбирать язык в настройках нет нужды — модель сама определяет его по звучанию. Текст выдаётся на языке говорящего; смешанную двуязычную речь стоит потом просмотреть внимательнее.

Сколько стоит расшифровка в EdWord?

Новые пользователи получают 60 минут бесплатно — без привязки карты и подписки. Далее доступны пакеты: 1 час за 390 ₽ (6.50 ₽/мин), 3 часа за 990 ₽ (5.50 ₽/мин), 10 часов за 2 990 ₽ (4.98 ₽/мин). Для команд и компаний — пакеты до 100 часов от 9 900 ₽. Купленные минуты не сгорают, списываются только за реально обработанное аудио.

Какая точность распознавания?

До 98% при качественной записи. EdWord использует нейросеть Whisper от OpenAI — одну из лучших моделей speech-to-text в мире. Поддерживается более 50 языков, включая русский, английский, немецкий, французский, испанский, украинский, казахский. Точность зависит от качества звука: внешний микрофон, отсутствие эха и битрейт от 128 kbps дают прирост 5–10%.

Безопасно ли загружать файлы в EdWord?

Да. Файлы шифруются при передаче по HTTPS и удаляются с серверов EdWord сразу после транскрибации. Мы не используем ваши записи для обучения моделей и не передаём третьим лицам. В личном кабинете хранится только текст расшифровки — вы можете удалить его в любой момент.

Есть ли ограничения по длительности или размеру?

Максимальный размер файла — 2 ГБ, максимальная длительность одной записи — 6 часов. Этого хватает на большинство совещаний, интервью, лекций и подкастов. Если нужно расшифровать более длинную запись — разбейте её на части или напишите в поддержку: для бизнес-тарифов возможны индивидуальные условия.

Попробуйте EdWord прямо сейчас

60 бесплатных минут для новых пользователей. Регистрация через Telegram или Яндекс — без карты.

Загрузить файл Открыть Telegram-бот

Распознавание речи в текст: технология и практика

Как перевести в текст

Загрузите файл

Нейросеть распознаёт речь

Скачайте текст

Что влияет на качество распознавания

Три сценария работы с живой речью

Что говорят клиенты

Выберите пакет

Частые вопросы

Похожие форматы

Распознавание аудио в текст

Транскрибация речи и голоса

Голосовой ввод в текст

Нейросеть для перевода аудио в текст

Whisper-транскрибация онлайн: без Python, GPU и терминала

ИИ-транскрибация аудио и видео

Попробуйте EdWord прямо сейчас

Поддержка