Перейти к основному содержимому

Whisper-транскрибация онлайн: без Python, GPU и терминала

Качество распознавания уровня Whisper прямо в браузере и Telegram: точность ~98%, 50+ языков, субтитры SRT/VTT на выходе. Окружение настраивать незачем.

60 бесплатных минут — без привязки карты

Запрос «whisper транскрибация» обычно приводит к инструкциям: поставить Python, собрать whisper.cpp или faster-whisper, найти видеокарту с достаточным объёмом VRAM, подружить всё это с ffmpeg. EdWord даёт результат того же класса без единой команды в терминале: сервис работает на моделях Whisper-класса, вся обработка идёт на наших серверах, от вас нужен только файл. Интерфейс — обычная веб-страница и Telegram-бот, так что решение одинаково доступно разработчику и его коллеге из отдела продаж.

  • Точность 98%
  • 50+ языков
  • TXT, DOCX, SRT, VTT
  • Таймкоды реплик

Загрузите аудио или видео на edword.ru — час записи распознаётся за 4-6 минут. Точность на чистой записи около 98%, язык определяется автоматически, поддерживается больше 50 языков. На выходе — текст с опциональными таймкодами и экспорт в TXT, DOCX, SRT или VTT: субтитровые форматы генерируются сразу, дописывать конвертацию скриптами не придётся.

Локальный запуск Whisper оправдан при постоянных больших объёмах и жёстких требованиях к контуру данных. Во всех остальных случаях облако выигрывает по времени: на CPU обычного ноутбука крупная модель ползёт медленнее реального времени, а здесь двухчасовой файл готов, пока вы завариваете кофе. Принимаются файлы до 2 ГБ в форматах от MP3 и FLAC до MKV; ролики с YouTube, VK Видео и Rutube обрабатываются напрямую по ссылке. Вопрос совместимости отпадает сам собой: браузерный сервис одинаково работает из Windows, macOS и Linux.

Первые 60 минут бесплатны, привязка карты для этого не требуется. Дальше пакеты: 390 ₽ за час, 990 ₽ за три, 2 990 ₽ за десять, 12 900 ₽ за пятьдесят. Купленные минуты остаются на балансе бессрочно. Для быстрых задач есть Telegram-бот @mywhisperedbot: кинули файл или голосовое в чат — получили текст, терминал так и остался закрытым.

Как перевести в текст

1

Загрузите файл

Перетащите файл на сайт или отправьте в Telegram-бот @mywhisperedbot

2

Нейросеть распознаёт речь

Whisper обработает запись: расставит знаки препинания и разделит текст на абзацы

3

Скачайте текст

Скопируйте результат или скачайте в формате TXT. Текст сохранится в личном кабинете

Что понадобилось бы для локального запуска

Типичный чек-лист самостоятельной сборки: Python и виртуальное окружение, ffmpeg в PATH, веса модели на несколько гигабайт, для комфортной скорости — видеокарта с 8-10 ГБ VRAM, плюс вечер на отладку зависимостей. После этого каждый час аудио на CPU обрабатывается дольше самого аудио. EdWord держит весь этот стек развёрнутым на серверах: загрузка файла через браузер заменяет подготовку целиком, а результат приходит через 4-6 минут на час записи независимо от того, какое железо стоит у вас на столе.

Выход: таймкоды, субтитры, документы, история

Расшифровка отдаётся текстом с опциональными таймкодами — по ним удобно сверять спорные фрагменты с исходной записью. Экспорт в четыре формата: TXT для заметок и дальнейшей обработки, DOCX для документов, SRT и VTT для субтитров. Все задачи сохраняются в истории личного кабинета: можно вернуться к старой расшифровке, скопировать текст в один клик или скачать файл повторно. Telegram-бот @mywhisperedbot использует тот же баланс и присылает текст прямо в чат.

Что говорят клиенты

«Раньше тратил 3 часа на расшифровку часовой лекции. Сейчас загружаю в EdWord и забираю готовый текст через 4 минуты.»

Алексей М. автор подкаста, 120+ выпусков

«Добавили бот в рабочий чат — теперь все голосовые становятся текстом сразу. Не надо переслушивать.»

Ирина С. продакт-менеджер, команда 8 человек

«Русский язык распознаёт хорошо — пропускаю всего пару слов на 15-минутном интервью. И что важно — без подписки и прямо из Telegram.»

Дмитрий К. журналист, расследования

Выберите пакет

60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут

1 час
390 ₽
6.50 ₽/мин
3 часа
990 ₽
5.50 ₽/мин
−15%
Популярный
10 часов
2 990 ₽
4.98 ₽/мин
−23%
50 часов
12 900 ₽
4.30 ₽/мин
−34%

Частые вопросы

EdWord использует оригинальный Whisper от OpenAI?

Сервис работает на моделях Whisper-класса — нейросетях той же архитектурной семьи и того же уровня качества. На практике это означает точность около 98% на чистой записи, автоматическое определение языка и поддержку более 50 языков, включая уверенное распознавание русского.

Whisper открытый и бесплатный — за что тогда платить?

Вы платите за вычисления и сэкономленное время. Локальный запуск требует GPU с большим объёмом памяти либо многочасовой обработки на CPU, плюс настройку Python-окружения и ffmpeg. EdWord считает на серверных мощностях: час записи за 4-6 минут. Первые 60 минут бесплатны — можно сравнить результат со своей локальной сборкой.

Какие форматы и лимиты у загрузки?

Файлы до 2 ГБ: MP3, WAV, M4A, FLAC, OGG, WebM, MP4, AVI, MOV, MKV. Видео обрабатывается целиком — звуковая дорожка извлекается на сервере. Отдельно работает обработка по ссылке: YouTube, VK Видео, Rutube и другие источники, которые поддерживает yt-dlp.

Можно ли сразу получить субтитры SRT или VTT?

Да, оба формата доступны в экспорте наряду с TXT и DOCX. Расшифровка с таймкодами превращается в готовый файл субтитров без промежуточных конвертеров — удобно для роликов, курсов и публикации видео с текстовой дорожкой.

Насколько хорошо распознаётся русская речь?

Русский — один из основных сценариев сервиса. На чистой записи без сильного шума точность держится около 98%. Термины, редкие фамилии и аббревиатуры стоит проверять при вычитке — это общая особенность всех моделей Whisper-класса, локальных и облачных.

Сколько стоит расшифровка в EdWord?

Новые пользователи получают 60 минут бесплатно — без привязки карты и подписки. Далее доступны пакеты: 1 час за 390 ₽ (6.50 ₽/мин), 3 часа за 990 ₽ (5.50 ₽/мин), 10 часов за 2 990 ₽ (4.98 ₽/мин). Для команд и компаний — пакеты до 100 часов от 9 900 ₽. Купленные минуты не сгорают, списываются только за реально обработанное аудио.

Какая точность распознавания?

До 98% при качественной записи. EdWord использует нейросеть Whisper от OpenAI — одну из лучших моделей speech-to-text в мире. Поддерживается более 50 языков, включая русский, английский, немецкий, французский, испанский, украинский, казахский. Точность зависит от качества звука: внешний микрофон, отсутствие эха и битрейт от 128 kbps дают прирост 5–10%.

Безопасно ли загружать файлы в EdWord?

Да. Файлы шифруются при передаче по HTTPS и удаляются с серверов EdWord сразу после транскрибации. Мы не используем ваши записи для обучения моделей и не передаём третьим лицам. В личном кабинете хранится только текст расшифровки — вы можете удалить его в любой момент.

Есть ли ограничения по длительности или размеру?

Максимальный размер файла — 2 ГБ, максимальная длительность одной записи — 6 часов. Этого хватает на большинство совещаний, интервью, лекций и подкастов. Если нужно расшифровать более длинную запись — разбейте её на части или напишите в поддержку: для бизнес-тарифов возможны индивидуальные условия.

Попробуйте EdWord прямо сейчас

60 бесплатных минут для новых пользователей. Регистрация через Telegram или Яндекс — без карты.

Поддержка

Если что-то не работает или есть вопрос — пишите напрямую.