Whisper-транскрибация онлайн: без Python, GPU и терминала
Качество распознавания уровня Whisper прямо в браузере и Telegram: точность ~98%, 50+ языков, субтитры SRT/VTT на выходе. Окружение настраивать незачем.
Запрос «whisper транскрибация» обычно приводит к инструкциям: поставить Python, собрать whisper.cpp или faster-whisper, найти видеокарту с достаточным объёмом VRAM, подружить всё это с ffmpeg. EdWord даёт результат того же класса без единой команды в терминале: сервис работает на моделях Whisper-класса, вся обработка идёт на наших серверах, от вас нужен только файл. Интерфейс — обычная веб-страница и Telegram-бот, так что решение одинаково доступно разработчику и его коллеге из отдела продаж.
- Точность 98%
- 50+ языков
- TXT, DOCX, SRT, VTT
- Таймкоды реплик
Загрузите аудио или видео на edword.ru — час записи распознаётся за 4-6 минут. Точность на чистой записи около 98%, язык определяется автоматически, поддерживается больше 50 языков. На выходе — текст с опциональными таймкодами и экспорт в TXT, DOCX, SRT или VTT: субтитровые форматы генерируются сразу, дописывать конвертацию скриптами не придётся.
Локальный запуск Whisper оправдан при постоянных больших объёмах и жёстких требованиях к контуру данных. Во всех остальных случаях облако выигрывает по времени: на CPU обычного ноутбука крупная модель ползёт медленнее реального времени, а здесь двухчасовой файл готов, пока вы завариваете кофе. Принимаются файлы до 2 ГБ в форматах от MP3 и FLAC до MKV; ролики с YouTube, VK Видео и Rutube обрабатываются напрямую по ссылке. Вопрос совместимости отпадает сам собой: браузерный сервис одинаково работает из Windows, macOS и Linux.
Первые 60 минут бесплатны, привязка карты для этого не требуется. Дальше пакеты: 390 ₽ за час, 990 ₽ за три, 2 990 ₽ за десять, 12 900 ₽ за пятьдесят. Купленные минуты остаются на балансе бессрочно. Для быстрых задач есть Telegram-бот @mywhisperedbot: кинули файл или голосовое в чат — получили текст, терминал так и остался закрытым.
Как перевести в текст
Нейросеть распознаёт речь
Whisper обработает запись: расставит знаки препинания и разделит текст на абзацы
Скачайте текст
Скопируйте результат или скачайте в формате TXT. Текст сохранится в личном кабинете
Что понадобилось бы для локального запуска
Типичный чек-лист самостоятельной сборки: Python и виртуальное окружение, ffmpeg в PATH, веса модели на несколько гигабайт, для комфортной скорости — видеокарта с 8-10 ГБ VRAM, плюс вечер на отладку зависимостей. После этого каждый час аудио на CPU обрабатывается дольше самого аудио. EdWord держит весь этот стек развёрнутым на серверах: загрузка файла через браузер заменяет подготовку целиком, а результат приходит через 4-6 минут на час записи независимо от того, какое железо стоит у вас на столе.
Выход: таймкоды, субтитры, документы, история
Расшифровка отдаётся текстом с опциональными таймкодами — по ним удобно сверять спорные фрагменты с исходной записью. Экспорт в четыре формата: TXT для заметок и дальнейшей обработки, DOCX для документов, SRT и VTT для субтитров. Все задачи сохраняются в истории личного кабинета: можно вернуться к старой расшифровке, скопировать текст в один клик или скачать файл повторно. Telegram-бот @mywhisperedbot использует тот же баланс и присылает текст прямо в чат.
Что говорят клиенты
«Раньше тратил 3 часа на расшифровку часовой лекции. Сейчас загружаю в EdWord и забираю готовый текст через 4 минуты.»
«Добавили бот в рабочий чат — теперь все голосовые становятся текстом сразу. Не надо переслушивать.»
«Русский язык распознаёт хорошо — пропускаю всего пару слов на 15-минутном интервью. И что важно — без подписки и прямо из Telegram.»
Выберите пакет
60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут
Частые вопросы
EdWord использует оригинальный Whisper от OpenAI?
Сервис работает на моделях Whisper-класса — нейросетях той же архитектурной семьи и того же уровня качества. На практике это означает точность около 98% на чистой записи, автоматическое определение языка и поддержку более 50 языков, включая уверенное распознавание русского.
Whisper открытый и бесплатный — за что тогда платить?
Вы платите за вычисления и сэкономленное время. Локальный запуск требует GPU с большим объёмом памяти либо многочасовой обработки на CPU, плюс настройку Python-окружения и ffmpeg. EdWord считает на серверных мощностях: час записи за 4-6 минут. Первые 60 минут бесплатны — можно сравнить результат со своей локальной сборкой.
Какие форматы и лимиты у загрузки?
Файлы до 2 ГБ: MP3, WAV, M4A, FLAC, OGG, WebM, MP4, AVI, MOV, MKV. Видео обрабатывается целиком — звуковая дорожка извлекается на сервере. Отдельно работает обработка по ссылке: YouTube, VK Видео, Rutube и другие источники, которые поддерживает yt-dlp.
Можно ли сразу получить субтитры SRT или VTT?
Да, оба формата доступны в экспорте наряду с TXT и DOCX. Расшифровка с таймкодами превращается в готовый файл субтитров без промежуточных конвертеров — удобно для роликов, курсов и публикации видео с текстовой дорожкой.
Насколько хорошо распознаётся русская речь?
Русский — один из основных сценариев сервиса. На чистой записи без сильного шума точность держится около 98%. Термины, редкие фамилии и аббревиатуры стоит проверять при вычитке — это общая особенность всех моделей Whisper-класса, локальных и облачных.
Сколько стоит расшифровка в EdWord?
Новые пользователи получают 60 минут бесплатно — без привязки карты и подписки. Далее доступны пакеты: 1 час за 390 ₽ (6.50 ₽/мин), 3 часа за 990 ₽ (5.50 ₽/мин), 10 часов за 2 990 ₽ (4.98 ₽/мин). Для команд и компаний — пакеты до 100 часов от 9 900 ₽. Купленные минуты не сгорают, списываются только за реально обработанное аудио.
Какая точность распознавания?
До 98% при качественной записи. EdWord использует нейросеть Whisper от OpenAI — одну из лучших моделей speech-to-text в мире. Поддерживается более 50 языков, включая русский, английский, немецкий, французский, испанский, украинский, казахский. Точность зависит от качества звука: внешний микрофон, отсутствие эха и битрейт от 128 kbps дают прирост 5–10%.
Безопасно ли загружать файлы в EdWord?
Да. Файлы шифруются при передаче по HTTPS и удаляются с серверов EdWord сразу после транскрибации. Мы не используем ваши записи для обучения моделей и не передаём третьим лицам. В личном кабинете хранится только текст расшифровки — вы можете удалить его в любой момент.
Есть ли ограничения по длительности или размеру?
Максимальный размер файла — 2 ГБ, максимальная длительность одной записи — 6 часов. Этого хватает на большинство совещаний, интервью, лекций и подкастов. Если нужно расшифровать более длинную запись — разбейте её на части или напишите в поддержку: для бизнес-тарифов возможны индивидуальные условия.
Похожие форматы
ИИ-транскрибация аудио и видео
Распознавание речи моделями Whisper-класса для записей, голосовых, видео и ссылок.
Нейросеть для перевода аудио в текст
Распознавание аудиозаписей нейросетью Whisper-класса через сайт и Telegram.
Распознавание речи в текст: технология и практика
Нейросети Whisper-класса превращают живую речь в текст: диктовка в браузере, голосовые в Telegram, записи разговоров.
Сервис транскрибации аудио и видео
EdWord превращает записи, голосовые и видео по ссылке в текст через сайт и Telegram-бот.
Транскрибация онлайн: всё в браузере
Расшифровка аудио и видео без установки программ — с компьютера, планшета или телефона. Стартовые 60 минут за счёт сервиса.
Субтитры из видео в текст
Получите расшифровку речи и экспорт SRT/VTT для YouTube, LMS и видеоредакторов.
Попробуйте EdWord прямо сейчас
60 бесплатных минут для новых пользователей. Регистрация через Telegram или Яндекс — без карты.