Whisper — нейросеть OpenAI, которая слушает аудио и печатает текст. С момента релиза в 2022 году она стала стандартом де-факто для распознавания речи: на ней работают десятки сервисов расшифровки, плагины для монтажа видео и системы субтитров. Разберём, как модель устроена внутри, почему она справляется с русским языком, где спотыкается — и как получить расшифровку на моделях Whisper-класса за пару минут, без видеокарты и командной строки.
Whisper обучили на 680 000 часов реальной речи из интернета, поэтому модель терпима к акцентам, шуму и бытовым записям. Попробовать её в деле проще всего через онлайн-транскрибацию на EdWord: 60 минут бесплатно, точность около 98% на чистой записи.
Что такое Whisper
Whisper — открытая модель автоматического распознавания речи (ASR, automatic speech recognition), которую OpenAI опубликовала в сентябре 2022 года вместе с кодом и весами. Лицензия MIT позволяет использовать её где угодно, включая коммерческие продукты. Отсюда и взрыв популярности: любой разработчик может взять готовую модель и встроить речь-в-текст в своё приложение.
Модель мультиязычная. Она распознаёт речь на десятках языков, сама определяет язык записи и расставляет пунктуацию — точки, запятые, заглавные буквы появляются в тексте автоматически. Для сравнения: классические ASR-системы прошлого поколения выдавали сплошной поток строчных слов, который потом приходилось размечать отдельным алгоритмом.
Слово «whisper» переводится как «шёпот». Ирония в том, что именно тихую и невнятную речь модель разбирает заметно лучше предшественников — сказалась манера обучения, о которой ниже.
680 000 часов аудио: на чём обучали модель
Главный секрет Whisper — масштаб и «грязнота» обучающих данных. OpenAI собрала из интернета 680 000 часов аудио с парными субтитрами: подкасты, лекции, интервью, ролики. Это примерно 77 лет непрерывного звучания. Около трети датасета — записи на языках, отличных от английского, и русский там представлен солидно.
Академические ASR-модели до этого учились на вылизанных корпусах: студийный звук, дикторская речь, выверенная разметка. Такие модели показывали красивые цифры на тестах и разваливались на живых записях с эхом, перебиваниями и уличным шумом. Whisper учился сразу на «диком» аудио, поэтому реальный созвон в Zoom или голосовое из машины для него — привычная среда, близкая к обучающей выборке.
Обучение «со слабым надзором» (weakly supervised) означает, что субтитры из интернета никто вручную не выверял. Часть разметки была неточной, и модель научилась извлекать сигнал из шумных данных. Побочный эффект — устойчивость к акцентам, диалектам и специфической лексике, которой в стерильных корпусах попросту нет.
Как звук превращается в текст
Внутри Whisper — трансформер типа «энкодер-декодер», та же архитектура, что у переводчиков и языковых моделей. Путь от звука до текста выглядит так:
- Нарезка. Аудио режется на фрагменты по 30 секунд. Длинная запись обрабатывается окнами, результаты сшиваются.
- Спектрограмма. Каждый фрагмент превращается в лог-мел-спектрограмму — по сути, картинку, где по горизонтали время, по вертикали частоты, а яркость показывает энергию звука. Нейросеть «смотрит» на звук как на изображение.
- Энкодер. Стек трансформер-блоков сжимает спектрограмму в набор векторов — внутреннее представление того, что было сказано.
- Декодер. Вторая половина сети генерирует текст токен за токеном, опираясь на векторы энкодера и уже напечатанные слова. Работает как автодополнение: предсказывает следующее слово с учётом контекста.
Контекстность декодера — причина, по которой Whisper грамотно пишет «прийти» вместо «придти» и восстанавливает смысл в местах, где звук смазан: модель опирается на языковую статистику, накопленную за время обучения. Подробнее о том, чем нейросетевой перевод аудио в текст отличается от старых движков распознавания, мы разбирали в отдельном материале.
Насколько хорошо Whisper понимает русский
Русский входит в группу языков, на которых Whisper показывает лучшие результаты — вместе с английским, испанским, немецким и итальянским. Причина простая: русскоязычного аудио в обучающей выборке было много.
Качество распознавания измеряют метрикой WER (word error rate) — доля слов, которые модель услышала неверно, пропустила или добавила лишними. У крупных версий Whisper на чистой русской речи WER держится в районе единиц процентов. В переводе на бытовой язык: из ста сказанных слов ошибочными оказываются два-три, и точность выходит около 98%.
На практике модель уверенно разбирает:
- беглую разговорную речь со словами-паразитами и оборванными фразами;
- региональные акценты и речь людей, для которых русский второй язык;
- профессиональную лексику — медицинскую, юридическую, айтишную;
- записи с умеренным фоновым шумом: кафе, улица, клавиатура на созвоне.
Точность падает на плохом сигнале: перегруженный микрофон, сильная реверберация, несколько людей говорят одновременно. Технология распознавания речи в текст любит запись с расстояния 20–30 см от рта — это дешевле любых улучшений на этапе обработки.
Смешанная речь — рабочий сценарий для Whisper. Фраза «закинь фичу в бэклог, обсудим на дейли» распознаётся корректно: англицизмы внутри русского предложения модель видела в обучении тысячи раз.
Семейство моделей: от tiny до large
Whisper выпущен в нескольких размерах. Чем больше параметров, тем выше точность и тем медленнее обработка на том же железе.
| Модель | Параметры | Скорость | Русский язык |
|---|---|---|---|
| tiny | 39 млн | Очень быстро | Слабо, много ошибок |
| base | 74 млн | Быстро | Терпимо для черновика |
| small | 244 млн | Средне | Хорошо на чистом звуке |
| medium | 769 млн | Медленно на CPU | Уверенно |
| large | 1,55 млрд | Нужна GPU | Максимум качества |
Для русского языка разница между tiny и large драматична. Маленькие модели натренированы преимущественно на английском, и русская речь у них рассыпается на бессвязные слова. Серьёзная работа с русским аудио начинается с medium, а комфортное качество дают large-версии — именно модели этого класса крутятся под капотом ИИ-транскрибации EdWord.
Large-версия тоже развивалась: после исходной модели OpenAI выпустила large-v2, затем large-v3 с дополнительным дообучением. Каждая итерация подтягивала качество на «неанглийских» языках, и русский выигрывал от этого заметнее многих. Параллельно сообщество ускоряло модель: проекты whisper.cpp и faster-whisper переписали вычисления так, что та же сеть работает в разы шустрее и влезает в более скромное железо.
Слабые места Whisper
Модель сильная, но у неё есть характерные болячки, о которых честно предупредить:
- Галлюцинации на тишине. Декодер обязан что-то генерировать, поэтому на длинных паузах и музыкальных вставках модель иногда «дописывает» фразы, которых никто не произносил. Классика — фантомное «Субтитры сделал DimaTorzok» в конце ролика: артефакт обучения на субтитрах из интернета.
- Зацикливание. На очень плохом звуке декодер может застрять и повторять одну фразу несколько раз подряд.
- Числа и имена. «Двадцать пять тысяч триста» модель может записать словами, цифрами или смесью. Редкие фамилии и названия компаний пишутся на слух.
- Спикеры не размечаются. Из коробки Whisper выдаёт единый поток текста без указания, кто говорит. Разделение по голосам — отдельная задача, которую решают другие инструменты.
- Таймкоды приблизительные. Метки времени привязаны к фразам и могут плавать на доли секунды — для субтитров хватает, для монтажа по миллисекундам стоит перепроверять.
Хорошая новость: большинство болячек лечится на уровне сервиса. Продакшен-системы поверх Whisper режут записи по паузам, фильтруют пустые сегменты, ловят зацикливания и склеивают куски так, чтобы фантомные фразы отсеивались до того, как попадут в итоговый текст. Пользователь этого слоя даже не видит — просто получает более чистую расшифровку, чем выдала бы «голая» модель из репозитория.
Вывод для практики: расшифровку важного интервью или юридической консультации стоит пробежать глазами, особенно места с числами, именами и датами. Пять минут вычитки против часа ручного набора — всё ещё огромный выигрыш.
Запуск у себя или через сервис: сравнение
Whisper открыт, поэтому путей два: развернуть модель на своём железе или загрузить файл в готовый сервис. Считаем честно.
Локальный запуск потребует: Python или сборку whisper.cpp, видеокарту от 8–10 ГБ VRAM для large-модели (на процессоре часовая запись может обрабатываться несколько часов), место под веса и терпение на настройку зависимостей. Плюс — полный контроль: аудио остаётся на вашей машине, платить за минуты никому нужно.
| Критерий | Whisper у себя | EdWord |
|---|---|---|
| Старт | Часы на установку | 2 минуты, браузер |
| Железо | GPU для large | Любой ноутбук, телефон |
| Час записи | От минут до часов | ~4–6 минут |
| Экспорт | Скриптами вручную | TXT, DOCX, SRT, VTT кнопкой |
Локальная установка оправдана, когда записей десятки часов ежедневно, есть железо и инженер, который будет это поддерживать. Для остальных сценариев — совещание раз в неделю, лекции в сессию, интервью для статьи — сервис закрывает задачу быстрее, чем вы успеете скачать веса модели.
Расшифровка через EdWord: пошагово
EdWord гоняет модели Whisper-класса на своих серверах, а вам оставляет три способа отдать запись.
Способ 1. Через сайт
- Откройте edword.ru и войдите через Telegram или Яндекс — новому аккаунту сразу начисляется 60 бесплатных минут, карта не нужна.
- Перетащите файл в окно загрузки. Принимаются MP3, WAV, M4A, FLAC, OGG, WebM и видео MP4, AVI, MOV, MKV — до 2 ГБ.
- Подождите: час записи превращается в текст примерно за 4–6 минут, язык определится сам.
- Заберите результат — скопируйте в один клик или скачайте в нужном формате. Расшифровка сохранится в истории личного кабинета.
Способ 2. Через Telegram-бот
Отправьте голосовое, кружок, аудио- или видеофайл боту @mywhisperedbot — текст придёт ответным сообщением. Бот живёт и в групповых чатах: добавьте его в рабочую группу, и каждое голосовое будет автоматически превращаться в текст под исходным сообщением.
Способ 3. По ссылке
Вставьте ссылку на видео с YouTube, VK Видео, Rutube и других площадок — сервис сам скачает ролик, вытащит дорожку и отдаст расшифровку. Удобно для лекций и вебинаров, которые лень выкачивать вручную.
Что получается на выходе
Результат — связный текст с пунктуацией, по желанию с таймкодами. Форматы экспорта под разные задачи:
- TXT — чистый текст для заметок и поиска по записи;
- DOCX — документ для правок в Word и согласований;
- SRT и VTT — готовые субтитры для YouTube, монтажных программ и плееров.
Из такого транскрипта легко собрать конспект лекции, протокол встречи или цитаты для статьи: текст структурирован по фразам, а таймкоды позволяют мгновенно вернуться к нужному месту записи. Для диктовки коротких заметок голосом есть отдельный инструмент — EdWord Mini работает прямо в браузере и ставится на компьютер как PWA-приложение.
Сколько стоит распознавание
Знакомство бесплатное: 60 минут каждому новому пользователю. Дальше — разовые пакеты: час за 390 ₽, три часа за 990 ₽, десять часов за 2 990 ₽, пятьдесят — за 12 900 ₽. Командам подойдут пакеты 50 часов за 9 900 ₽ и 100 часов за 17 900 ₽. Подписки нет, купленные минуты лежат на балансе без срока сгорания — купили десять часов в июле, спокойно тратите их до зимы.
Итог
Whisper поднял планку распознавания речи: открытая модель, обученная на 680 000 часов живого аудио, разбирает русскую речь с точностью около 98% и прощает шум, акценты и разговорные обороты. Технически её может запустить каждый — при наличии GPU и желания возиться с настройкой. Практически быстрее загрузить запись в EdWord: та же технология, результат через несколько минут, первый час бесплатно.