Перейти к основному содержимому

Whisper: как устроена нейросеть распознавания речи от OpenAI

Whisper — нейросеть OpenAI, которая слушает аудио и печатает текст. С момента релиза в 2022 году она стала стандартом де-факто для распознавания речи: на ней работают десятки сервисов расшифровки, плагины для монтажа видео и системы субтитров. Разберём, как модель устроена внутри, почему она справляется с русским языком, где спотыкается — и как получить расшифровку на моделях Whisper-класса за пару минут, без видеокарты и командной строки.

Коротко

Whisper обучили на 680 000 часов реальной речи из интернета, поэтому модель терпима к акцентам, шуму и бытовым записям. Попробовать её в деле проще всего через онлайн-транскрибацию на EdWord: 60 минут бесплатно, точность около 98% на чистой записи.

Что такое Whisper

Whisper — открытая модель автоматического распознавания речи (ASR, automatic speech recognition), которую OpenAI опубликовала в сентябре 2022 года вместе с кодом и весами. Лицензия MIT позволяет использовать её где угодно, включая коммерческие продукты. Отсюда и взрыв популярности: любой разработчик может взять готовую модель и встроить речь-в-текст в своё приложение.

Модель мультиязычная. Она распознаёт речь на десятках языков, сама определяет язык записи и расставляет пунктуацию — точки, запятые, заглавные буквы появляются в тексте автоматически. Для сравнения: классические ASR-системы прошлого поколения выдавали сплошной поток строчных слов, который потом приходилось размечать отдельным алгоритмом.

Слово «whisper» переводится как «шёпот». Ирония в том, что именно тихую и невнятную речь модель разбирает заметно лучше предшественников — сказалась манера обучения, о которой ниже.

680 000 часов аудио: на чём обучали модель

Главный секрет Whisper — масштаб и «грязнота» обучающих данных. OpenAI собрала из интернета 680 000 часов аудио с парными субтитрами: подкасты, лекции, интервью, ролики. Это примерно 77 лет непрерывного звучания. Около трети датасета — записи на языках, отличных от английского, и русский там представлен солидно.

Академические ASR-модели до этого учились на вылизанных корпусах: студийный звук, дикторская речь, выверенная разметка. Такие модели показывали красивые цифры на тестах и разваливались на живых записях с эхом, перебиваниями и уличным шумом. Whisper учился сразу на «диком» аудио, поэтому реальный созвон в Zoom или голосовое из машины для него — привычная среда, близкая к обучающей выборке.

Обучение «со слабым надзором» (weakly supervised) означает, что субтитры из интернета никто вручную не выверял. Часть разметки была неточной, и модель научилась извлекать сигнал из шумных данных. Побочный эффект — устойчивость к акцентам, диалектам и специфической лексике, которой в стерильных корпусах попросту нет.

Как звук превращается в текст

Внутри Whisper — трансформер типа «энкодер-декодер», та же архитектура, что у переводчиков и языковых моделей. Путь от звука до текста выглядит так:

  1. Нарезка. Аудио режется на фрагменты по 30 секунд. Длинная запись обрабатывается окнами, результаты сшиваются.
  2. Спектрограмма. Каждый фрагмент превращается в лог-мел-спектрограмму — по сути, картинку, где по горизонтали время, по вертикали частоты, а яркость показывает энергию звука. Нейросеть «смотрит» на звук как на изображение.
  3. Энкодер. Стек трансформер-блоков сжимает спектрограмму в набор векторов — внутреннее представление того, что было сказано.
  4. Декодер. Вторая половина сети генерирует текст токен за токеном, опираясь на векторы энкодера и уже напечатанные слова. Работает как автодополнение: предсказывает следующее слово с учётом контекста.

Контекстность декодера — причина, по которой Whisper грамотно пишет «прийти» вместо «придти» и восстанавливает смысл в местах, где звук смазан: модель опирается на языковую статистику, накопленную за время обучения. Подробнее о том, чем нейросетевой перевод аудио в текст отличается от старых движков распознавания, мы разбирали в отдельном материале.

Насколько хорошо Whisper понимает русский

Русский входит в группу языков, на которых Whisper показывает лучшие результаты — вместе с английским, испанским, немецким и итальянским. Причина простая: русскоязычного аудио в обучающей выборке было много.

Качество распознавания измеряют метрикой WER (word error rate) — доля слов, которые модель услышала неверно, пропустила или добавила лишними. У крупных версий Whisper на чистой русской речи WER держится в районе единиц процентов. В переводе на бытовой язык: из ста сказанных слов ошибочными оказываются два-три, и точность выходит около 98%.

На практике модель уверенно разбирает:

  • беглую разговорную речь со словами-паразитами и оборванными фразами;
  • региональные акценты и речь людей, для которых русский второй язык;
  • профессиональную лексику — медицинскую, юридическую, айтишную;
  • записи с умеренным фоновым шумом: кафе, улица, клавиатура на созвоне.

Точность падает на плохом сигнале: перегруженный микрофон, сильная реверберация, несколько людей говорят одновременно. Технология распознавания речи в текст любит запись с расстояния 20–30 см от рта — это дешевле любых улучшений на этапе обработки.

Совет

Смешанная речь — рабочий сценарий для Whisper. Фраза «закинь фичу в бэклог, обсудим на дейли» распознаётся корректно: англицизмы внутри русского предложения модель видела в обучении тысячи раз.

Семейство моделей: от tiny до large

Whisper выпущен в нескольких размерах. Чем больше параметров, тем выше точность и тем медленнее обработка на том же железе.

Модель Параметры Скорость Русский язык
tiny 39 млн Очень быстро Слабо, много ошибок
base 74 млн Быстро Терпимо для черновика
small 244 млн Средне Хорошо на чистом звуке
medium 769 млн Медленно на CPU Уверенно
large 1,55 млрд Нужна GPU Максимум качества

Для русского языка разница между tiny и large драматична. Маленькие модели натренированы преимущественно на английском, и русская речь у них рассыпается на бессвязные слова. Серьёзная работа с русским аудио начинается с medium, а комфортное качество дают large-версии — именно модели этого класса крутятся под капотом ИИ-транскрибации EdWord.

Large-версия тоже развивалась: после исходной модели OpenAI выпустила large-v2, затем large-v3 с дополнительным дообучением. Каждая итерация подтягивала качество на «неанглийских» языках, и русский выигрывал от этого заметнее многих. Параллельно сообщество ускоряло модель: проекты whisper.cpp и faster-whisper переписали вычисления так, что та же сеть работает в разы шустрее и влезает в более скромное железо.

Слабые места Whisper

Модель сильная, но у неё есть характерные болячки, о которых честно предупредить:

  • Галлюцинации на тишине. Декодер обязан что-то генерировать, поэтому на длинных паузах и музыкальных вставках модель иногда «дописывает» фразы, которых никто не произносил. Классика — фантомное «Субтитры сделал DimaTorzok» в конце ролика: артефакт обучения на субтитрах из интернета.
  • Зацикливание. На очень плохом звуке декодер может застрять и повторять одну фразу несколько раз подряд.
  • Числа и имена. «Двадцать пять тысяч триста» модель может записать словами, цифрами или смесью. Редкие фамилии и названия компаний пишутся на слух.
  • Спикеры не размечаются. Из коробки Whisper выдаёт единый поток текста без указания, кто говорит. Разделение по голосам — отдельная задача, которую решают другие инструменты.
  • Таймкоды приблизительные. Метки времени привязаны к фразам и могут плавать на доли секунды — для субтитров хватает, для монтажа по миллисекундам стоит перепроверять.

Хорошая новость: большинство болячек лечится на уровне сервиса. Продакшен-системы поверх Whisper режут записи по паузам, фильтруют пустые сегменты, ловят зацикливания и склеивают куски так, чтобы фантомные фразы отсеивались до того, как попадут в итоговый текст. Пользователь этого слоя даже не видит — просто получает более чистую расшифровку, чем выдала бы «голая» модель из репозитория.

Вывод для практики: расшифровку важного интервью или юридической консультации стоит пробежать глазами, особенно места с числами, именами и датами. Пять минут вычитки против часа ручного набора — всё ещё огромный выигрыш.

Запуск у себя или через сервис: сравнение

Whisper открыт, поэтому путей два: развернуть модель на своём железе или загрузить файл в готовый сервис. Считаем честно.

Локальный запуск потребует: Python или сборку whisper.cpp, видеокарту от 8–10 ГБ VRAM для large-модели (на процессоре часовая запись может обрабатываться несколько часов), место под веса и терпение на настройку зависимостей. Плюс — полный контроль: аудио остаётся на вашей машине, платить за минуты никому нужно.

Критерий Whisper у себя EdWord
Старт Часы на установку 2 минуты, браузер
Железо GPU для large Любой ноутбук, телефон
Час записи От минут до часов ~4–6 минут
Экспорт Скриптами вручную TXT, DOCX, SRT, VTT кнопкой

Локальная установка оправдана, когда записей десятки часов ежедневно, есть железо и инженер, который будет это поддерживать. Для остальных сценариев — совещание раз в неделю, лекции в сессию, интервью для статьи — сервис закрывает задачу быстрее, чем вы успеете скачать веса модели.

Расшифровка через EdWord: пошагово

EdWord гоняет модели Whisper-класса на своих серверах, а вам оставляет три способа отдать запись.

Способ 1. Через сайт

  1. Откройте edword.ru и войдите через Telegram или Яндекс — новому аккаунту сразу начисляется 60 бесплатных минут, карта не нужна.
  2. Перетащите файл в окно загрузки. Принимаются MP3, WAV, M4A, FLAC, OGG, WebM и видео MP4, AVI, MOV, MKV — до 2 ГБ.
  3. Подождите: час записи превращается в текст примерно за 4–6 минут, язык определится сам.
  4. Заберите результат — скопируйте в один клик или скачайте в нужном формате. Расшифровка сохранится в истории личного кабинета.

Способ 2. Через Telegram-бот

Отправьте голосовое, кружок, аудио- или видеофайл боту @mywhisperedbot — текст придёт ответным сообщением. Бот живёт и в групповых чатах: добавьте его в рабочую группу, и каждое голосовое будет автоматически превращаться в текст под исходным сообщением.

Способ 3. По ссылке

Вставьте ссылку на видео с YouTube, VK Видео, Rutube и других площадок — сервис сам скачает ролик, вытащит дорожку и отдаст расшифровку. Удобно для лекций и вебинаров, которые лень выкачивать вручную.

Проверьте Whisper на своей записи
60 бесплатных минут на старте, карта не требуется
Загрузить аудио на EdWord

Что получается на выходе

Результат — связный текст с пунктуацией, по желанию с таймкодами. Форматы экспорта под разные задачи:

  • TXT — чистый текст для заметок и поиска по записи;
  • DOCX — документ для правок в Word и согласований;
  • SRT и VTT — готовые субтитры для YouTube, монтажных программ и плееров.

Из такого транскрипта легко собрать конспект лекции, протокол встречи или цитаты для статьи: текст структурирован по фразам, а таймкоды позволяют мгновенно вернуться к нужному месту записи. Для диктовки коротких заметок голосом есть отдельный инструмент — EdWord Mini работает прямо в браузере и ставится на компьютер как PWA-приложение.

Сколько стоит распознавание

Знакомство бесплатное: 60 минут каждому новому пользователю. Дальше — разовые пакеты: час за 390 ₽, три часа за 990 ₽, десять часов за 2 990 ₽, пятьдесят — за 12 900 ₽. Командам подойдут пакеты 50 часов за 9 900 ₽ и 100 часов за 17 900 ₽. Подписки нет, купленные минуты лежат на балансе без срока сгорания — купили десять часов в июле, спокойно тратите их до зимы.

Итог

Whisper поднял планку распознавания речи: открытая модель, обученная на 680 000 часов живого аудио, разбирает русскую речь с точностью около 98% и прощает шум, акценты и разговорные обороты. Технически её может запустить каждый — при наличии GPU и желания возиться с настройкой. Практически быстрее загрузить запись в EdWord: та же технология, результат через несколько минут, первый час бесплатно.

Частые вопросы

Whisper бесплатный?

Сама модель открыта под лицензией MIT — скачать веса и запустить у себя можно бесплатно. Платите вы железом и временем: для large-версии нужна видеокарта, а установка и настройка требуют технических навыков. Сервисы вроде EdWord берут эту часть на себя и дают 60 бесплатных минут на пробу.

Какая точность у Whisper на русском языке?

Крупные версии модели на чистой записи дают около 98% точности: из ста слов ошибочными оказываются два-три. Качество зависит от звука — диктофон рядом с говорящим даст результат заметно лучше, чем запись с дальнего конца переговорки.

Сколько языков распознаёт Whisper?

Модель мультиязычная: EdWord поддерживает свыше 50 языков, включая русский, английский, немецкий, испанский, французский и китайский. Язык записи определяется автоматически, выбирать его вручную не нужно. Расшифровка выполняется на языке оригинала.

Почему Whisper иногда выдаёт текст, которого нет в записи?

Это галлюцинации декодера: на длинной тишине или музыке модель генерирует правдоподобные, но выдуманные фразы — например, фантомные подписи авторов субтитров. Лечится обрезкой пустых кусков записи и вычиткой мест с паузами.

Умеет ли Whisper различать голоса разных людей?

Из коробки модель выдаёт единый поток текста без разметки по говорящим — разделение голосов относится к другому классу задач (диаризация) и решается отдельными инструментами. Таймкоды при этом помогают ориентироваться: по ним легко найти нужный фрагмент записи и понять контекст.

Как попробовать Whisper без установки?

Загрузите файл на edword.ru (drag&drop, до 2 ГБ), отправьте запись боту @mywhisperedbot в Telegram или вставьте ссылку на видео с YouTube, VK Видео или Rutube. Новым пользователям — 60 минут бесплатно, без привязки карты.

Читайте также

Поддержка

Если что-то не работает или есть вопрос — пишите напрямую.