Транскрибация видео в текст онлайн
EdWord — сервис транскрибации видео в текст на базе нейросети Whisper. Загрузите видеофайл — получите расшифровку за минуты. Извлечение аудиодорожки из MP4, AVI, MOV, MKV и других форматов.
Как это работает
Загрузите видео
MP4, AVI, MOV, MKV, WebM — перетащите файл на сайт или отправьте в Telegram
Извлечение аудио
EdWord автоматически извлечёт аудиодорожку из видео и распознает речь
Готовый текст
Скопируйте или скачайте расшифровку. Текст сохранится в личном кабинете
Какие видеоформаты поддерживаются
MP4
Самый популярный формат — записи с телефона, Zoom, Teams, Google Meet
AVI / MOV
Форматы Windows и Apple — записи с камер и экрана
MKV / WebM
Видео из интернета, скачанные ролики
Записи встреч
Zoom, Google Meet, Teams, Яндекс.Телемост — скачайте и загрузите
Видеоформаты и контейнеры
EdWord работает с контейнерами и кодеками, которые встречаются в реальной практике: от записей с iPhone (MOV/HEVC) до WebM-роликов с VP9 и AV1. Под капотом — библиотека ffmpeg, которая автоматически распознаёт контейнер, извлекает аудиодорожку и передаёт её в Whisper для распознавания.
| Формат | Макс. размер | Особенности | Извлечение аудио |
|---|---|---|---|
| MP4 | 2 ГБ | Универсальный контейнер, кодеки H.264/H.265, AAC-звук | Автоматически |
| AVI | 2 ГБ | Старый Windows-формат, часто MPEG-4 или DivX | Автоматически |
| MOV | 2 ГБ | Apple QuickTime, запись с iPhone и Mac, HEVC | Автоматически |
| MKV | 2 ГБ | Контейнер Matroska, несколько аудиодорожек и субтитров | Автоматически |
| WebM | 2 ГБ | Открытый формат Google, кодеки VP9 и AV1, Opus-звук | Автоматически |
| FLV | 2 ГБ | Flash-видео, стримы и старые записи вебинаров | Автоматически |
| M4V | 2 ГБ | Вариант MP4 для устройств Apple и iTunes | Автоматически |
| MPEG | 2 ГБ | Классический MPEG-1/MPEG-2, записи с ТВ-тюнеров и DVD | Автоматически |
Как работает извлечение аудио из видео
Чтобы превратить видеозапись в текст, EdWord выполняет четыре технических шага. Весь процесс скрыт от пользователя: вы получаете готовую расшифровку, а не сырые аудиофрагменты.
Загрузка видеофайла
Перетащите MP4, MOV, MKV или другой поддерживаемый файл в окно браузера. Максимальный размер — 2 ГБ, что соответствует 3–5 часам HD-видео или примерно 8 часам записи в 720p.
Извлечение аудиодорожки
Библиотека ffmpeg определяет контейнер, выбирает основную аудиодорожку и конвертирует её в моно-WAV с частотой 16 кГц — оптимальный входной формат для Whisper. Видеоряд при этом отбрасывается.
Распознавание речи
Аудио передаётся в нейросеть OpenAI Whisper, которая разбивает запись на фрагменты по 30 секунд, определяет язык автоматически и возвращает текст с временными метками каждого сегмента.
Текст и субтитры
В личном кабинете вы получаете сплошной транскрипт и, по запросу, файлы SRT или WebVTT с таймкодами — готовые субтитры для YouTube, онлайн-курсов и монтажных программ.
Субтитры SRT и VTT: для чего это нужно
Помимо обычного текста EdWord формирует субтитры в форматах SubRip (SRT) и WebVTT — двух стандартах, которые принимают YouTube, Vimeo, LMS-платформы и все профессиональные видеоредакторы. Каждая реплика привязана к таймкоду с точностью до миллисекунды.
YouTube-ролики
Загрузите SRT в YouTube Studio — видео получит точные ручные субтитры вместо автогенерируемых и начнёт индексироваться по словам из текста.
Онлайн-курсы и A11Y
WebVTT встраивается в HTML5-плеер через тег <track> и обеспечивает доступность видео для слабослышащих — требование многих EdTech-платформ и ADA.
Reels, Shorts, TikTok
80% пользователей смотрят ленты без звука. Вшитые субтитры удерживают внимание и увеличивают досмотры рекламных роликов.
Локализация контента
SRT-файл — удобная основа для перевода: переводчик видит реплики с таймкодами и может быстро адаптировать текст под другой язык.
Для каких видео подходит EdWord
Сервис оптимизирован под разговорный контент: лекции, встречи, интервью, рекламу. Для длинных записей работает автоматическая сегментация — система разбивает файл на фрагменты, обрабатывает их параллельно и собирает единый текст.
Образовательные лекции
Университетские курсы длительностью 1–3 часа. Получите конспект с таймкодами — удобно ссылаться на конкретный момент в ответах студентам.
Видео-интервью и подкасты
Готовый текст экономит часы работы редактора: журналисту остаётся только выделить ключевые цитаты и оформить материал.
Записи в Zoom и Teams
MP4-файл с планёрки или клиентской встречи превращается в чёткий протокол с репликами и таймкодами — без ручного прослушивания.
Рекламные ролики
Маркетологи получают сценарий готового ролика для A/B-тестов заголовков, создания лендингов и адаптации под разные каналы.
Для чего расшифровывать видео
Записи встреч
Транскрибация планёрок и звонков в Zoom, Teams, Google Meet
Лекции и вебинары
Автоматические конспекты учебных видео
YouTube и подкасты
Расшифровка роликов для субтитров и текстового контента
Интервью
Готовые транскрипты для журналистов и исследователей
Выберите пакет
60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут
Частые вопросы
Как расшифровать видео в текст?
Загрузите видеофайл на edword.ru или отправьте его в Telegram-бот EdWord. Сервис автоматически извлечёт аудиодорожку, распознает речь нейросетью Whisper и вернёт готовый текст. Весь процесс занимает несколько минут.
Какие видеоформаты поддерживаются?
EdWord принимает все популярные видеоформаты: MP4, AVI, MOV, MKV, WebM. Также поддерживаются аудиоформаты: MP3, WAV, M4A, FLAC, OGG. Максимальный размер файла — 2 ГБ.
Можно ли расшифровать видео с YouTube?
Да! Перейдите на страницу транскрибации по ссылке — вставьте ссылку на видео с YouTube, VK Видео, RuTube или Vimeo. EdWord сам скачает аудио и распознает речь. Скачивать видео не нужно.
Транскрибация видео бесплатная?
Новые пользователи получают 60 бесплатных минут транскрибации — этого хватит, чтобы попробовать сервис. Далее — пакеты от 390 ₽ за 1 час. Подписки нет: купленные минуты не сгорают.
Как расшифровать запись из Zoom?
Скачайте запись встречи из Zoom (обычно в формате MP4), загрузите файл на edword.ru или отправьте в Telegram-бот. Аналогично работает с записями из Google Meet, Teams и Яндекс.Телемост.
Какая максимальная длительность видео?
EdWord принимает файлы размером до 2 ГБ. Длительность зависит от вашего пакета минут — доступны пакеты до 100 часов для бизнеса.
Можно ли получить SRT-субтитры?
Да. После распознавания EdWord формирует файлы в форматах SRT (SubRip) и WebVTT с таймкодами каждой реплики. Такие субтитры загружаются в YouTube Studio, Vimeo, плееры HTML5 через тег <track> и поддерживаются Adobe Premiere, DaVinci Resolve и Final Cut Pro.
Поддерживается ли видео с двумя спикерами?
Да, видео с несколькими участниками распознаётся корректно — например, интервью или круглые столы. В текущей версии EdWord не выполняет диаризацию (автоматическое разделение по спикерам): транскрипт возвращается сплошным текстом с таймкодами. Разметить реплики по участникам можно вручную по таймингам.
Как EdWord извлекает аудио из видео?
Под капотом работает ffmpeg — индустриальный стандарт для обработки мультимедиа. Он считывает контейнер (MP4, MKV, MOV), декодирует основную аудиодорожку и конвертирует её в моно-WAV 16 кГц. Видеоряд не обрабатывается, поэтому качество картинки не влияет на точность распознавания, а качество речи сохраняется без потерь.