Перейти к основному содержимому

Транскрибация видео в текст онлайн

EdWord — сервис транскрибации видео в текст на базе нейросети Whisper. Загрузите видеофайл — получите расшифровку за минуты. Извлечение аудиодорожки из MP4, AVI, MOV, MKV и других форматов.

60 бесплатных минут — попробуйте сейчас

Как это работает

1

Загрузите видео

MP4, AVI, MOV, MKV, WebM — перетащите файл на сайт или отправьте в Telegram

2

Извлечение аудио

EdWord автоматически извлечёт аудиодорожку из видео и распознает речь

3

Готовый текст

Скопируйте или скачайте расшифровку. Текст сохранится в личном кабинете

Какие видеоформаты поддерживаются

MP4

Самый популярный формат — записи с телефона, Zoom, Teams, Google Meet

AVI / MOV

Форматы Windows и Apple — записи с камер и экрана

MKV / WebM

Видео из интернета, скачанные ролики

Записи встреч

Zoom, Google Meet, Teams, Яндекс.Телемост — скачайте и загрузите

Видеоформаты и контейнеры

EdWord работает с контейнерами и кодеками, которые встречаются в реальной практике: от записей с iPhone (MOV/HEVC) до WebM-роликов с VP9 и AV1. Под капотом — библиотека ffmpeg, которая автоматически распознаёт контейнер, извлекает аудиодорожку и передаёт её в Whisper для распознавания.

Формат Макс. размер Особенности Извлечение аудио
MP4 2 ГБ Универсальный контейнер, кодеки H.264/H.265, AAC-звук Автоматически
AVI 2 ГБ Старый Windows-формат, часто MPEG-4 или DivX Автоматически
MOV 2 ГБ Apple QuickTime, запись с iPhone и Mac, HEVC Автоматически
MKV 2 ГБ Контейнер Matroska, несколько аудиодорожек и субтитров Автоматически
WebM 2 ГБ Открытый формат Google, кодеки VP9 и AV1, Opus-звук Автоматически
FLV 2 ГБ Flash-видео, стримы и старые записи вебинаров Автоматически
M4V 2 ГБ Вариант MP4 для устройств Apple и iTunes Автоматически
MPEG 2 ГБ Классический MPEG-1/MPEG-2, записи с ТВ-тюнеров и DVD Автоматически

Как работает извлечение аудио из видео

Чтобы превратить видеозапись в текст, EdWord выполняет четыре технических шага. Весь процесс скрыт от пользователя: вы получаете готовую расшифровку, а не сырые аудиофрагменты.

1

Загрузка видеофайла

Перетащите MP4, MOV, MKV или другой поддерживаемый файл в окно браузера. Максимальный размер — 2 ГБ, что соответствует 3–5 часам HD-видео или примерно 8 часам записи в 720p.

2

Извлечение аудиодорожки

Библиотека ffmpeg определяет контейнер, выбирает основную аудиодорожку и конвертирует её в моно-WAV с частотой 16 кГц — оптимальный входной формат для Whisper. Видеоряд при этом отбрасывается.

3

Распознавание речи

Аудио передаётся в нейросеть OpenAI Whisper, которая разбивает запись на фрагменты по 30 секунд, определяет язык автоматически и возвращает текст с временными метками каждого сегмента.

4

Текст и субтитры

В личном кабинете вы получаете сплошной транскрипт и, по запросу, файлы SRT или WebVTT с таймкодами — готовые субтитры для YouTube, онлайн-курсов и монтажных программ.

Субтитры SRT и VTT: для чего это нужно

Помимо обычного текста EdWord формирует субтитры в форматах SubRip (SRT) и WebVTT — двух стандартах, которые принимают YouTube, Vimeo, LMS-платформы и все профессиональные видеоредакторы. Каждая реплика привязана к таймкоду с точностью до миллисекунды.

YouTube-ролики

Загрузите SRT в YouTube Studio — видео получит точные ручные субтитры вместо автогенерируемых и начнёт индексироваться по словам из текста.

Онлайн-курсы и A11Y

WebVTT встраивается в HTML5-плеер через тег <track> и обеспечивает доступность видео для слабослышащих — требование многих EdTech-платформ и ADA.

Reels, Shorts, TikTok

80% пользователей смотрят ленты без звука. Вшитые субтитры удерживают внимание и увеличивают досмотры рекламных роликов.

Локализация контента

SRT-файл — удобная основа для перевода: переводчик видит реплики с таймкодами и может быстро адаптировать текст под другой язык.

Для каких видео подходит EdWord

Сервис оптимизирован под разговорный контент: лекции, встречи, интервью, рекламу. Для длинных записей работает автоматическая сегментация — система разбивает файл на фрагменты, обрабатывает их параллельно и собирает единый текст.

Образовательные лекции

Университетские курсы длительностью 1–3 часа. Получите конспект с таймкодами — удобно ссылаться на конкретный момент в ответах студентам.

Видео-интервью и подкасты

Готовый текст экономит часы работы редактора: журналисту остаётся только выделить ключевые цитаты и оформить материал.

Записи в Zoom и Teams

MP4-файл с планёрки или клиентской встречи превращается в чёткий протокол с репликами и таймкодами — без ручного прослушивания.

Рекламные ролики

Маркетологи получают сценарий готового ролика для A/B-тестов заголовков, создания лендингов и адаптации под разные каналы.

98% точность
50+ языков
до 2 ГБ размер файла
MP4, AVI, MOV, MKV видеоформаты

Для чего расшифровывать видео

Записи встреч

Транскрибация планёрок и звонков в Zoom, Teams, Google Meet

Лекции и вебинары

Автоматические конспекты учебных видео

YouTube и подкасты

Расшифровка роликов для субтитров и текстового контента

Интервью

Готовые транскрипты для журналистов и исследователей

Выберите пакет

60 бесплатных минут для новых пользователей. Без подписки — покупайте пакеты минут

1 час
390 ₽
6.50 ₽/мин
3 часа
1 090 ₽
6.06 ₽/мин
-15%
Популярный
10 часов
3 200 ₽
5.33 ₽/мин
-23%
Попробуйте бесплатно

60 минут транскрибации видео — без оплаты, без подписки

Начать бесплатно

Частые вопросы

Как расшифровать видео в текст?

Загрузите видеофайл на edword.ru или отправьте его в Telegram-бот EdWord. Сервис автоматически извлечёт аудиодорожку, распознает речь нейросетью Whisper и вернёт готовый текст. Весь процесс занимает несколько минут.

Какие видеоформаты поддерживаются?

EdWord принимает все популярные видеоформаты: MP4, AVI, MOV, MKV, WebM. Также поддерживаются аудиоформаты: MP3, WAV, M4A, FLAC, OGG. Максимальный размер файла — 2 ГБ.

Можно ли расшифровать видео с YouTube?

Да! Перейдите на страницу транскрибации по ссылке — вставьте ссылку на видео с YouTube, VK Видео, RuTube или Vimeo. EdWord сам скачает аудио и распознает речь. Скачивать видео не нужно.

Транскрибация видео бесплатная?

Новые пользователи получают 60 бесплатных минут транскрибации — этого хватит, чтобы попробовать сервис. Далее — пакеты от 390 ₽ за 1 час. Подписки нет: купленные минуты не сгорают.

Как расшифровать запись из Zoom?

Скачайте запись встречи из Zoom (обычно в формате MP4), загрузите файл на edword.ru или отправьте в Telegram-бот. Аналогично работает с записями из Google Meet, Teams и Яндекс.Телемост.

Какая максимальная длительность видео?

EdWord принимает файлы размером до 2 ГБ. Длительность зависит от вашего пакета минут — доступны пакеты до 100 часов для бизнеса.

Можно ли получить SRT-субтитры?

Да. После распознавания EdWord формирует файлы в форматах SRT (SubRip) и WebVTT с таймкодами каждой реплики. Такие субтитры загружаются в YouTube Studio, Vimeo, плееры HTML5 через тег <track> и поддерживаются Adobe Premiere, DaVinci Resolve и Final Cut Pro.

Поддерживается ли видео с двумя спикерами?

Да, видео с несколькими участниками распознаётся корректно — например, интервью или круглые столы. В текущей версии EdWord не выполняет диаризацию (автоматическое разделение по спикерам): транскрипт возвращается сплошным текстом с таймкодами. Разметить реплики по участникам можно вручную по таймингам.

Как EdWord извлекает аудио из видео?

Под капотом работает ffmpeg — индустриальный стандарт для обработки мультимедиа. Он считывает контейнер (MP4, MKV, MOV), декодирует основную аудиодорожку и конвертирует её в моно-WAV 16 кГц. Видеоряд не обрабатывается, поэтому качество картинки не влияет на точность распознавания, а качество речи сохраняется без потерь.

Попробуйте транскрибацию видео бесплатно

Загрузите видеофайл и получите текст за минуты. 60 бесплатных минут для новых пользователей.

Загрузить видео