Как сделать караоке-видео из любой песни онлайн
Что такое караоке-видео и где его использовать
Караоке-видео — это вертикальный ролик, где поверх тёмного фона строчка за строчкой подсвечивается текст песни ровно в момент, когда его поют. Формат идеально ложится на короткие вертикальные площадки: Instagram Reels, TikTok, YouTube Shorts, VK Клипы.
Для каверов, лайвов, уроков вокала и свадебных видео такой формат работает лучше обычной обложки: зритель сразу видит слова, хочет подпевать — и остаётся досмотреть. Алгоритмы соцсетей это ценят.
Что нужно, чтобы сделать караоке онлайн
Один аудиофайл с вокалом — MP3, WAV, FLAC, OGG, M4A или MP4 (звуковая дорожка). До 50 МБ. Регистрация не требуется для предпросмотра.
Сервис сам распознаёт текст: загружаете файл, нейросеть разбирает вокал и проставляет таймкоды для каждой строчки — ручная разметка не нужна.
Открыть инструмент можно сразу на странице караоке из песни онлайн — там же пример вертикального видео 1080×1920.
Пошагово: как собрать караоке-видео
- Перейдите на /karaoke-online и перетащите трек в зону загрузки.
- Подождите 1–3 минуты — нейросеть распознаёт текст и размечает строки по таймкодам. В логах отображается статус «Распознаём текст…».
- Под файлом появится блок «Распознанный текст» с встроенным плеером полного трека. Слушайте и правьте слова параллельно: если что-то распознано неверно, редактируйте прямо в поле и жмите «Применить».
- В правой панели выберите обложку (опционально) и цвета (фон, основной, акцент). Без обложки фон генерирует ИИ по теме трека.
- Превью — 30 секунд, обновляется после изменения настроек. Убедитесь, что попал нужный фрагмент, и нажмите «Скачать видео» — получите MP4 1080×1920 с оригинальным звуком.
Почему нейросеть иногда пропускает куплеты — и как это обойти
Распознавание вокала построено на связке Whisper + wav2vec2. На чистых вокальных записях оно отлавливает почти всё. На плотной попсе с компрессором и громким битом Whisper может пропустить куплет, если VAD (детектор речи) решит, что там одна музыка.
В нашем пайплайне перед распознаванием мы запускаем BS-RoFormer и изолируем вокал — это закрывает подавляющее большинство дыр. Но если трек очень сильно задавлен, посмотрите на распознанный текст: пропуски видны в колонке таймкодов. Слова можно дописать вручную в редакторе — тайминги подхватятся.
Если планируется много правок, удобнее сначала сделать минусовку и акапеллу: загрузите трек в разделение на стемы, возьмите вокальную дорожку и уже её используйте для караоке — распознавание станет идеальным.
В каком формате выдаётся готовое видео
MP4, H.264, AAC 192 kbps, 1080×1920, 30 fps по умолчанию (опционально 24 или 60). Размер — в районе 6–15 МБ на минуту. Поддерживает все современные платформы без перекодирования.
Звук — оригинальный файл без потерь. Если вы правили текст, новые тайминги автоматически применились к подсветке.
Рендер занимает в среднем 30–90 секунд на треках до 3 минут.
Что ещё можно сделать с этим же треком
В верхней панели инструмента три таба: Клип, Караоке и Аккорды. Переключение не требует повторной загрузки — те же ~40 МБ памяти.
Клип — 15–120 секунд визуализации звуковой волны с обложкой, подходит для анонсов релизов.
Аккорды — вертикальное видео с диаграммами гитары/фортепиано по тактам, полезно для разборов и ковер-контента.
Все три формата используют один и тот же файл и кредиты токенов. Скачивание каждого — 59 ₽ или 1 токен; с подпиской Про — бесплатно.