Розпізнавання мовлення

AI-моделі

Транскрибуйте аудіо локально без витрат на API

Що Ви Можете Робити

Локальна транскрипція — Перетворювати мовлення на текст повністю офлайн, без API-ключа

Кілька розмірів моделей — tiny (найшвидший) → base → small → medium → large (найточніший)

Багатомовна підтримка — Підтримує 99+ мов з автоматичним визначенням мови

Власний тайм-аут — Налаштовувати обмеження часу для довгих файлів

Вивід SRT/VTT — Експортувати субтитри для відео

"Транскрибуй цей MP3-файл локально"

"Перетвори цей аудіозапис зустрічі на текст"

"Транскрибуй іспанською за допомогою моделі Whisper large"

"Згенеруй SRT-субтитри з аудіо цього відео"

"Використовуй Whisper tiny для швидкої транскрипції цього кліпу"

Потребує локально встановленого whisper.cpp або openai-whisper

Розміри моделей: tiny (39M) швидкий, але неточний; large (1.5B) точний, але повільний

Автоматичне визначення мови добре працює для більшості мов

Прискорення GPU (CUDA/Metal) значно покращує швидкість

SRT-файли включають часові мітки; VTT — формат субтитрів, сумісний з вебом

Підтримується пакетна обробка кількох файлів