Speech-to-Text

Модели ИИ

Транскрибируйте аудио локально без затрат на API

Что вы можете делать

Локальная транскрипция — Конвертировать речь в текст полностью офлайн, без API-ключа

Несколько размеров моделей — tiny (быстрейший) → base → small → medium → large (наиболее точный)

Форматы вывода — Обычный текст, субтитры SRT, субтитры VTT или JSON с временными метками

Режим перевода — Переводить аудио на любом языке прямо в английский текст

Широкая поддержка форматов — WAV, MP3, M4A, FLAC, OGG и другие

Автокэширование моделей — Модели скачиваются при первом использовании, затем полностью офлайн

«Транскрибируй этот podcast.mp3 с моделью medium»

«Конвертируй это интервью в субтитры SRT»

«Транскрибируй мою голосовую заметку и переведи на английский»

«Сгенерируй субтитры VTT для аудиодорожки этого видео»

«Используй большую модель для этой важной лекции»

«Получи JSON-вывод с временными метками на уровне слов»

tiny = быстро, но грубо, small = хороший баланс, medium = профессиональное качество, large = максимальная точность

При первом запуске скачивается модель (40МБ–3ГБ в зависимости от размера), затем полностью офлайн

Форматы SRT/VTT включают временные метки для синхронизации субтитров

Режим перевода выводит английский независимо от языка ввода

JSON-вывод включает данные времени на уровне сегментов и слов

Работает полностью офлайн после начальной загрузки модели — отлично для приватности