Speech-to-Text

Модели ИИ

Транскрибируйте аудио локально без затрат на API

Что вы можете делать

  • Локальная транскрипция — Конвертировать речь в текст полностью офлайн, без API-ключа
  • Несколько размеров моделей — tiny (быстрейший) → base → small → medium → large (наиболее точный)
  • Форматы вывода — Обычный текст, субтитры SRT, субтитры VTT или JSON с временными метками
  • Режим перевода — Переводить аудио на любом языке прямо в английский текст
  • Широкая поддержка форматов — WAV, MP3, M4A, FLAC, OGG и другие
  • Автокэширование моделей — Модели скачиваются при первом использовании, затем полностью офлайн
  • Попробуйте спросить

  • «Транскрибируй этот podcast.mp3 с моделью medium»
  • «Конвертируй это интервью в субтитры SRT»
  • «Транскрибируй мою голосовую заметку и переведи на английский»
  • «Сгенерируй субтитры VTT для аудиодорожки этого видео»
  • «Используй большую модель для этой важной лекции»
  • «Получи JSON-вывод с временными метками на уровне слов»
  • Профессиональные советы

  • tiny = быстро, но грубо, small = хороший баланс, medium = профессиональное качество, large = максимальная точность
  • При первом запуске скачивается модель (40МБ–3ГБ в зависимости от размера), затем полностью офлайн
  • Форматы SRT/VTT включают временные метки для синхронизации субтитров
  • Режим перевода выводит английский независимо от языка ввода
  • JSON-вывод включает данные времени на уровне сегментов и слов
  • Работает полностью офлайн после начальной загрузки модели — отлично для приватности