Speech-to-Text

Modele AI

Transkrybuj audio lokalnie z zerowymi kosztami API

Co możesz zrobić

  • Lokalna transkrypcja — Konwertuj mowę na tekst całkowicie offline, bez klucza API
  • Wiele rozmiarów modeli — tiny (najszybszy) → base → small → medium → large (najdokładniejszy)
  • Formaty wyjściowe — Zwykły tekst, napisy SRT, podpisy VTT lub JSON ze znacznikami czasu
  • Tryb tłumaczenia — Tłumacz dowolny język audio bezpośrednio na tekst angielski
  • Szeroka obsługa formatów — WAV, MP3, M4A, FLAC, OGG i więcej
  • Automatyczne buforowanie modeli — Pobiera modele przy pierwszym użyciu, w pełni offline po tym
  • Spróbuj zapytać

  • "Transkrybuj ten podcast.mp3 używając modelu medium"
  • "Konwertuj ten wywiad na napisy SRT"
  • "Transkrybuj moje nagranie głosowe i przetłumacz na angielski"
  • "Generuj podpisy VTT dla ścieżki audio tego wideo"
  • "Używaj modelu large dla tego ważnego nagrania wykładu"
  • "Pobierz wyjście JSON ze znacznikami czasu na poziomie słów"
  • Wskazówki Pro

  • tiny = szybki ale zgrubny, small = dobry balans, medium = profesjonalna jakość, large = maksymalna dokładność
  • Pierwsze uruchomienie pobiera model (40MB–3GB w zależności od rozmiaru), potem w pełni offline
  • Formaty SRT/VTT zawierają znaczniki czasu do synchronizacji napisów
  • Tryb tłumaczenia wyświetla angielski niezależnie od języka wejściowego
  • Wyjście JSON zawiera dane czasowe na poziomie segmentu i słowa
  • Działa całkowicie offline po początkowym pobraniu modelu — świetne dla prywatności