Speech-to-Text

Modele AI

Transkrybuj audio lokalnie z zerowymi kosztami API

Co możesz zrobić

Lokalna transkrypcja — Konwertuj mowę na tekst całkowicie offline, bez klucza API

Wiele rozmiarów modeli — tiny (najszybszy) → base → small → medium → large (najdokładniejszy)

Formaty wyjściowe — Zwykły tekst, napisy SRT, podpisy VTT lub JSON ze znacznikami czasu

Tryb tłumaczenia — Tłumacz dowolny język audio bezpośrednio na tekst angielski

Szeroka obsługa formatów — WAV, MP3, M4A, FLAC, OGG i więcej

Automatyczne buforowanie modeli — Pobiera modele przy pierwszym użyciu, w pełni offline po tym

"Transkrybuj ten podcast.mp3 używając modelu medium"

"Konwertuj ten wywiad na napisy SRT"

"Transkrybuj moje nagranie głosowe i przetłumacz na angielski"

"Generuj podpisy VTT dla ścieżki audio tego wideo"

"Używaj modelu large dla tego ważnego nagrania wykładu"

"Pobierz wyjście JSON ze znacznikami czasu na poziomie słów"

tiny = szybki ale zgrubny, small = dobry balans, medium = profesjonalna jakość, large = maksymalna dokładność

Pierwsze uruchomienie pobiera model (40MB–3GB w zależności od rozmiaru), potem w pełni offline

Formaty SRT/VTT zawierają znaczniki czasu do synchronizacji napisów

Tryb tłumaczenia wyświetla angielski niezależnie od języka wejściowego

Wyjście JSON zawiera dane czasowe na poziomie segmentu i słowa

Działa całkowicie offline po początkowym pobraniu modelu — świetne dla prywatności