Speech-to-Text

KI-Modelle

Audio lokal ohne API-Kosten transkribieren

Was Sie tun können

Lokale Transkription — Sprache vollständig offline in Text umwandeln, kein API-Schlüssel erforderlich

Mehrere Modellgrößen — tiny (schnellste) → base → small → medium → large (genaueste)

Ausgabeformate — Klartext, SRT-Untertitel, VTT-Beschriftungen oder JSON mit Zeitstempeln

Übersetzungsmodus — Audio in beliebiger Sprache direkt in englischen Text übersetzen

Breite Formatunterstützung — WAV, MP3, M4A, FLAC, OGG und mehr

Automatisches Modell-Caching — Modelle werden beim ersten Gebrauch heruntergeladen, danach vollständig offline

"Diesen Podcast.mp3 mit dem Medium-Modell transkribieren"

"Dieses Interview in SRT-Untertitel umwandeln"

"Meine Sprachnotiz transkribieren und ins Englische übersetzen"

"VTT-Beschriftungen für die Audiospur dieses Videos generieren"

"Das Large-Modell für diese wichtige Vorlesungsaufzeichnung verwenden"

"JSON-Ausgabe mit wortgenauen Zeitstempeln erstellen"

tiny = schnell aber grob, small = gutes Gleichgewicht, medium = professionelle Qualität, large = maximale Genauigkeit

Erster Start lädt das Modell herunter (40 MB–3 GB je nach Größe), danach vollständig offline

SRT/VTT-Formate enthalten Zeitstempel für die Untertitelsynchronisation

Übersetzungsmodus gibt unabhängig von der Eingangssprache englischen Text aus

JSON-Ausgabe enthält Segment- und Wort-Timing-Daten

Funktioniert nach dem ersten Modell-Download vollständig offline — ideal für Datenschutz