Speech-to-Text
KI-Modelle
Audio lokal ohne API-Kosten transkribieren
- Vollständig offline nach Modell-Download
- SRT-, VTT-, JSON- und Textausgabe
- Beliebige Sprache ins Englische übersetzen
Was Sie tun können
Lokale Transkription — Sprache vollständig offline in Text umwandeln, kein API-Schlüssel erforderlich
Mehrere Modellgrößen — tiny (schnellste) → base → small → medium → large (genaueste)
Ausgabeformate — Klartext, SRT-Untertitel, VTT-Beschriftungen oder JSON mit Zeitstempeln
Übersetzungsmodus — Audio in beliebiger Sprache direkt in englischen Text übersetzen
Breite Formatunterstützung — WAV, MP3, M4A, FLAC, OGG und mehr
Automatisches Modell-Caching — Modelle werden beim ersten Gebrauch heruntergeladen, danach vollständig offlineProbieren Sie es aus
"Diesen Podcast.mp3 mit dem Medium-Modell transkribieren"
"Dieses Interview in SRT-Untertitel umwandeln"
"Meine Sprachnotiz transkribieren und ins Englische übersetzen"
"VTT-Beschriftungen für die Audiospur dieses Videos generieren"
"Das Large-Modell für diese wichtige Vorlesungsaufzeichnung verwenden"
"JSON-Ausgabe mit wortgenauen Zeitstempeln erstellen"Profi-Tipps
tiny = schnell aber grob, small = gutes Gleichgewicht, medium = professionelle Qualität, large = maximale Genauigkeit
Erster Start lädt das Modell herunter (40 MB–3 GB je nach Größe), danach vollständig offline
SRT/VTT-Formate enthalten Zeitstempel für die Untertitelsynchronisation
Übersetzungsmodus gibt unabhängig von der Eingangssprache englischen Text aus
JSON-Ausgabe enthält Segment- und Wort-Timing-Daten
Funktioniert nach dem ersten Modell-Download vollständig offline — ideal für Datenschutz