Speech-to-Text

KI-Modelle

Audio lokal ohne API-Kosten transkribieren

Was Sie tun können

  • Lokale Transkription — Sprache vollständig offline in Text umwandeln, kein API-Schlüssel erforderlich
  • Mehrere Modellgrößen — tiny (schnellste) → base → small → medium → large (genaueste)
  • Ausgabeformate — Klartext, SRT-Untertitel, VTT-Beschriftungen oder JSON mit Zeitstempeln
  • Übersetzungsmodus — Audio in beliebiger Sprache direkt in englischen Text übersetzen
  • Breite Formatunterstützung — WAV, MP3, M4A, FLAC, OGG und mehr
  • Automatisches Modell-Caching — Modelle werden beim ersten Gebrauch heruntergeladen, danach vollständig offline
  • Probieren Sie es aus

  • "Diesen Podcast.mp3 mit dem Medium-Modell transkribieren"
  • "Dieses Interview in SRT-Untertitel umwandeln"
  • "Meine Sprachnotiz transkribieren und ins Englische übersetzen"
  • "VTT-Beschriftungen für die Audiospur dieses Videos generieren"
  • "Das Large-Modell für diese wichtige Vorlesungsaufzeichnung verwenden"
  • "JSON-Ausgabe mit wortgenauen Zeitstempeln erstellen"
  • Profi-Tipps

  • tiny = schnell aber grob, small = gutes Gleichgewicht, medium = professionelle Qualität, large = maximale Genauigkeit
  • Erster Start lädt das Modell herunter (40 MB–3 GB je nach Größe), danach vollständig offline
  • SRT/VTT-Formate enthalten Zeitstempel für die Untertitelsynchronisation
  • Übersetzungsmodus gibt unabhängig von der Eingangssprache englischen Text aus
  • JSON-Ausgabe enthält Segment- und Wort-Timing-Daten
  • Funktioniert nach dem ersten Modell-Download vollständig offline — ideal für Datenschutz