Speech-to-Text

Modèles IA

Transcrivez l'audio en local sans aucun coût d'API

Ce que vous pouvez faire

  • Transcription locale — Convertir la parole en texte entièrement hors ligne, sans clé API requise
  • Tailles de modèle multiples — tiny (la plus rapide) → base → small → medium → large (la plus précise)
  • Formats de sortie — Texte brut, sous-titres SRT, légendes VTT ou JSON avec horodatages
  • Mode traduction — Traduire l'audio dans n'importe quelle langue directement en texte anglais
  • Large support de format — WAV, MP3, M4A, FLAC, OGG et plus
  • Mise en cache automatique des modèles — Les modèles sont téléchargés lors de la première utilisation, entièrement hors ligne ensuite
  • Essayez de demander

  • "Transcrire ce podcast.mp3 en utilisant le modèle medium"
  • "Convertir cette interview en sous-titres SRT"
  • "Transcrire mon mémo vocal et le traduire en anglais"
  • "Générer des légendes VTT pour la piste audio de cette vidéo"
  • "Utiliser le modèle large pour cet enregistrement de conférence important"
  • "Obtenir une sortie JSON avec des horodatages au niveau du mot"
  • Conseils Pro

  • tiny = rapide mais approximatif, small = bon équilibre, medium = qualité professionnelle, large = précision maximale
  • La première exécution télécharge le modèle (40 Mo–3 Go selon la taille), puis entièrement hors ligne
  • Les formats SRT/VTT incluent des horodatages pour la synchronisation des sous-titres
  • Le mode traduction sort en anglais quelle que soit la langue d'entrée
  • La sortie JSON inclut les données de timing au niveau des segments et des mots
  • Fonctionne entièrement hors ligne après le téléchargement initial du modèle — idéal pour la confidentialité