Speech-to-Text

Modèles IA

Transcrivez l'audio en local sans aucun coût d'API

Ce que vous pouvez faire

Transcription locale — Convertir la parole en texte entièrement hors ligne, sans clé API requise

Tailles de modèle multiples — tiny (la plus rapide) → base → small → medium → large (la plus précise)

Formats de sortie — Texte brut, sous-titres SRT, légendes VTT ou JSON avec horodatages

Mode traduction — Traduire l'audio dans n'importe quelle langue directement en texte anglais

Large support de format — WAV, MP3, M4A, FLAC, OGG et plus

Mise en cache automatique des modèles — Les modèles sont téléchargés lors de la première utilisation, entièrement hors ligne ensuite

"Transcrire ce podcast.mp3 en utilisant le modèle medium"

"Convertir cette interview en sous-titres SRT"

"Transcrire mon mémo vocal et le traduire en anglais"

"Générer des légendes VTT pour la piste audio de cette vidéo"

"Utiliser le modèle large pour cet enregistrement de conférence important"

"Obtenir une sortie JSON avec des horodatages au niveau du mot"

tiny = rapide mais approximatif, small = bon équilibre, medium = qualité professionnelle, large = précision maximale

La première exécution télécharge le modèle (40 Mo–3 Go selon la taille), puis entièrement hors ligne

Les formats SRT/VTT incluent des horodatages pour la synchronisation des sous-titres

Le mode traduction sort en anglais quelle que soit la langue d'entrée

La sortie JSON inclut les données de timing au niveau des segments et des mots

Fonctionne entièrement hors ligne après le téléchargement initial du modèle — idéal pour la confidentialité