Speech-to-Text

Modelos de IA

Transcribe audio localmente sin costes de API

Lo Que Puedes Hacer

Transcripción local — Convierte voz a texto completamente sin conexión, sin clave API requerida

Múltiples tamaños de modelo — tiny (más rápido) → base → small → medium → large (más preciso)

Formatos de salida — Texto plano, subtítulos SRT, títulos VTT, o JSON con marcas de tiempo

Modo de traducción — Traduce audio en cualquier idioma directamente a texto en inglés

Amplio soporte de formato — WAV, MP3, M4A, FLAC, OGG y más

Caché automático de modelos — Descarga modelos en el primer uso, completamente sin conexión después

"Transcribe este podcast.mp3 usando el modelo medium"

"Convierte esta entrevista a subtítulos SRT"

"Transcribe mi nota de voz y tradúcela al inglés"

"Genera títulos VTT para la pista de audio de este video"

"Usa el modelo large para esta importante grabación de conferencia"

"Obtén salida JSON con marcas de tiempo a nivel de palabra"

tiny = rápido pero impreciso, small = buen equilibrio, medium = calidad profesional, large = máxima precisión

La primera ejecución descarga el modelo (40MB–3GB según el tamaño), luego completamente sin conexión

Los formatos SRT/VTT incluyen marcas de tiempo para sincronización de subtítulos

El modo de traducción genera texto en inglés independientemente del idioma de entrada

La salida JSON incluye datos de temporización a nivel de segmento y palabra

Funciona completamente sin conexión después de la descarga inicial del modelo — ideal para privacidad