Speech-to-Text

Modelos de IA

Transcribe audio localmente sin costes de API

Lo Que Puedes Hacer

  • Transcripción local — Convierte voz a texto completamente sin conexión, sin clave API requerida
  • Múltiples tamaños de modelo — tiny (más rápido) → base → small → medium → large (más preciso)
  • Formatos de salida — Texto plano, subtítulos SRT, títulos VTT, o JSON con marcas de tiempo
  • Modo de traducción — Traduce audio en cualquier idioma directamente a texto en inglés
  • Amplio soporte de formato — WAV, MP3, M4A, FLAC, OGG y más
  • Caché automático de modelos — Descarga modelos en el primer uso, completamente sin conexión después
  • Prueba Preguntando

  • "Transcribe este podcast.mp3 usando el modelo medium"
  • "Convierte esta entrevista a subtítulos SRT"
  • "Transcribe mi nota de voz y tradúcela al inglés"
  • "Genera títulos VTT para la pista de audio de este video"
  • "Usa el modelo large para esta importante grabación de conferencia"
  • "Obtén salida JSON con marcas de tiempo a nivel de palabra"
  • Consejos Pro

  • tiny = rápido pero impreciso, small = buen equilibrio, medium = calidad profesional, large = máxima precisión
  • La primera ejecución descarga el modelo (40MB–3GB según el tamaño), luego completamente sin conexión
  • Los formatos SRT/VTT incluyen marcas de tiempo para sincronización de subtítulos
  • El modo de traducción genera texto en inglés independientemente del idioma de entrada
  • La salida JSON incluye datos de temporización a nivel de segmento y palabra
  • Funciona completamente sin conexión después de la descarga inicial del modelo — ideal para privacidad