Speech-to-Text

Modelos de IA

Transcreva áudio localmente sem custos de API

O Que Você Pode Fazer

Transcrição local — Converta fala em texto completamente offline, sem chave de API necessária

Múltiplos tamanhos de modelo — tiny (mais rápido) → base → small → medium → large (mais preciso)

Formatos de saída — Texto simples, legendas SRT, títulos VTT, ou JSON com timestamps

Modo de tradução — Traduza áudio em qualquer idioma diretamente para texto em inglês

Amplo suporte de formato — WAV, MP3, M4A, FLAC, OGG e mais

Cache automático de modelos — Baixa modelos no primeiro uso, completamente offline depois

"Transcreva este podcast.mp3 usando o modelo medium"

"Converta esta entrevista para legendas SRT"

"Transcreva meu memo de voz e traduza para o inglês"

"Gere títulos VTT para a faixa de áudio deste vídeo"

"Use o modelo large para esta importante gravação de conferência"

"Obtenha saída JSON com timestamps por palavra"

tiny = rápido mas impreciso, small = bom equilíbrio, medium = qualidade profissional, large = máxima precisão

A primeira execução baixa o modelo (40MB–3GB dependendo do tamanho), depois completamente offline

Os formatos SRT/VTT incluem timestamps para sincronização de legendas

O modo de tradução gera texto em inglês independentemente do idioma de entrada

A saída JSON inclui dados de temporização por segmento e por palavra

Funciona completamente offline após o download inicial do modelo — ótimo para privacidade