Speech-to-Text

AI 模型

完全离线转录音频，零 API 费用

你可以做什么

本地转录 — 完全离线将语音转换为文字，无需 API 密钥

多种模型大小 — tiny（最快）→ base → small → medium → large（最准确）

输出格式 — 纯文本、SRT 字幕、VTT 字幕或带时间戳的 JSON

翻译模式 — 将任何语言的音频直接翻译为英文文字

宽格式支持 — WAV、MP3、M4A、FLAC、OGG 等更多格式

自动模型缓存 — 首次使用时下载模型，之后完全离线

「使用 medium 模型转录这个 podcast.mp3」

「将这个采访转换为 SRT 字幕」

「转录我的语音备忘录并翻译为中文」

「为这个视频的音频轨道生成 VTT 字幕」

「为这个重要的讲座录音使用 large 模型」

「获取带词级时间戳的 JSON 输出」

tiny = 快速但粗糙，small = 良好平衡，medium = 专业质量，large = 最高精度

首次运行下载模型（40MB–3GB 取决于大小），之后完全离线

SRT/VTT 格式包含用于字幕同步的时间戳

翻译模式无论输入语言如何都输出英文

JSON 输出包含片段级和词级时序数据

初始模型下载后完全离线工作——非常适合隐私保护