Speech-to-Text

AI 模型

完全离线转录音频,零 API 费用

你可以做什么

  • 本地转录 — 完全离线将语音转换为文字,无需 API 密钥
  • 多种模型大小 — tiny(最快)→ base → small → medium → large(最准确)
  • 输出格式 — 纯文本、SRT 字幕、VTT 字幕或带时间戳的 JSON
  • 翻译模式 — 将任何语言的音频直接翻译为英文文字
  • 宽格式支持 — WAV、MP3、M4A、FLAC、OGG 等更多格式
  • 自动模型缓存 — 首次使用时下载模型,之后完全离线
  • 试着这样问

  • 「使用 medium 模型转录这个 podcast.mp3」
  • 「将这个采访转换为 SRT 字幕」
  • 「转录我的语音备忘录并翻译为中文」
  • 「为这个视频的音频轨道生成 VTT 字幕」
  • 「为这个重要的讲座录音使用 large 模型」
  • 「获取带词级时间戳的 JSON 输出」
  • 专业技巧

  • tiny = 快速但粗糙,small = 良好平衡,medium = 专业质量,large = 最高精度
  • 首次运行下载模型(40MB–3GB 取决于大小),之后完全离线
  • SRT/VTT 格式包含用于字幕同步的时间戳
  • 翻译模式无论输入语言如何都输出英文
  • JSON 输出包含片段级和词级时序数据
  • 初始模型下载后完全离线工作——非常适合隐私保护