Speech-to-Text

AI 模型

完全離線轉錄音訊,零 API 費用

你可以做什麼

  • 本地轉錄 — 完全離線將語音轉換為文字,無需 API 金鑰
  • 多種模型大小 — tiny(最快)→ base → small → medium → large(最準確)
  • 輸出格式 — 純文字、SRT 字幕、VTT 字幕或帶時間戳記的 JSON
  • 翻譯模式 — 將任何語言的音訊直接翻譯為英文文字
  • 廣泛格式支援 — WAV、MP3、M4A、FLAC、OGG 等更多格式
  • 自動模型快取 — 首次使用時下載模型,之後完全離線
  • 試著這樣問

  • 「使用 medium 模型轉錄這個 podcast.mp3」
  • 「將這個訪談轉換為 SRT 字幕」
  • 「轉錄我的語音備忘錄並翻譯為中文」
  • 「為這個影片的音訊軌道生成 VTT 字幕」
  • 「為這個重要的講座錄音使用 large 模型」
  • 「取得帶詞級時間戳記的 JSON 輸出」
  • 專業技巧

  • tiny = 快速但粗糙,small = 良好平衡,medium = 專業品質,large = 最高精度
  • 首次執行下載模型(40MB–3GB 取決於大小),之後完全離線
  • SRT/VTT 格式包含用於字幕同步的時間戳記
  • 翻譯模式無論輸入語言如何都輸出英文
  • JSON 輸出包含片段級和詞級時序資料
  • 初始模型下載後完全離線運作——非常適合隱私保護