Speech-to-Text
AI 模型
完全離線轉錄音訊,零 API 費用
- 下載模型後完全離線執行
- 支援 SRT、VTT、JSON 和文字輸出
- 將任意語言翻譯為英文
你可以做什麼
本地轉錄 — 完全離線將語音轉換為文字,無需 API 金鑰
多種模型大小 — tiny(最快)→ base → small → medium → large(最準確)
輸出格式 — 純文字、SRT 字幕、VTT 字幕或帶時間戳記的 JSON
翻譯模式 — 將任何語言的音訊直接翻譯為英文文字
廣泛格式支援 — WAV、MP3、M4A、FLAC、OGG 等更多格式
自動模型快取 — 首次使用時下載模型,之後完全離線試著這樣問
「使用 medium 模型轉錄這個 podcast.mp3」
「將這個訪談轉換為 SRT 字幕」
「轉錄我的語音備忘錄並翻譯為中文」
「為這個影片的音訊軌道生成 VTT 字幕」
「為這個重要的講座錄音使用 large 模型」
「取得帶詞級時間戳記的 JSON 輸出」專業技巧
tiny = 快速但粗糙,small = 良好平衡,medium = 專業品質,large = 最高精度
首次執行下載模型(40MB–3GB 取決於大小),之後完全離線
SRT/VTT 格式包含用於字幕同步的時間戳記
翻譯模式無論輸入語言如何都輸出英文
JSON 輸出包含片段級和詞級時序資料
初始模型下載後完全離線運作——非常適合隱私保護