Speech-to-Text

AI 模型

完全離線轉錄音訊，零 API 費用

你可以做什麼

本地轉錄 — 完全離線將語音轉換為文字，無需 API 金鑰

多種模型大小 — tiny（最快）→ base → small → medium → large（最準確）

輸出格式 — 純文字、SRT 字幕、VTT 字幕或帶時間戳記的 JSON

翻譯模式 — 將任何語言的音訊直接翻譯為英文文字

廣泛格式支援 — WAV、MP3、M4A、FLAC、OGG 等更多格式

自動模型快取 — 首次使用時下載模型，之後完全離線

「使用 medium 模型轉錄這個 podcast.mp3」

「將這個訪談轉換為 SRT 字幕」

「轉錄我的語音備忘錄並翻譯為中文」

「為這個影片的音訊軌道生成 VTT 字幕」

「為這個重要的講座錄音使用 large 模型」

「取得帶詞級時間戳記的 JSON 輸出」

tiny = 快速但粗糙，small = 良好平衡，medium = 專業品質，large = 最高精度

首次執行下載模型（40MB–3GB 取決於大小），之後完全離線

SRT/VTT 格式包含用於字幕同步的時間戳記

翻譯模式無論輸入語言如何都輸出英文

JSON 輸出包含片段級和詞級時序資料

初始模型下載後完全離線運作——非常適合隱私保護