Speech-to-Text

Mô hình AI

Phiên âm âm thanh cục bộ không tốn phí API

Bạn Có Thể Làm Gì

Phiên âm cục bộ — Chuyển đổi giọng nói thành văn bản hoàn toàn ngoại tuyến, không cần API key

Nhiều kích thước model — tiny (nhanh nhất) → base → small → medium → large (chính xác nhất)

Định dạng đầu ra — Văn bản thuần túy, phụ đề SRT, chú thích VTT, hoặc JSON với dấu thời gian

Chế độ dịch — Dịch trực tiếp âm thanh bất kỳ ngôn ngữ nào sang văn bản tiếng Anh

Hỗ trợ định dạng rộng — WAV, MP3, M4A, FLAC, OGG, và nhiều hơn

Tự động lưu cache model — Tải xuống model lần đầu, hoàn toàn ngoại tuyến sau đó

"Phiên âm podcast.mp3 này sử dụng model medium"

"Chuyển đổi cuộc phỏng vấn này thành phụ đề SRT"

"Phiên âm ghi chú giọng nói của tôi và dịch sang tiếng Anh"

"Tạo chú thích VTT cho track âm thanh của video này"

"Sử dụng model large cho bản ghi bài giảng quan trọng này"

"Lấy đầu ra JSON với dấu thời gian cấp từ"

tiny = nhanh nhưng thô, small = cân bằng tốt, medium = chất lượng chuyên nghiệp, large = độ chính xác tối đa

Lần chạy đầu tiên tải model (40MB–3GB tùy kích thước), sau đó hoàn toàn ngoại tuyến

Định dạng SRT/VTT bao gồm dấu thời gian để đồng bộ phụ đề

Chế độ dịch xuất tiếng Anh bất kể ngôn ngữ đầu vào

Đầu ra JSON bao gồm dữ liệu thời gian cấp đoạn và cấp từ

Hoạt động hoàn toàn ngoại tuyến sau khi tải model lần đầu — tuyệt vời cho riêng tư