Speech-to-Text
Mô hình AI
Phiên âm âm thanh cục bộ không tốn phí API
- Hoàn toàn ngoại tuyến sau khi tải mô hình
- Đầu ra SRT, VTT, JSON và văn bản
- Dịch bất kỳ ngôn ngữ nào sang tiếng Anh
Bạn Có Thể Làm Gì
Phiên âm cục bộ — Chuyển đổi giọng nói thành văn bản hoàn toàn ngoại tuyến, không cần API key
Nhiều kích thước model — tiny (nhanh nhất) → base → small → medium → large (chính xác nhất)
Định dạng đầu ra — Văn bản thuần túy, phụ đề SRT, chú thích VTT, hoặc JSON với dấu thời gian
Chế độ dịch — Dịch trực tiếp âm thanh bất kỳ ngôn ngữ nào sang văn bản tiếng Anh
Hỗ trợ định dạng rộng — WAV, MP3, M4A, FLAC, OGG, và nhiều hơn
Tự động lưu cache model — Tải xuống model lần đầu, hoàn toàn ngoại tuyến sau đóHãy Thử Hỏi
"Phiên âm podcast.mp3 này sử dụng model medium"
"Chuyển đổi cuộc phỏng vấn này thành phụ đề SRT"
"Phiên âm ghi chú giọng nói của tôi và dịch sang tiếng Anh"
"Tạo chú thích VTT cho track âm thanh của video này"
"Sử dụng model large cho bản ghi bài giảng quan trọng này"
"Lấy đầu ra JSON với dấu thời gian cấp từ"Mẹo Hay
tiny = nhanh nhưng thô, small = cân bằng tốt, medium = chất lượng chuyên nghiệp, large = độ chính xác tối đa
Lần chạy đầu tiên tải model (40MB–3GB tùy kích thước), sau đó hoàn toàn ngoại tuyến
Định dạng SRT/VTT bao gồm dấu thời gian để đồng bộ phụ đề
Chế độ dịch xuất tiếng Anh bất kể ngôn ngữ đầu vào
Đầu ra JSON bao gồm dữ liệu thời gian cấp đoạn và cấp từ
Hoạt động hoàn toàn ngoại tuyến sau khi tải model lần đầu — tuyệt vời cho riêng tư