Whisper API

Mô hình AI

Phiên âm đám mây nhanh qua OpenAI Whisper API

Bạn Có Thể Làm Gì

Phiên âm đám mây — Chuyển đổi giọng nói thành văn bản nhanh qua API OpenAI (thường nhanh hơn cục bộ cho file lớn)

Chỉ định ngôn ngữ — Đặt ngôn ngữ dự kiến để độ chính xác tốt hơn với âm thanh không phải tiếng Anh

Prompt tùy chỉnh — Cung cấp tên người nói, thuật ngữ kỹ thuật, hoặc biệt ngữ để cải thiện độ chính xác

Tùy chọn định dạng — JSON (với dấu thời gian) hoặc đầu ra văn bản thuần túy

Tự động lưu file — Lưu phiên âm cùng với file âm thanh gốc

"Phiên âm interview.mp3 này qua API"

"Phiên âm cuộc họp này bằng tiếng Tây Ban Nha"

"Phiên âm với ngữ cảnh: người nói là Tiến sĩ Smith và Giáo sư Jones thảo luận về điện toán lượng tử"

"Lấy phiên âm JSON với dấu thời gian"

"Phiên âm cuộc gọi thu nhập này với gợi ý thuật ngữ công ty cụ thể"

Yêu cầu biến môi trường OPENAI_API_KEY

Prompt tùy chỉnh cải thiện đáng kể độ chính xác cho nội dung chuyên ngành

Gợi ý ngôn ngữ giúp khi chất lượng âm thanh kém hoặc có giọng

API thường nhanh hơn xử lý cục bộ cho file trên 10 phút

Kích thước file tối đa là 25MB — sử dụng Whisper cục bộ cho file lớn hơn

Định dạng JSON bao gồm dấu thời gian đoạn hữu ích để tóm tắt có mã thời gian