Whisper API

Mô hình AI

Phiên âm đám mây nhanh qua OpenAI Whisper API

Bạn Có Thể Làm Gì

  • Phiên âm đám mây — Chuyển đổi giọng nói thành văn bản nhanh qua API OpenAI (thường nhanh hơn cục bộ cho file lớn)
  • Chỉ định ngôn ngữ — Đặt ngôn ngữ dự kiến để độ chính xác tốt hơn với âm thanh không phải tiếng Anh
  • Prompt tùy chỉnh — Cung cấp tên người nói, thuật ngữ kỹ thuật, hoặc biệt ngữ để cải thiện độ chính xác
  • Tùy chọn định dạng — JSON (với dấu thời gian) hoặc đầu ra văn bản thuần túy
  • Tự động lưu file — Lưu phiên âm cùng với file âm thanh gốc
  • Hãy Thử Hỏi

  • "Phiên âm interview.mp3 này qua API"
  • "Phiên âm cuộc họp này bằng tiếng Tây Ban Nha"
  • "Phiên âm với ngữ cảnh: người nói là Tiến sĩ Smith và Giáo sư Jones thảo luận về điện toán lượng tử"
  • "Lấy phiên âm JSON với dấu thời gian"
  • "Phiên âm cuộc gọi thu nhập này với gợi ý thuật ngữ công ty cụ thể"
  • Mẹo Hay

  • Yêu cầu biến môi trường OPENAI_API_KEY
  • Prompt tùy chỉnh cải thiện đáng kể độ chính xác cho nội dung chuyên ngành
  • Gợi ý ngôn ngữ giúp khi chất lượng âm thanh kém hoặc có giọng
  • API thường nhanh hơn xử lý cục bộ cho file trên 10 phút
  • Kích thước file tối đa là 25MB — sử dụng Whisper cục bộ cho file lớn hơn
  • Định dạng JSON bao gồm dấu thời gian đoạn hữu ích để tóm tắt có mã thời gian