Whisper API

โมเดล AI

ถอดความบนคลาวด์รวดเร็วผ่าน OpenAI Whisper API

สิ่งที่คุณทำได้

  • ถอดความบนคลาวด์ — Speech-to-text รวดเร็วผ่าน OpenAI Whisper API (มักเร็วกว่าในเครื่องสำหรับไฟล์ขนาดใหญ่)
  • ระบุภาษา — ตั้งภาษาที่คาดหวังเพื่อความแม่นยำที่ดีขึ้นสำหรับเสียงที่ไม่ใช่ภาษาอังกฤษ
  • Prompts กำหนดเอง — ระบุชื่อผู้พูด คำศัพท์เทคนิค หรือ jargon เพื่อความแม่นยำที่ดีขึ้น
  • ตัวเลือกรูปแบบ — JSON (พร้อม timestamps) หรือเอาต์พุตข้อความธรรมดา
  • เอาต์พุตไฟล์อัตโนมัติ — บันทึกการถอดความควบคู่กับไฟล์เสียงต้นฉบับ
  • ลองถาม

  • "ถอดความ interview.mp3 ผ่าน API"
  • "ถอดความการประชุมนี้เป็นภาษาสเปน"
  • "ถอดความพร้อมบริบท: ผู้พูดคือ ดร.Smith และศ.Jones พูดถึง quantum computing"
  • "รับการถอดความ JSON พร้อม timestamps"
  • "ถอดความสายรายงานผลประกอบการนี้พร้อมคำแนะนำคำศัพท์เฉพาะบริษัท"
  • เคล็ดลับ

  • ต้องใช้ตัวแปรสภาพแวดล้อม OPENAI_API_KEY
  • Prompt กำหนดเองช่วยเพิ่มความแม่นยำสำหรับเนื้อหาเฉพาะโดเมนได้อย่างมาก
  • คำแนะนำภาษาช่วยเมื่อคุณภาพเสียงต่ำหรือมีสำเนียง
  • API มักเร็วกว่าการประมวลผลในเครื่องสำหรับไฟล์ที่นานกว่า 10 นาที
  • ขนาดไฟล์สูงสุดคือ 25MB — ใช้ local Whisper สำหรับไฟล์ขนาดใหญ่กว่า
  • รูปแบบ JSON รวม segment timestamps ที่มีประโยชน์สำหรับสรุปที่มีรหัสเวลา