Whisper API
โมเดล AI
ถอดความบนคลาวด์รวดเร็วผ่าน OpenAI Whisper API
- เร็วกว่าการถอดความในเครื่องสำหรับไฟล์ขนาดใหญ่
- prompt แบบกำหนดเองช่วยเพิ่มความแม่นยำ
- คำแนะนำภาษาสำหรับเสียงที่ไม่ใช่ภาษาอังกฤษ
สิ่งที่คุณทำได้
ถอดความบนคลาวด์ — Speech-to-text รวดเร็วผ่าน OpenAI Whisper API (มักเร็วกว่าในเครื่องสำหรับไฟล์ขนาดใหญ่)
ระบุภาษา — ตั้งภาษาที่คาดหวังเพื่อความแม่นยำที่ดีขึ้นสำหรับเสียงที่ไม่ใช่ภาษาอังกฤษ
Prompts กำหนดเอง — ระบุชื่อผู้พูด คำศัพท์เทคนิค หรือ jargon เพื่อความแม่นยำที่ดีขึ้น
ตัวเลือกรูปแบบ — JSON (พร้อม timestamps) หรือเอาต์พุตข้อความธรรมดา
เอาต์พุตไฟล์อัตโนมัติ — บันทึกการถอดความควบคู่กับไฟล์เสียงต้นฉบับลองถาม
"ถอดความ interview.mp3 ผ่าน API"
"ถอดความการประชุมนี้เป็นภาษาสเปน"
"ถอดความพร้อมบริบท: ผู้พูดคือ ดร.Smith และศ.Jones พูดถึง quantum computing"
"รับการถอดความ JSON พร้อม timestamps"
"ถอดความสายรายงานผลประกอบการนี้พร้อมคำแนะนำคำศัพท์เฉพาะบริษัท"เคล็ดลับ
ต้องใช้ตัวแปรสภาพแวดล้อม OPENAI_API_KEY
Prompt กำหนดเองช่วยเพิ่มความแม่นยำสำหรับเนื้อหาเฉพาะโดเมนได้อย่างมาก
คำแนะนำภาษาช่วยเมื่อคุณภาพเสียงต่ำหรือมีสำเนียง
API มักเร็วกว่าการประมวลผลในเครื่องสำหรับไฟล์ที่นานกว่า 10 นาที
ขนาดไฟล์สูงสุดคือ 25MB — ใช้ local Whisper สำหรับไฟล์ขนาดใหญ่กว่า
รูปแบบ JSON รวม segment timestamps ที่มีประโยชน์สำหรับสรุปที่มีรหัสเวลา