Whisper API

โมเดล AI

ถอดความบนคลาวด์รวดเร็วผ่าน OpenAI Whisper API

สิ่งที่คุณทำได้

ถอดความบนคลาวด์ — Speech-to-text รวดเร็วผ่าน OpenAI Whisper API (มักเร็วกว่าในเครื่องสำหรับไฟล์ขนาดใหญ่)

ระบุภาษา — ตั้งภาษาที่คาดหวังเพื่อความแม่นยำที่ดีขึ้นสำหรับเสียงที่ไม่ใช่ภาษาอังกฤษ

Prompts กำหนดเอง — ระบุชื่อผู้พูด คำศัพท์เทคนิค หรือ jargon เพื่อความแม่นยำที่ดีขึ้น

ตัวเลือกรูปแบบ — JSON (พร้อม timestamps) หรือเอาต์พุตข้อความธรรมดา

เอาต์พุตไฟล์อัตโนมัติ — บันทึกการถอดความควบคู่กับไฟล์เสียงต้นฉบับ

"ถอดความ interview.mp3 ผ่าน API"

"ถอดความการประชุมนี้เป็นภาษาสเปน"

"ถอดความพร้อมบริบท: ผู้พูดคือ ดร.Smith และศ.Jones พูดถึง quantum computing"

"รับการถอดความ JSON พร้อม timestamps"

"ถอดความสายรายงานผลประกอบการนี้พร้อมคำแนะนำคำศัพท์เฉพาะบริษัท"

ต้องใช้ตัวแปรสภาพแวดล้อม OPENAI_API_KEY

Prompt กำหนดเองช่วยเพิ่มความแม่นยำสำหรับเนื้อหาเฉพาะโดเมนได้อย่างมาก

คำแนะนำภาษาช่วยเมื่อคุณภาพเสียงต่ำหรือมีสำเนียง

API มักเร็วกว่าการประมวลผลในเครื่องสำหรับไฟล์ที่นานกว่า 10 นาที

ขนาดไฟล์สูงสุดคือ 25MB — ใช้ local Whisper สำหรับไฟล์ขนาดใหญ่กว่า

รูปแบบ JSON รวม segment timestamps ที่มีประโยชน์สำหรับสรุปที่มีรหัสเวลา