Speech-to-Text

โมเดล AI

ถอดความเสียงในเครื่องโดยไม่มีค่า API

สิ่งที่คุณทำได้

ถอดความในเครื่อง — แปลงเสียงเป็นข้อความแบบออฟไลน์สมบูรณ์ ไม่ต้องใช้ API key

ขนาดโมเดลหลายแบบ — tiny (เร็วที่สุด) → base → small → medium → large (แม่นยำที่สุด)

รูปแบบเอาต์พุต — ข้อความธรรมดา คำบรรยาย SRT, VTT captions หรือ JSON พร้อม timestamps

โหมดแปล — แปลเสียงทุกภาษาเป็นข้อความภาษาอังกฤษโดยตรง

รองรับรูปแบบกว้าง — WAV, MP3, M4A, FLAC, OGG และอื่นๆ

Auto model caching — ดาวน์โหลดโมเดลในการใช้ครั้งแรก ออฟไลน์สมบูรณ์หลังจากนั้น

"ถอดความ podcast.mp3 โดยใช้โมเดล medium"

"แปลง interview นี้เป็นคำบรรยาย SRT"

"ถอดความ voice memo ของฉันและแปลเป็นภาษาอังกฤษ"

"สร้างคำบรรยาย VTT สำหรับแทร็กเสียงของวิดีโอนี้"

"ใช้โมเดล large สำหรับการบันทึกบรรยายสำคัญนี้"

"รับเอาต์พุต JSON พร้อม timestamps ระดับคำ"

tiny = เร็วแต่หยาบ, small = สมดุลดี, medium = คุณภาพระดับมืออาชีพ, large = ความแม่นยำสูงสุด

การรันครั้งแรกดาวน์โหลดโมเดล (40MB–3GB ขึ้นอยู่กับขนาด) จากนั้นออฟไลน์สมบูรณ์

รูปแบบ SRT/VTT รวม timestamps สำหรับการซิงค์คำบรรยาย

โหมดแปลส่งออกภาษาอังกฤษโดยไม่คำนึงถึงภาษาอินพุต

เอาต์พุต JSON รวมข้อมูล timing ระดับ segment และระดับคำ

ทำงานออฟไลน์สมบูรณ์หลังดาวน์โหลดโมเดลครั้งแรก — เหมาะสำหรับความเป็นส่วนตัว