Speech-to-Text

โมเดล AI

ถอดความเสียงในเครื่องโดยไม่มีค่า API

สิ่งที่คุณทำได้

  • ถอดความในเครื่อง — แปลงเสียงเป็นข้อความแบบออฟไลน์สมบูรณ์ ไม่ต้องใช้ API key
  • ขนาดโมเดลหลายแบบ — tiny (เร็วที่สุด) → base → small → medium → large (แม่นยำที่สุด)
  • รูปแบบเอาต์พุต — ข้อความธรรมดา คำบรรยาย SRT, VTT captions หรือ JSON พร้อม timestamps
  • โหมดแปล — แปลเสียงทุกภาษาเป็นข้อความภาษาอังกฤษโดยตรง
  • รองรับรูปแบบกว้าง — WAV, MP3, M4A, FLAC, OGG และอื่นๆ
  • Auto model caching — ดาวน์โหลดโมเดลในการใช้ครั้งแรก ออฟไลน์สมบูรณ์หลังจากนั้น
  • ลองถาม

  • "ถอดความ podcast.mp3 โดยใช้โมเดล medium"
  • "แปลง interview นี้เป็นคำบรรยาย SRT"
  • "ถอดความ voice memo ของฉันและแปลเป็นภาษาอังกฤษ"
  • "สร้างคำบรรยาย VTT สำหรับแทร็กเสียงของวิดีโอนี้"
  • "ใช้โมเดล large สำหรับการบันทึกบรรยายสำคัญนี้"
  • "รับเอาต์พุต JSON พร้อม timestamps ระดับคำ"
  • เคล็ดลับ

  • tiny = เร็วแต่หยาบ, small = สมดุลดี, medium = คุณภาพระดับมืออาชีพ, large = ความแม่นยำสูงสุด
  • การรันครั้งแรกดาวน์โหลดโมเดล (40MB–3GB ขึ้นอยู่กับขนาด) จากนั้นออฟไลน์สมบูรณ์
  • รูปแบบ SRT/VTT รวม timestamps สำหรับการซิงค์คำบรรยาย
  • โหมดแปลส่งออกภาษาอังกฤษโดยไม่คำนึงถึงภาษาอินพุต
  • เอาต์พุต JSON รวมข้อมูล timing ระดับ segment และระดับคำ
  • ทำงานออฟไลน์สมบูรณ์หลังดาวน์โหลดโมเดลครั้งแรก — เหมาะสำหรับความเป็นส่วนตัว