Speech-to-Text

Mô hình AI

Phiên âm âm thanh cục bộ không tốn phí API

Bạn Có Thể Làm Gì

  • Phiên âm cục bộ — Chuyển đổi giọng nói thành văn bản hoàn toàn ngoại tuyến, không cần API key
  • Nhiều kích thước model — tiny (nhanh nhất) → base → small → medium → large (chính xác nhất)
  • Định dạng đầu ra — Văn bản thuần túy, phụ đề SRT, chú thích VTT, hoặc JSON với dấu thời gian
  • Chế độ dịch — Dịch trực tiếp âm thanh bất kỳ ngôn ngữ nào sang văn bản tiếng Anh
  • Hỗ trợ định dạng rộng — WAV, MP3, M4A, FLAC, OGG, và nhiều hơn
  • Tự động lưu cache model — Tải xuống model lần đầu, hoàn toàn ngoại tuyến sau đó
  • Hãy Thử Hỏi

  • "Phiên âm podcast.mp3 này sử dụng model medium"
  • "Chuyển đổi cuộc phỏng vấn này thành phụ đề SRT"
  • "Phiên âm ghi chú giọng nói của tôi và dịch sang tiếng Anh"
  • "Tạo chú thích VTT cho track âm thanh của video này"
  • "Sử dụng model large cho bản ghi bài giảng quan trọng này"
  • "Lấy đầu ra JSON với dấu thời gian cấp từ"
  • Mẹo Hay

  • tiny = nhanh nhưng thô, small = cân bằng tốt, medium = chất lượng chuyên nghiệp, large = độ chính xác tối đa
  • Lần chạy đầu tiên tải model (40MB–3GB tùy kích thước), sau đó hoàn toàn ngoại tuyến
  • Định dạng SRT/VTT bao gồm dấu thời gian để đồng bộ phụ đề
  • Chế độ dịch xuất tiếng Anh bất kể ngôn ngữ đầu vào
  • Đầu ra JSON bao gồm dữ liệu thời gian cấp đoạn và cấp từ
  • Hoạt động hoàn toàn ngoại tuyến sau khi tải model lần đầu — tuyệt vời cho riêng tư