Voice - Neotask by Neotask Documentation | Neotask

Giọng nói

Tổng quan

Open Claw hỗ trợ tương tác giọng nói qua nhiều hệ thống: phát hiện từ đánh thức, cuộc trò chuyện giọng nói liên tục (chế độ nói chuyện) và chuyển văn bản thành giọng nói cho các phản hồi bằng lời.

Từ đánh thức

Swabble (macOS)

Swabble là daemon macOS gốc cung cấp phát hiện từ đánh thức giọng nói trên thiết bị luôn bật bằng cách sử dụng Speech.framework của Apple.

Tính năng:

  • Xử lý chỉ cục bộ — không có âm thanh nào rời khỏi thiết bị của bạn trong quá trình phát hiện từ đánh thức
  • Từ đánh thức mặc định: clawd (với bí danh claude)
  • Từ đánh thức có thể tùy chỉnh
  • Thu âm và phiên âm âm thanh liên tục
  • Thực thi hook — kích hoạt các lệnh shell khi phát hiện từ đánh thức
  • Phiên âm tệp — chuyển đổi tệp âm thanh thành văn bản (định dạng TXT hoặc SRT)
  • Thời gian làm mát, số ký tự tối thiểu và thời gian chờ có thể cấu hình
  • Cách hoạt động:

  • Swabble lắng nghe liên tục bằng micrô hệ thống
  • Khi nó phát hiện từ đánh thức trong văn bản nói, nó thu âm lời nói tiếp theo
  • Văn bản đã thu được gửi đến tác nhân của bạn qua lệnh hook được cấu hình
  • Tác nhân xử lý lệnh giọng nói và phản hồi
  • Từ đánh thức node

    Trên các ứng dụng đồng hành iOS và Android, đánh thức giọng nói được xử lý gốc:

  • Cấu hình từ đánh thức được sở hữu bởi Gateway
  • Các node nhận cấu hình từ đánh thức khi kết nối
  • Phát hiện sử dụng nhận dạng giọng nói gốc nền tảng
  • Chế độ nói chuyện

    Chế độ nói chuyện cho phép các cuộc trò chuyện giọng nói liên tục — nói tự nhiên và nghe tác nhân của bạn phản hồi.

    Cách hoạt động

  • Giọng nói thành văn bản — Giọng nói của bạn được phiên âm theo thời gian thực (phát trực tuyến Deepgram hoặc STT gốc nền tảng)
  • Xử lý tác nhân — Văn bản đã phiên âm được gửi đến tác nhân của bạn như một tin nhắn thông thường
  • Văn bản thành giọng nói — Phản hồi của tác nhân được nói lại cho bạn
  • Máy trạng thái giọng nói

    Chế độ nói chuyện chuyển đổi giữa bốn trạng thái:

    | Trạng thái | Mô tả | |-------|-------------| | Rảnh | Không lắng nghe tích cực | | Lắng nghe | Đang thu và phiên âm giọng nói của bạn | | Suy nghĩ | Tác nhân đang xử lý yêu cầu của bạn | | Nói | Phản hồi tác nhân đang được nói |

    Nhà cung cấp chuyển văn bản thành giọng nói

    | Nhà cung cấp | Mô tả | |----------|-------------| | ElevenLabs | Tổng hợp giọng nói chất lượng cao với lựa chọn giọng nói | | OpenAI TTS | API chuyển văn bản thành giọng nói của OpenAI |

    Tùy chọn giọng nói

  • Chọn giọng nói — Chọn từ các giọng TTS có sẵn
  • Lời nhắc hệ thống tùy chỉnh — Ghi đè cá tính của tác nhân cho chế độ giọng nói
  • Định dạng phản hồi tùy chỉnh — Kiểm soát cách tác nhân định dạng các phản hồi nói
  • Hỗ trợ ngôn ngữ — Chuỗi giọng nói được bản địa hóa cho 18+ ngôn ngữ
  • Lệnh giọng nói

    Phát hiện đa ý định

    Các tác nhân có thể phát hiện và thực thi các lệnh giọng nói nhiều bước:

    > "Tạo sự kiện lịch cho ngày mai lúc 3 giờ chiều, sau đó gửi email cho nhóm về điều đó, và đăng lời nhắc trong Slack"

    Điều này được tự động phân tích thành một chuỗi lệnh, mỗi lệnh được thực thi theo thứ tự với các kết quả chảy sang bước tiếp theo.

    Thực thi công cụ

    Trong các cuộc trò chuyện giọng nói, các tác nhân có thể thực thi các công cụ giống như trong các cuộc trò chuyện văn bản — duyệt web, chạy mã, quản lý tệp, điều khiển thiết bị và nhiều hơn nữa. Kết quả được tóm tắt và nói lại.

    Thực thi sự thật hành động

    Chế độ giọng nói bao gồm xác thực rằng các tuyên bố của tác nhân khớp với kết quả công cụ thực tế. Nếu tác nhân nói "Tôi đã gửi email" nhưng công cụ email thất bại, hệ thống phát hiện sự không nhất quán và báo cáo kết quả thực tế.

    Cuộc gọi giọng nói (Plugin)

    Plugin Cuộc gọi giọng nói thêm hỗ trợ điện thoại SIP:

  • Xử lý cuộc gọi đến
  • Cuộc gọi đi (phụ thuộc vào nhà cung cấp)
  • Âm thanh hai chiều theo thời gian thực (luồng PCM)
  • Tổng hợp TTS được chèn vào âm thanh cuộc gọi
  • Quản lý hạn ngạch

    Các dịch vụ giọng nói có thể có hạn ngạch sử dụng:

  • Phân bổ phút hàng tháng cho TTS + STT
  • Theo dõi theo từng phiên
  • Cảnh báo ở mức sử dụng 80%
  • Tự động cắt tại giới hạn hạn ngạch
  • View full documentation