Voice - Neotask by Neotask Documentation | Neotask
Giọng nói
Tổng quan
Open Claw hỗ trợ tương tác giọng nói qua nhiều hệ thống: phát hiện từ đánh thức, cuộc trò chuyện giọng nói liên tục (chế độ nói chuyện) và chuyển văn bản thành giọng nói cho các phản hồi bằng lời.
Từ đánh thức
Swabble (macOS)
Swabble là daemon macOS gốc cung cấp phát hiện từ đánh thức giọng nói trên thiết bị luôn bật bằng cách sử dụng Speech.framework của Apple.
Tính năng:
Xử lý chỉ cục bộ — không có âm thanh nào rời khỏi thiết bị của bạn trong quá trình phát hiện từ đánh thức
Từ đánh thức mặc định: clawd (với bí danh claude)
Từ đánh thức có thể tùy chỉnh
Thu âm và phiên âm âm thanh liên tục
Thực thi hook — kích hoạt các lệnh shell khi phát hiện từ đánh thức
Phiên âm tệp — chuyển đổi tệp âm thanh thành văn bản (định dạng TXT hoặc SRT)
Thời gian làm mát, số ký tự tối thiểu và thời gian chờ có thể cấu hìnhCách hoạt động:
Swabble lắng nghe liên tục bằng micrô hệ thống
Khi nó phát hiện từ đánh thức trong văn bản nói, nó thu âm lời nói tiếp theo
Văn bản đã thu được gửi đến tác nhân của bạn qua lệnh hook được cấu hình
Tác nhân xử lý lệnh giọng nói và phản hồiTừ đánh thức node
Trên các ứng dụng đồng hành iOS và Android, đánh thức giọng nói được xử lý gốc:
Cấu hình từ đánh thức được sở hữu bởi Gateway
Các node nhận cấu hình từ đánh thức khi kết nối
Phát hiện sử dụng nhận dạng giọng nói gốc nền tảngChế độ nói chuyện
Chế độ nói chuyện cho phép các cuộc trò chuyện giọng nói liên tục — nói tự nhiên và nghe tác nhân của bạn phản hồi.
Cách hoạt động
Giọng nói thành văn bản — Giọng nói của bạn được phiên âm theo thời gian thực (phát trực tuyến Deepgram hoặc STT gốc nền tảng)
Xử lý tác nhân — Văn bản đã phiên âm được gửi đến tác nhân của bạn như một tin nhắn thông thường
Văn bản thành giọng nói — Phản hồi của tác nhân được nói lại cho bạnMáy trạng thái giọng nói
Chế độ nói chuyện chuyển đổi giữa bốn trạng thái:
| Trạng thái | Mô tả |
|-------|-------------|
| Rảnh | Không lắng nghe tích cực |
| Lắng nghe | Đang thu và phiên âm giọng nói của bạn |
| Suy nghĩ | Tác nhân đang xử lý yêu cầu của bạn |
| Nói | Phản hồi tác nhân đang được nói |
Nhà cung cấp chuyển văn bản thành giọng nói
| Nhà cung cấp | Mô tả |
|----------|-------------|
| ElevenLabs | Tổng hợp giọng nói chất lượng cao với lựa chọn giọng nói |
| OpenAI TTS | API chuyển văn bản thành giọng nói của OpenAI |
Tùy chọn giọng nói
Chọn giọng nói — Chọn từ các giọng TTS có sẵn
Lời nhắc hệ thống tùy chỉnh — Ghi đè cá tính của tác nhân cho chế độ giọng nói
Định dạng phản hồi tùy chỉnh — Kiểm soát cách tác nhân định dạng các phản hồi nói
Hỗ trợ ngôn ngữ — Chuỗi giọng nói được bản địa hóa cho 18+ ngôn ngữLệnh giọng nói
Phát hiện đa ý định
Các tác nhân có thể phát hiện và thực thi các lệnh giọng nói nhiều bước:
> "Tạo sự kiện lịch cho ngày mai lúc 3 giờ chiều, sau đó gửi email cho nhóm về điều đó, và đăng lời nhắc trong Slack"
Điều này được tự động phân tích thành một chuỗi lệnh, mỗi lệnh được thực thi theo thứ tự với các kết quả chảy sang bước tiếp theo.
Thực thi công cụ
Trong các cuộc trò chuyện giọng nói, các tác nhân có thể thực thi các công cụ giống như trong các cuộc trò chuyện văn bản — duyệt web, chạy mã, quản lý tệp, điều khiển thiết bị và nhiều hơn nữa. Kết quả được tóm tắt và nói lại.
Thực thi sự thật hành động
Chế độ giọng nói bao gồm xác thực rằng các tuyên bố của tác nhân khớp với kết quả công cụ thực tế. Nếu tác nhân nói "Tôi đã gửi email" nhưng công cụ email thất bại, hệ thống phát hiện sự không nhất quán và báo cáo kết quả thực tế.
Cuộc gọi giọng nói (Plugin)
Plugin Cuộc gọi giọng nói thêm hỗ trợ điện thoại SIP:
Xử lý cuộc gọi đến
Cuộc gọi đi (phụ thuộc vào nhà cung cấp)
Âm thanh hai chiều theo thời gian thực (luồng PCM)
Tổng hợp TTS được chèn vào âm thanh cuộc gọiQuản lý hạn ngạch
Các dịch vụ giọng nói có thể có hạn ngạch sử dụng:
Phân bổ phút hàng tháng cho TTS + STT
Theo dõi theo từng phiên
Cảnh báo ở mức sử dụng 80%
Tự động cắt tại giới hạn hạn ngạch
View full documentation