Voice - Neotask by Neotask Documentation | Neotask

Giọng nói

Tổng quan

Open Claw hỗ trợ tương tác giọng nói qua nhiều hệ thống: phát hiện từ đánh thức, cuộc trò chuyện giọng nói liên tục (chế độ nói chuyện) và chuyển văn bản thành giọng nói cho các phản hồi bằng lời.

Từ đánh thức

Swabble (macOS)

Swabble là daemon macOS gốc cung cấp phát hiện từ đánh thức giọng nói trên thiết bị luôn bật bằng cách sử dụng Speech.framework của Apple.

Tính năng:

Xử lý chỉ cục bộ — không có âm thanh nào rời khỏi thiết bị của bạn trong quá trình phát hiện từ đánh thức

Từ đánh thức mặc định: clawd (với bí danh claude)

Từ đánh thức có thể tùy chỉnh

Thu âm và phiên âm âm thanh liên tục

Thực thi hook — kích hoạt các lệnh shell khi phát hiện từ đánh thức

Phiên âm tệp — chuyển đổi tệp âm thanh thành văn bản (định dạng TXT hoặc SRT)

Thời gian làm mát, số ký tự tối thiểu và thời gian chờ có thể cấu hình

Cách hoạt động:

Swabble lắng nghe liên tục bằng micrô hệ thống

Khi nó phát hiện từ đánh thức trong văn bản nói, nó thu âm lời nói tiếp theo

Văn bản đã thu được gửi đến tác nhân của bạn qua lệnh hook được cấu hình

Tác nhân xử lý lệnh giọng nói và phản hồi

Từ đánh thức node

Trên các ứng dụng đồng hành iOS và Android, đánh thức giọng nói được xử lý gốc:

Cấu hình từ đánh thức được sở hữu bởi Gateway

Các node nhận cấu hình từ đánh thức khi kết nối

Phát hiện sử dụng nhận dạng giọng nói gốc nền tảng

Chế độ nói chuyện

Chế độ nói chuyện cho phép các cuộc trò chuyện giọng nói liên tục — nói tự nhiên và nghe tác nhân của bạn phản hồi.

Cách hoạt động

Giọng nói thành văn bản — Giọng nói của bạn được phiên âm theo thời gian thực (phát trực tuyến Deepgram hoặc STT gốc nền tảng)

Xử lý tác nhân — Văn bản đã phiên âm được gửi đến tác nhân của bạn như một tin nhắn thông thường

Văn bản thành giọng nói — Phản hồi của tác nhân được nói lại cho bạn

Máy trạng thái giọng nói

Chế độ nói chuyện chuyển đổi giữa bốn trạng thái:

| Trạng thái | Mô tả | |-------|-------------| | Rảnh | Không lắng nghe tích cực | | Lắng nghe | Đang thu và phiên âm giọng nói của bạn | | Suy nghĩ | Tác nhân đang xử lý yêu cầu của bạn | | Nói | Phản hồi tác nhân đang được nói |

Nhà cung cấp chuyển văn bản thành giọng nói

| Nhà cung cấp | Mô tả | |----------|-------------| | ElevenLabs | Tổng hợp giọng nói chất lượng cao với lựa chọn giọng nói | | OpenAI TTS | API chuyển văn bản thành giọng nói của OpenAI |

Tùy chọn giọng nói

Chọn giọng nói — Chọn từ các giọng TTS có sẵn

Lời nhắc hệ thống tùy chỉnh — Ghi đè cá tính của tác nhân cho chế độ giọng nói

Định dạng phản hồi tùy chỉnh — Kiểm soát cách tác nhân định dạng các phản hồi nói

Hỗ trợ ngôn ngữ — Chuỗi giọng nói được bản địa hóa cho 18+ ngôn ngữ

Lệnh giọng nói

Phát hiện đa ý định

Các tác nhân có thể phát hiện và thực thi các lệnh giọng nói nhiều bước:

> "Tạo sự kiện lịch cho ngày mai lúc 3 giờ chiều, sau đó gửi email cho nhóm về điều đó, và đăng lời nhắc trong Slack"

Điều này được tự động phân tích thành một chuỗi lệnh, mỗi lệnh được thực thi theo thứ tự với các kết quả chảy sang bước tiếp theo.

Thực thi công cụ

Trong các cuộc trò chuyện giọng nói, các tác nhân có thể thực thi các công cụ giống như trong các cuộc trò chuyện văn bản — duyệt web, chạy mã, quản lý tệp, điều khiển thiết bị và nhiều hơn nữa. Kết quả được tóm tắt và nói lại.

Thực thi sự thật hành động

Chế độ giọng nói bao gồm xác thực rằng các tuyên bố của tác nhân khớp với kết quả công cụ thực tế. Nếu tác nhân nói "Tôi đã gửi email" nhưng công cụ email thất bại, hệ thống phát hiện sự không nhất quán và báo cáo kết quả thực tế.

Cuộc gọi giọng nói (Plugin)

Plugin Cuộc gọi giọng nói thêm hỗ trợ điện thoại SIP:

Xử lý cuộc gọi đến

Cuộc gọi đi (phụ thuộc vào nhà cung cấp)

Âm thanh hai chiều theo thời gian thực (luồng PCM)

Tổng hợp TTS được chèn vào âm thanh cuộc gọi

Quản lý hạn ngạch

Các dịch vụ giọng nói có thể có hạn ngạch sử dụng:

Phân bổ phút hàng tháng cho TTS + STT

Theo dõi theo từng phiên

Cảnh báo ở mức sử dụng 80%

Tự động cắt tại giới hạn hạn ngạch

View full documentation