Voice - Neotask by Neotask Documentation | Neotask
เสียง
ภาพรวม
Open Claw รองรับการโต้ตอบด้วยเสียงผ่านหลายระบบ: การตรวจจับ wake word, การสนทนาด้วยเสียงต่อเนื่อง (talk mode) และ text-to-speech สำหรับการตอบสนองด้วยเสียง
Wake Word
Swabble (macOS)
Swabble คือ macOS daemon แบบ native ที่ให้การตรวจจับ wake word ด้วยเสียงแบบ always-on, บนอุปกรณ์ โดยใช้ Apple Speech.framework
ฟีเจอร์:
การประมวลผลในเครื่องเท่านั้น — ไม่มีเสียงออกจากอุปกรณ์ของคุณระหว่างการตรวจจับ wake word
Wake word เริ่มต้น: clawd (พร้อม alias claude)
Wake word ที่กำหนดได้
การจับเสียงและการถอดเสียงอย่างต่อเนื่อง
การรัน hook — ทริกเกอร์คำสั่งเชลล์เมื่อตรวจพบ wake word
การถอดเสียงไฟล์ — แปลงไฟล์เสียงเป็นข้อความ (รูปแบบ TXT หรือ SRT)
Cooldown, จำนวนตัวอักษรขั้นต่ำ และ timeout ที่กำหนดค่าได้วิธีทำงาน:
Swabble รับฟังอย่างต่อเนื่องโดยใช้ system microphone
เมื่อตรวจพบ wake word ในข้อความพูด จะจับเสียงที่ตามมา
ข้อความที่จับได้ถูกส่งไปยังเอเจนต์ผ่านคำสั่ง hook ที่กำหนดค่า
เอเจนต์ประมวลผลคำสั่งเสียงและตอบสนองNode Wake Word
บนแอปคู่หู iOS และ Android เสียงปลุกถูกจัดการแบบ native:
การกำหนดค่า wake word เป็นของ Gateway
Node รับการกำหนดค่า wake word เมื่อเชื่อมต่อ
การตรวจจับใช้การจดจำเสียงพูดแบบ native ของแพลตฟอร์มTalk Mode
Talk mode เปิดใช้งานการสนทนาด้วยเสียงอย่างต่อเนื่อง — พูดตามธรรมชาติและฟังเอเจนต์ตอบสนอง
วิธีทำงาน
Speech-to-Text — เสียงของคุณถูกถอดเสียงแบบ real-time (Deepgram streaming หรือ platform-native STT)
Agent Processing — ข้อความที่ถอดเสียงถูกส่งไปยังเอเจนต์ของคุณเป็นข้อความธรรมดา
Text-to-Speech — การตอบสนองของเอเจนต์ถูกพูดออกมาให้คุณVoice State Machine
Talk mode เปลี่ยนระหว่างสี่สถานะ:
| สถานะ | คำอธิบาย |
|-------|-------------|
| Idle | ไม่ได้รับฟังอยู่ |
| Listening | จับและถอดเสียงพูดของคุณ |
| Thinking | เอเจนต์กำลังประมวลผลคำขอของคุณ |
| Speaking | กำลังพูดการตอบสนองของเอเจนต์ |
ผู้ให้บริการ Text-to-Speech
| ผู้ให้บริการ | คำอธิบาย |
|----------|-------------|
| ElevenLabs | การสังเคราะห์เสียงคุณภาพสูงพร้อมการเลือกเสียง |
| OpenAI TTS | OpenAI text-to-speech API |
ค่ากำหนดเสียง
การเลือกเสียง — เลือกจากเสียง TTS ที่มี
System prompt กำหนดเอง — แทนที่บุคลิกภาพของเอเจนต์สำหรับโหมดเสียง
รูปแบบการตอบสนองกำหนดเอง — ควบคุมวิธีที่เอเจนต์จัดรูปแบบการตอบสนองด้วยเสียง
การรองรับภาษา — Voice string ที่แปลเป็นภาษาท้องถิ่นสำหรับ 18+ ภาษาคำสั่งเสียง
การตรวจจับหลาย Intent
เอเจนต์สามารถตรวจจับและรันคำสั่งเสียงหลายขั้นตอน:
> "สร้างกิจกรรมปฏิทินสำหรับพรุ่งนี้เวลา 3 โมงบ่าย แล้วส่งอีเมลถึงทีมเกี่ยวกับมัน และโพสต์การเตือนความจำใน Slack"
สิ่งนี้ถูกแยกวิเคราะห์โดยอัตโนมัติเป็นลำดับคำสั่ง แต่ละรายการถูกรันตามลำดับโดยผลลัพธ์ไหลไปยังขั้นตอนถัดไป
การรันเครื่องมือ
ระหว่างการสนทนาด้วยเสียง เอเจนต์สามารถรันเครื่องมือเหมือนกับในการสนทนาด้วยข้อความ — เรียกดูเว็บ รันโค้ด จัดการไฟล์ ควบคุมอุปกรณ์ และอื่น ๆ ผลลัพธ์ถูกสรุปและพูดออกมา
Action Truth Enforcement
โหมดเสียงรวมถึงการตรวจสอบว่าการอ้างสิทธิ์ของเอเจนต์ตรงกับผลลัพธ์เครื่องมือจริง หากเอเจนต์บอกว่า "ฉันส่งอีเมลแล้ว" แต่เครื่องมืออีเมลล้มเหลว ระบบจะตรวจจับความไม่สอดคล้องและรายงานผลจริง
การโทรด้วยเสียง (Plugin)
Voice Call plugin เพิ่มการรองรับ SIP telephony:
การจัดการสายเรียกเข้า
สายโทรออก (ขึ้นอยู่กับผู้ให้บริการ)
เสียงสองทิศทางแบบ real-time (PCM stream)
การสังเคราะห์ TTS ที่ฉีดเข้าใน call audioการจัดการโควต้า
บริการเสียงอาจมีโควต้าการใช้งาน:
การจัดสรรนาทีรายเดือนสำหรับ TTS + STT
การติดตามต่อเซสชัน
การเตือนที่ 80% ของการใช้งาน
การตัดอัตโนมัติที่ขีดจำกัดโควต้า
View full documentation