Voice - Neotask by Neotask Documentation | Neotask

เสียง

ภาพรวม

Open Claw รองรับการโต้ตอบด้วยเสียงผ่านหลายระบบ: การตรวจจับ wake word, การสนทนาด้วยเสียงต่อเนื่อง (talk mode) และ text-to-speech สำหรับการตอบสนองด้วยเสียง

Wake Word

Swabble (macOS)

Swabble คือ macOS daemon แบบ native ที่ให้การตรวจจับ wake word ด้วยเสียงแบบ always-on, บนอุปกรณ์ โดยใช้ Apple Speech.framework

ฟีเจอร์:

การประมวลผลในเครื่องเท่านั้น — ไม่มีเสียงออกจากอุปกรณ์ของคุณระหว่างการตรวจจับ wake word

Wake word เริ่มต้น: clawd (พร้อม alias claude)

Wake word ที่กำหนดได้

การจับเสียงและการถอดเสียงอย่างต่อเนื่อง

การรัน hook — ทริกเกอร์คำสั่งเชลล์เมื่อตรวจพบ wake word

การถอดเสียงไฟล์ — แปลงไฟล์เสียงเป็นข้อความ (รูปแบบ TXT หรือ SRT)

Cooldown, จำนวนตัวอักษรขั้นต่ำ และ timeout ที่กำหนดค่าได้

วิธีทำงาน:

Swabble รับฟังอย่างต่อเนื่องโดยใช้ system microphone

เมื่อตรวจพบ wake word ในข้อความพูด จะจับเสียงที่ตามมา

ข้อความที่จับได้ถูกส่งไปยังเอเจนต์ผ่านคำสั่ง hook ที่กำหนดค่า

เอเจนต์ประมวลผลคำสั่งเสียงและตอบสนอง

Node Wake Word

บนแอปคู่หู iOS และ Android เสียงปลุกถูกจัดการแบบ native:

การกำหนดค่า wake word เป็นของ Gateway

Node รับการกำหนดค่า wake word เมื่อเชื่อมต่อ

การตรวจจับใช้การจดจำเสียงพูดแบบ native ของแพลตฟอร์ม

Talk Mode

Talk mode เปิดใช้งานการสนทนาด้วยเสียงอย่างต่อเนื่อง — พูดตามธรรมชาติและฟังเอเจนต์ตอบสนอง

วิธีทำงาน

Speech-to-Text — เสียงของคุณถูกถอดเสียงแบบ real-time (Deepgram streaming หรือ platform-native STT)

Agent Processing — ข้อความที่ถอดเสียงถูกส่งไปยังเอเจนต์ของคุณเป็นข้อความธรรมดา

Text-to-Speech — การตอบสนองของเอเจนต์ถูกพูดออกมาให้คุณ

Voice State Machine

Talk mode เปลี่ยนระหว่างสี่สถานะ:

| สถานะ | คำอธิบาย | |-------|-------------| | Idle | ไม่ได้รับฟังอยู่ | | Listening | จับและถอดเสียงพูดของคุณ | | Thinking | เอเจนต์กำลังประมวลผลคำขอของคุณ | | Speaking | กำลังพูดการตอบสนองของเอเจนต์ |

ผู้ให้บริการ Text-to-Speech

| ผู้ให้บริการ | คำอธิบาย | |----------|-------------| | ElevenLabs | การสังเคราะห์เสียงคุณภาพสูงพร้อมการเลือกเสียง | | OpenAI TTS | OpenAI text-to-speech API |

ค่ากำหนดเสียง

การเลือกเสียง — เลือกจากเสียง TTS ที่มี

System prompt กำหนดเอง — แทนที่บุคลิกภาพของเอเจนต์สำหรับโหมดเสียง

รูปแบบการตอบสนองกำหนดเอง — ควบคุมวิธีที่เอเจนต์จัดรูปแบบการตอบสนองด้วยเสียง

การรองรับภาษา — Voice string ที่แปลเป็นภาษาท้องถิ่นสำหรับ 18+ ภาษา

คำสั่งเสียง

การตรวจจับหลาย Intent

เอเจนต์สามารถตรวจจับและรันคำสั่งเสียงหลายขั้นตอน:

> "สร้างกิจกรรมปฏิทินสำหรับพรุ่งนี้เวลา 3 โมงบ่าย แล้วส่งอีเมลถึงทีมเกี่ยวกับมัน และโพสต์การเตือนความจำใน Slack"

สิ่งนี้ถูกแยกวิเคราะห์โดยอัตโนมัติเป็นลำดับคำสั่ง แต่ละรายการถูกรันตามลำดับโดยผลลัพธ์ไหลไปยังขั้นตอนถัดไป

การรันเครื่องมือ

ระหว่างการสนทนาด้วยเสียง เอเจนต์สามารถรันเครื่องมือเหมือนกับในการสนทนาด้วยข้อความ — เรียกดูเว็บ รันโค้ด จัดการไฟล์ ควบคุมอุปกรณ์ และอื่น ๆ ผลลัพธ์ถูกสรุปและพูดออกมา

Action Truth Enforcement

โหมดเสียงรวมถึงการตรวจสอบว่าการอ้างสิทธิ์ของเอเจนต์ตรงกับผลลัพธ์เครื่องมือจริง หากเอเจนต์บอกว่า "ฉันส่งอีเมลแล้ว" แต่เครื่องมืออีเมลล้มเหลว ระบบจะตรวจจับความไม่สอดคล้องและรายงานผลจริง

การโทรด้วยเสียง (Plugin)

Voice Call plugin เพิ่มการรองรับ SIP telephony:

การจัดการสายเรียกเข้า

สายโทรออก (ขึ้นอยู่กับผู้ให้บริการ)

เสียงสองทิศทางแบบ real-time (PCM stream)

การสังเคราะห์ TTS ที่ฉีดเข้าใน call audio

การจัดการโควต้า

บริการเสียงอาจมีโควต้าการใช้งาน:

การจัดสรรนาทีรายเดือนสำหรับ TTS + STT

การติดตามต่อเซสชัน

การเตือนที่ 80% ของการใช้งาน

การตัดอัตโนมัติที่ขีดจำกัดโควต้า

View full documentation