Voice - Neotask by Neotask Documentation | Neotask

Suara

Gambaran Umum

Open Claw mendukung interaksi suara melalui beberapa sistem: deteksi wake word, percakapan suara berkelanjutan (mode bicara), dan text-to-speech untuk respons yang diucapkan.

Wake Words

Swabble (macOS)

Swabble adalah daemon native macOS yang menyediakan deteksi wake word suara on-device yang selalu aktif menggunakan Speech.framework milik Apple.

Fitur:

Pemrosesan hanya lokal — tidak ada audio yang meninggalkan perangkat Anda selama deteksi wake word

Wake word default: clawd (dengan alias claude)

Wake word yang dapat dikustomisasi

Tangkapan dan transkripsi audio berkelanjutan

Eksekusi hook — memicu perintah shell ketika wake word terdeteksi

Transkripsi file — konversi file audio ke teks (format TXT atau SRT)

Cooldown, jumlah karakter minimum, dan timeout yang dapat dikonfigurasi

Cara kerjanya:

Swabble mendengarkan secara berkelanjutan menggunakan mikrofon sistem

Ketika mendeteksi wake word dalam teks yang diucapkan, Swabble menangkap ucapan berikutnya

Teks yang ditangkap dikirim ke agen Anda melalui perintah hook yang dikonfigurasi

Agen memproses perintah suara dan merespons

Wake Words Node

Di aplikasi pendamping iOS dan Android, wake suara ditangani secara native:

Konfigurasi wake word dimiliki oleh Gateway

Node menerima konfigurasi wake word saat terhubung

Deteksi menggunakan pengenalan ucapan native platform

Mode Bicara

Mode bicara memungkinkan percakapan suara berkelanjutan — bicara secara alami dan dengar agen Anda merespons.

Cara Kerjanya

Speech-to-Text — Suara Anda ditranskripsikan secara real-time (streaming Deepgram atau STT native platform)

Pemrosesan Agen — Teks yang ditranskripsikan dikirim ke agen Anda sebagai pesan biasa

Text-to-Speech — Respons agen diucapkan kembali kepada Anda

Mesin Status Suara

Mode bicara bertransisi antara empat status:

| Status | Deskripsi | |-------|-------------| | Idle | Tidak aktif mendengarkan | | Listening | Menangkap dan mentranskripsikan ucapan Anda | | Thinking | Agen sedang memproses permintaan Anda | | Speaking | Respons agen sedang diucapkan |

Penyedia Text-to-Speech

| Penyedia | Deskripsi | |----------|-------------| | ElevenLabs | Sintesis suara berkualitas tinggi dengan pemilihan suara | | OpenAI TTS | API text-to-speech OpenAI |

Preferensi Suara

Pemilihan suara — Pilih dari suara TTS yang tersedia

Prompt sistem kustom — Timpa kepribadian agen untuk mode suara

Format respons kustom — Kontrol cara agen memformat respons lisan

Dukungan bahasa — String suara yang dilokalisasi untuk 18+ bahasa

Perintah Suara

Deteksi Multi-Intent

Agen dapat mendeteksi dan mengeksekusi perintah suara multi-langkah:

> "Buat acara kalender untuk besok pukul 3 sore, lalu kirim email ke tim tentang itu, dan posting pengingat di Slack"

Perintah ini secara otomatis diurai menjadi urutan perintah, masing-masing dieksekusi secara berurutan dengan hasilnya mengalir ke langkah berikutnya.

Eksekusi Alat

Selama percakapan suara, agen dapat mengeksekusi alat seperti dalam percakapan teks — menjelajahi web, menjalankan kode, mengelola file, mengontrol perangkat, dan lainnya. Hasilnya dirangkum dan diucapkan kembali.

Penegakan Kebenaran Tindakan

Mode suara mencakup validasi bahwa klaim agen cocok dengan hasil alat yang sebenarnya. Jika agen mengatakan "Saya telah mengirim email" tetapi alat email gagal, sistem mendeteksi ketidaksesuaian dan melaporkan hasil yang sebenarnya.

Panggilan Suara (Plugin)

Plugin Voice Call menambahkan dukungan telepon SIP:

Penanganan panggilan masuk

Panggilan keluar (bergantung pada penyedia)

Audio dua arah real-time (aliran PCM)

Sintesis TTS yang diinjeksikan ke dalam audio panggilan

Manajemen Kuota

Layanan suara mungkin memiliki kuota penggunaan:

Alokasi menit bulanan untuk TTS + STT

Pelacakan per-sesi

Peringatan pada 80% penggunaan

Pemutusan otomatis pada batas kuota

View full documentation