Voice - Neotask by Neotask Documentation | Neotask
Suara
Gambaran Umum
Open Claw mendukung interaksi suara melalui beberapa sistem: deteksi wake word, percakapan suara berkelanjutan (mode bicara), dan text-to-speech untuk respons yang diucapkan.
Wake Words
Swabble (macOS)
Swabble adalah daemon native macOS yang menyediakan deteksi wake word suara on-device yang selalu aktif menggunakan Speech.framework milik Apple.
Fitur:
Pemrosesan hanya lokal — tidak ada audio yang meninggalkan perangkat Anda selama deteksi wake word
Wake word default: clawd (dengan alias claude)
Wake word yang dapat dikustomisasi
Tangkapan dan transkripsi audio berkelanjutan
Eksekusi hook — memicu perintah shell ketika wake word terdeteksi
Transkripsi file — konversi file audio ke teks (format TXT atau SRT)
Cooldown, jumlah karakter minimum, dan timeout yang dapat dikonfigurasiCara kerjanya:
Swabble mendengarkan secara berkelanjutan menggunakan mikrofon sistem
Ketika mendeteksi wake word dalam teks yang diucapkan, Swabble menangkap ucapan berikutnya
Teks yang ditangkap dikirim ke agen Anda melalui perintah hook yang dikonfigurasi
Agen memproses perintah suara dan meresponsWake Words Node
Di aplikasi pendamping iOS dan Android, wake suara ditangani secara native:
Konfigurasi wake word dimiliki oleh Gateway
Node menerima konfigurasi wake word saat terhubung
Deteksi menggunakan pengenalan ucapan native platformMode Bicara
Mode bicara memungkinkan percakapan suara berkelanjutan — bicara secara alami dan dengar agen Anda merespons.
Cara Kerjanya
Speech-to-Text — Suara Anda ditranskripsikan secara real-time (streaming Deepgram atau STT native platform)
Pemrosesan Agen — Teks yang ditranskripsikan dikirim ke agen Anda sebagai pesan biasa
Text-to-Speech — Respons agen diucapkan kembali kepada AndaMesin Status Suara
Mode bicara bertransisi antara empat status:
| Status | Deskripsi |
|-------|-------------|
| Idle | Tidak aktif mendengarkan |
| Listening | Menangkap dan mentranskripsikan ucapan Anda |
| Thinking | Agen sedang memproses permintaan Anda |
| Speaking | Respons agen sedang diucapkan |
Penyedia Text-to-Speech
| Penyedia | Deskripsi |
|----------|-------------|
| ElevenLabs | Sintesis suara berkualitas tinggi dengan pemilihan suara |
| OpenAI TTS | API text-to-speech OpenAI |
Preferensi Suara
Pemilihan suara — Pilih dari suara TTS yang tersedia
Prompt sistem kustom — Timpa kepribadian agen untuk mode suara
Format respons kustom — Kontrol cara agen memformat respons lisan
Dukungan bahasa — String suara yang dilokalisasi untuk 18+ bahasaPerintah Suara
Deteksi Multi-Intent
Agen dapat mendeteksi dan mengeksekusi perintah suara multi-langkah:
> "Buat acara kalender untuk besok pukul 3 sore, lalu kirim email ke tim tentang itu, dan posting pengingat di Slack"
Perintah ini secara otomatis diurai menjadi urutan perintah, masing-masing dieksekusi secara berurutan dengan hasilnya mengalir ke langkah berikutnya.
Eksekusi Alat
Selama percakapan suara, agen dapat mengeksekusi alat seperti dalam percakapan teks — menjelajahi web, menjalankan kode, mengelola file, mengontrol perangkat, dan lainnya. Hasilnya dirangkum dan diucapkan kembali.
Penegakan Kebenaran Tindakan
Mode suara mencakup validasi bahwa klaim agen cocok dengan hasil alat yang sebenarnya. Jika agen mengatakan "Saya telah mengirim email" tetapi alat email gagal, sistem mendeteksi ketidaksesuaian dan melaporkan hasil yang sebenarnya.
Panggilan Suara (Plugin)
Plugin Voice Call menambahkan dukungan telepon SIP:
Penanganan panggilan masuk
Panggilan keluar (bergantung pada penyedia)
Audio dua arah real-time (aliran PCM)
Sintesis TTS yang diinjeksikan ke dalam audio panggilanManajemen Kuota
Layanan suara mungkin memiliki kuota penggunaan:
Alokasi menit bulanan untuk TTS + STT
Pelacakan per-sesi
Peringatan pada 80% penggunaan
Pemutusan otomatis pada batas kuota
View full documentation