Voice - Neotask by Neotask Documentation | Neotask

Suara

Gambaran Umum

Open Claw mendukung interaksi suara melalui beberapa sistem: deteksi wake word, percakapan suara berkelanjutan (mode bicara), dan text-to-speech untuk respons yang diucapkan.

Wake Words

Swabble (macOS)

Swabble adalah daemon native macOS yang menyediakan deteksi wake word suara on-device yang selalu aktif menggunakan Speech.framework milik Apple.

Fitur:

  • Pemrosesan hanya lokal — tidak ada audio yang meninggalkan perangkat Anda selama deteksi wake word
  • Wake word default: clawd (dengan alias claude)
  • Wake word yang dapat dikustomisasi
  • Tangkapan dan transkripsi audio berkelanjutan
  • Eksekusi hook — memicu perintah shell ketika wake word terdeteksi
  • Transkripsi file — konversi file audio ke teks (format TXT atau SRT)
  • Cooldown, jumlah karakter minimum, dan timeout yang dapat dikonfigurasi
  • Cara kerjanya:

  • Swabble mendengarkan secara berkelanjutan menggunakan mikrofon sistem
  • Ketika mendeteksi wake word dalam teks yang diucapkan, Swabble menangkap ucapan berikutnya
  • Teks yang ditangkap dikirim ke agen Anda melalui perintah hook yang dikonfigurasi
  • Agen memproses perintah suara dan merespons
  • Wake Words Node

    Di aplikasi pendamping iOS dan Android, wake suara ditangani secara native:

  • Konfigurasi wake word dimiliki oleh Gateway
  • Node menerima konfigurasi wake word saat terhubung
  • Deteksi menggunakan pengenalan ucapan native platform
  • Mode Bicara

    Mode bicara memungkinkan percakapan suara berkelanjutan — bicara secara alami dan dengar agen Anda merespons.

    Cara Kerjanya

  • Speech-to-Text — Suara Anda ditranskripsikan secara real-time (streaming Deepgram atau STT native platform)
  • Pemrosesan Agen — Teks yang ditranskripsikan dikirim ke agen Anda sebagai pesan biasa
  • Text-to-Speech — Respons agen diucapkan kembali kepada Anda
  • Mesin Status Suara

    Mode bicara bertransisi antara empat status:

    | Status | Deskripsi | |-------|-------------| | Idle | Tidak aktif mendengarkan | | Listening | Menangkap dan mentranskripsikan ucapan Anda | | Thinking | Agen sedang memproses permintaan Anda | | Speaking | Respons agen sedang diucapkan |

    Penyedia Text-to-Speech

    | Penyedia | Deskripsi | |----------|-------------| | ElevenLabs | Sintesis suara berkualitas tinggi dengan pemilihan suara | | OpenAI TTS | API text-to-speech OpenAI |

    Preferensi Suara

  • Pemilihan suara — Pilih dari suara TTS yang tersedia
  • Prompt sistem kustom — Timpa kepribadian agen untuk mode suara
  • Format respons kustom — Kontrol cara agen memformat respons lisan
  • Dukungan bahasa — String suara yang dilokalisasi untuk 18+ bahasa
  • Perintah Suara

    Deteksi Multi-Intent

    Agen dapat mendeteksi dan mengeksekusi perintah suara multi-langkah:

    > "Buat acara kalender untuk besok pukul 3 sore, lalu kirim email ke tim tentang itu, dan posting pengingat di Slack"

    Perintah ini secara otomatis diurai menjadi urutan perintah, masing-masing dieksekusi secara berurutan dengan hasilnya mengalir ke langkah berikutnya.

    Eksekusi Alat

    Selama percakapan suara, agen dapat mengeksekusi alat seperti dalam percakapan teks — menjelajahi web, menjalankan kode, mengelola file, mengontrol perangkat, dan lainnya. Hasilnya dirangkum dan diucapkan kembali.

    Penegakan Kebenaran Tindakan

    Mode suara mencakup validasi bahwa klaim agen cocok dengan hasil alat yang sebenarnya. Jika agen mengatakan "Saya telah mengirim email" tetapi alat email gagal, sistem mendeteksi ketidaksesuaian dan melaporkan hasil yang sebenarnya.

    Panggilan Suara (Plugin)

    Plugin Voice Call menambahkan dukungan telepon SIP:

  • Penanganan panggilan masuk
  • Panggilan keluar (bergantung pada penyedia)
  • Audio dua arah real-time (aliran PCM)
  • Sintesis TTS yang diinjeksikan ke dalam audio panggilan
  • Manajemen Kuota

    Layanan suara mungkin memiliki kuota penggunaan:

  • Alokasi menit bulanan untuk TTS + STT
  • Pelacakan per-sesi
  • Peringatan pada 80% penggunaan
  • Pemutusan otomatis pada batas kuota
  • View full documentation