Voice - Neotask by Neotask Documentation | Neotask

Voce

Panoramica

Open Claw supporta l'interazione vocale attraverso più sistemi: rilevamento della parola di attivazione, conversazione vocale continua (modalità talk) e text-to-speech per le risposte parlate.

Parole di Attivazione

Swabble (macOS)

Swabble è un daemon nativo macOS che fornisce il rilevamento on-device sempre attivo delle parole di attivazione usando Speech.framework di Apple.

Funzionalità:

Elaborazione solo locale — nessun audio lascia il dispositivo durante il rilevamento della parola di attivazione

Parola di attivazione predefinita: clawd (con alias claude)

Parole di attivazione personalizzabili

Cattura e trascrizione audio continua

Esecuzione di hook — attiva comandi shell quando viene rilevata la parola di attivazione

Trascrizione di file — converte file audio in testo (formato TXT o SRT)

Cooldown, conteggio minimo dei caratteri e timeout configurabili

Come funziona:

Swabble ascolta continuamente usando il microfono di sistema

Quando rileva la parola di attivazione nel testo parlato, cattura il discorso successivo

Il testo catturato viene inviato al tuo agente tramite un comando hook configurato

L'agente elabora il comando vocale e risponde

Parole di Attivazione dei Nodi

Sulle app companion iOS e Android, la wake word vocale è gestita nativamente:

La configurazione delle parole di attivazione è gestita dal Gateway

I nodi ricevono la configurazione delle parole di attivazione alla connessione

Il rilevamento usa il riconoscimento vocale nativo della piattaforma

Modalità Talk

La modalità talk abilita conversazioni vocali continue — parla naturalmente e ascolta il tuo agente rispondere.

Come Funziona

Speech-to-Text — La tua voce viene trascritta in tempo reale (streaming Deepgram o STT nativo della piattaforma)

Elaborazione dell'Agente — Il testo trascritto viene inviato al tuo agente come messaggio normale

Text-to-Speech — La risposta dell'agente viene riprodotta con la voce

Macchina a Stati della Voce

La modalità talk passa tra quattro stati:

| Stato | Descrizione | |-------|-------------| | Idle | Non in ascolto attivo | | Listening | Cattura e trascrizione del parlato | | Thinking | L'agente sta elaborando la tua richiesta | | Speaking | La risposta dell'agente viene pronunciata |

Provider Text-to-Speech

| Provider | Descrizione | |----------|-------------| | ElevenLabs | Sintesi vocale di alta qualità con selezione della voce | | OpenAI TTS | API text-to-speech di OpenAI |

Preferenze Vocali

Selezione della voce — Scegli tra le voci TTS disponibili

Prompt di sistema personalizzato — Sostituisci la personalità dell'agente per la modalità vocale

Formato di risposta personalizzato — Controlla come l'agente formatta le risposte parlate

Supporto linguistico — Stringhe vocali localizzate per 18+ lingue

Comandi Vocali

Rilevamento Multi-Intent

Gli agenti possono rilevare ed eseguire comandi vocali multi-step:

> "Crea un evento nel calendario per domani alle 15:00, poi invia un'email al team al riguardo e pubblica un promemoria su Slack"

Questo viene automaticamente analizzato in una sequenza di comandi, ciascuno eseguito in ordine con i risultati che fluiscono al passaggio successivo.

Esecuzione degli Strumenti

Durante le conversazioni vocali, gli agenti possono eseguire strumenti proprio come nelle conversazioni testuali — navigare sul web, eseguire codice, gestire file, controllare dispositivi e altro ancora. I risultati vengono riassunti e pronunciati.

Verifica della Veridicità delle Azioni

La modalità vocale include la validazione che le dichiarazioni dell'agente corrispondano agli effettivi risultati degli strumenti. Se un agente dice "Ho inviato l'email" ma lo strumento email ha fallito, il sistema rileva la discrepanza e riporta il risultato effettivo.

Chiamate Vocali (Plugin)

Il plugin Voice Call aggiunge il supporto per la telefonia SIP:

Gestione delle chiamate in entrata

Chiamate in uscita (dipendente dal provider)

Audio bidirezionale in tempo reale (stream PCM)

Sintesi TTS iniettata nell'audio della chiamata

Gestione delle Quote

I servizi vocali possono avere quote di utilizzo:

Allocazione mensile di minuti per TTS + STT

Tracciamento per sessione

Avviso all'80% dell'utilizzo

Interruzione automatica al raggiungimento del limite di quota

View full documentation