Voice - Neotask by Neotask Documentation | Neotask

Voce

Panoramica

Open Claw supporta l'interazione vocale attraverso più sistemi: rilevamento della parola di attivazione, conversazione vocale continua (modalità talk) e text-to-speech per le risposte parlate.

Parole di Attivazione

Swabble (macOS)

Swabble è un daemon nativo macOS che fornisce il rilevamento on-device sempre attivo delle parole di attivazione usando Speech.framework di Apple.

Funzionalità:

  • Elaborazione solo locale — nessun audio lascia il dispositivo durante il rilevamento della parola di attivazione
  • Parola di attivazione predefinita: clawd (con alias claude)
  • Parole di attivazione personalizzabili
  • Cattura e trascrizione audio continua
  • Esecuzione di hook — attiva comandi shell quando viene rilevata la parola di attivazione
  • Trascrizione di file — converte file audio in testo (formato TXT o SRT)
  • Cooldown, conteggio minimo dei caratteri e timeout configurabili
  • Come funziona:

  • Swabble ascolta continuamente usando il microfono di sistema
  • Quando rileva la parola di attivazione nel testo parlato, cattura il discorso successivo
  • Il testo catturato viene inviato al tuo agente tramite un comando hook configurato
  • L'agente elabora il comando vocale e risponde
  • Parole di Attivazione dei Nodi

    Sulle app companion iOS e Android, la wake word vocale è gestita nativamente:

  • La configurazione delle parole di attivazione è gestita dal Gateway
  • I nodi ricevono la configurazione delle parole di attivazione alla connessione
  • Il rilevamento usa il riconoscimento vocale nativo della piattaforma
  • Modalità Talk

    La modalità talk abilita conversazioni vocali continue — parla naturalmente e ascolta il tuo agente rispondere.

    Come Funziona

  • Speech-to-Text — La tua voce viene trascritta in tempo reale (streaming Deepgram o STT nativo della piattaforma)
  • Elaborazione dell'Agente — Il testo trascritto viene inviato al tuo agente come messaggio normale
  • Text-to-Speech — La risposta dell'agente viene riprodotta con la voce
  • Macchina a Stati della Voce

    La modalità talk passa tra quattro stati:

    | Stato | Descrizione | |-------|-------------| | Idle | Non in ascolto attivo | | Listening | Cattura e trascrizione del parlato | | Thinking | L'agente sta elaborando la tua richiesta | | Speaking | La risposta dell'agente viene pronunciata |

    Provider Text-to-Speech

    | Provider | Descrizione | |----------|-------------| | ElevenLabs | Sintesi vocale di alta qualità con selezione della voce | | OpenAI TTS | API text-to-speech di OpenAI |

    Preferenze Vocali

  • Selezione della voce — Scegli tra le voci TTS disponibili
  • Prompt di sistema personalizzato — Sostituisci la personalità dell'agente per la modalità vocale
  • Formato di risposta personalizzato — Controlla come l'agente formatta le risposte parlate
  • Supporto linguistico — Stringhe vocali localizzate per 18+ lingue
  • Comandi Vocali

    Rilevamento Multi-Intent

    Gli agenti possono rilevare ed eseguire comandi vocali multi-step:

    > "Crea un evento nel calendario per domani alle 15:00, poi invia un'email al team al riguardo e pubblica un promemoria su Slack"

    Questo viene automaticamente analizzato in una sequenza di comandi, ciascuno eseguito in ordine con i risultati che fluiscono al passaggio successivo.

    Esecuzione degli Strumenti

    Durante le conversazioni vocali, gli agenti possono eseguire strumenti proprio come nelle conversazioni testuali — navigare sul web, eseguire codice, gestire file, controllare dispositivi e altro ancora. I risultati vengono riassunti e pronunciati.

    Verifica della Veridicità delle Azioni

    La modalità vocale include la validazione che le dichiarazioni dell'agente corrispondano agli effettivi risultati degli strumenti. Se un agente dice "Ho inviato l'email" ma lo strumento email ha fallito, il sistema rileva la discrepanza e riporta il risultato effettivo.

    Chiamate Vocali (Plugin)

    Il plugin Voice Call aggiunge il supporto per la telefonia SIP:

  • Gestione delle chiamate in entrata
  • Chiamate in uscita (dipendente dal provider)
  • Audio bidirezionale in tempo reale (stream PCM)
  • Sintesi TTS iniettata nell'audio della chiamata
  • Gestione delle Quote

    I servizi vocali possono avere quote di utilizzo:

  • Allocazione mensile di minuti per TTS + STT
  • Tracciamento per sessione
  • Avviso all'80% dell'utilizzo
  • Interruzione automatica al raggiungimento del limite di quota
  • View full documentation