Voice - Neotask by Neotask Documentation | Neotask
Voce
Panoramica
Open Claw supporta l'interazione vocale attraverso più sistemi: rilevamento della parola di attivazione, conversazione vocale continua (modalità talk) e text-to-speech per le risposte parlate.
Parole di Attivazione
Swabble (macOS)
Swabble è un daemon nativo macOS che fornisce il rilevamento on-device sempre attivo delle parole di attivazione usando Speech.framework di Apple.
Funzionalità:
Elaborazione solo locale — nessun audio lascia il dispositivo durante il rilevamento della parola di attivazione
Parola di attivazione predefinita: clawd (con alias claude)
Parole di attivazione personalizzabili
Cattura e trascrizione audio continua
Esecuzione di hook — attiva comandi shell quando viene rilevata la parola di attivazione
Trascrizione di file — converte file audio in testo (formato TXT o SRT)
Cooldown, conteggio minimo dei caratteri e timeout configurabiliCome funziona:
Swabble ascolta continuamente usando il microfono di sistema
Quando rileva la parola di attivazione nel testo parlato, cattura il discorso successivo
Il testo catturato viene inviato al tuo agente tramite un comando hook configurato
L'agente elabora il comando vocale e rispondeParole di Attivazione dei Nodi
Sulle app companion iOS e Android, la wake word vocale è gestita nativamente:
La configurazione delle parole di attivazione è gestita dal Gateway
I nodi ricevono la configurazione delle parole di attivazione alla connessione
Il rilevamento usa il riconoscimento vocale nativo della piattaformaModalità Talk
La modalità talk abilita conversazioni vocali continue — parla naturalmente e ascolta il tuo agente rispondere.
Come Funziona
Speech-to-Text — La tua voce viene trascritta in tempo reale (streaming Deepgram o STT nativo della piattaforma)
Elaborazione dell'Agente — Il testo trascritto viene inviato al tuo agente come messaggio normale
Text-to-Speech — La risposta dell'agente viene riprodotta con la voceMacchina a Stati della Voce
La modalità talk passa tra quattro stati:
| Stato | Descrizione |
|-------|-------------|
| Idle | Non in ascolto attivo |
| Listening | Cattura e trascrizione del parlato |
| Thinking | L'agente sta elaborando la tua richiesta |
| Speaking | La risposta dell'agente viene pronunciata |
Provider Text-to-Speech
| Provider | Descrizione |
|----------|-------------|
| ElevenLabs | Sintesi vocale di alta qualità con selezione della voce |
| OpenAI TTS | API text-to-speech di OpenAI |
Preferenze Vocali
Selezione della voce — Scegli tra le voci TTS disponibili
Prompt di sistema personalizzato — Sostituisci la personalità dell'agente per la modalità vocale
Formato di risposta personalizzato — Controlla come l'agente formatta le risposte parlate
Supporto linguistico — Stringhe vocali localizzate per 18+ lingueComandi Vocali
Rilevamento Multi-Intent
Gli agenti possono rilevare ed eseguire comandi vocali multi-step:
> "Crea un evento nel calendario per domani alle 15:00, poi invia un'email al team al riguardo e pubblica un promemoria su Slack"
Questo viene automaticamente analizzato in una sequenza di comandi, ciascuno eseguito in ordine con i risultati che fluiscono al passaggio successivo.
Esecuzione degli Strumenti
Durante le conversazioni vocali, gli agenti possono eseguire strumenti proprio come nelle conversazioni testuali — navigare sul web, eseguire codice, gestire file, controllare dispositivi e altro ancora. I risultati vengono riassunti e pronunciati.
Verifica della Veridicità delle Azioni
La modalità vocale include la validazione che le dichiarazioni dell'agente corrispondano agli effettivi risultati degli strumenti. Se un agente dice "Ho inviato l'email" ma lo strumento email ha fallito, il sistema rileva la discrepanza e riporta il risultato effettivo.
Chiamate Vocali (Plugin)
Il plugin Voice Call aggiunge il supporto per la telefonia SIP:
Gestione delle chiamate in entrata
Chiamate in uscita (dipendente dal provider)
Audio bidirezionale in tempo reale (stream PCM)
Sintesi TTS iniettata nell'audio della chiamataGestione delle Quote
I servizi vocali possono avere quote di utilizzo:
Allocazione mensile di minuti per TTS + STT
Tracciamento per sessione
Avviso all'80% dell'utilizzo
Interruzione automatica al raggiungimento del limite di quota
View full documentation