Voice - Neotask by Neotask Documentation | Neotask
Voz
Visao Geral
Open Claw suporta interacao por voz atraves de multiplos sistemas: deteccao de palavra de ativacao, conversa por voz continua (modo de conversa) e texto-para-fala para respostas faladas.
Palavras de Ativacao
Swabble (macOS)
Swabble e um daemon nativo macOS que fornece deteccao de palavra de ativacao sempre ativa e no dispositivo usando o Speech.framework da Apple.
Recursos:
Processamento apenas local -- nenhum audio sai do seu dispositivo durante a deteccao de palavra de ativacao
Palavra de ativacao padrao: clawd (com alias claude)
Palavras de ativacao personalizaveis
Captura e transcricao continua de audio
Execucao de hook -- aciona comandos shell quando a palavra de ativacao e detectada
Transcricao de arquivos -- converta arquivos de audio em texto (formato TXT ou SRT)
Cooldown, contagem minima de caracteres e timeout configuraveisComo funciona:
Swabble escuta continuamente usando o microfone do sistema
Quando detecta a palavra de ativacao no texto falado, captura a fala seguinte
O texto capturado e enviado ao seu agente via um comando de hook configurado
O agente processa o comando de voz e respondePalavras de Ativacao em Nodes
Em apps companion iOS e Android, o despertar por voz e tratado nativamente:
Configuracao de palavras de ativacao e de propriedade do Gateway
Nodes recebem configuracao de palavras de ativacao na conexao
Deteccao usa reconhecimento de fala nativo da plataformaModo de Conversa
O modo de conversa habilita conversas por voz continuas -- fale naturalmente e ouca seu agente responder.
Como Funciona
Fala-para-Texto -- Sua voz e transcrita em tempo real (streaming Deepgram ou STT nativo da plataforma)
Processamento do Agente -- O texto transcrito e enviado ao seu agente como uma mensagem regular
Texto-para-Fala -- A resposta do agente e falada de volta para voceMaquina de Estados de Voz
O modo de conversa transiciona entre quatro estados:
| Estado | Descricao |
|--------|-----------|
| Inativo | Nao escutando ativamente |
| Escutando | Capturando e transcrevendo sua fala |
| Pensando | Agente esta processando sua solicitacao |
| Falando | Resposta do agente esta sendo falada |
Provedores de Texto-para-Fala
| Provedor | Descricao |
|----------|-----------|
| ElevenLabs | Sintese de voz de alta qualidade com selecao de voz |
| OpenAI TTS | API de texto-para-fala da OpenAI |
Preferencias de Voz
Selecao de voz -- Escolha entre as vozes TTS disponiveis
Prompt de sistema personalizado -- Sobrescreva a personalidade do agente para o modo de voz
Formato de resposta personalizado -- Controle como o agente formata respostas faladas
Suporte a idiomas -- Strings de voz localizadas para mais de 18 idiomasComandos de Voz
Deteccao Multi-Intencao
Agentes podem detectar e executar comandos de voz com multiplas etapas:
> "Crie um evento no calendario para amanha as 15h, depois envie um email para a equipe sobre isso e poste um lembrete no Slack"
Isso e automaticamente analisado em uma sequencia de comandos, cada um executado em ordem com os resultados fluindo para a proxima etapa.
Execucao de Ferramentas
Durante conversas por voz, agentes podem executar ferramentas assim como em conversas de texto -- navegar na web, executar codigo, gerenciar arquivos, controlar dispositivos e mais. Resultados sao resumidos e falados de volta.
Aplicacao de Veracidade de Acao
O modo de voz inclui validacao de que as alegacoes do agente correspondem aos resultados reais das ferramentas. Se um agente diz "Enviei o email" mas a ferramenta de email falhou, o sistema detecta a discrepancia e relata o resultado real.
Chamadas de Voz (Plugin)
O plugin Voice Call adiciona suporte a telefonia SIP:
Tratamento de chamadas de entrada
Chamadas de saida (dependente do provedor)
Audio bidirecional em tempo real (streams PCM)
Sintese TTS injetada no audio da chamadaGestao de Cota
Servicos de voz podem ter cotas de uso:
Alocacao mensal de minutos para TTS + STT
Rastreamento por sessao
Aviso em 80% de uso
Corte automatico no limite de cota
View full documentation