Voice - Neotask by Neotask Documentation | Neotask

Voz

Visao Geral

Open Claw suporta interacao por voz atraves de multiplos sistemas: deteccao de palavra de ativacao, conversa por voz continua (modo de conversa) e texto-para-fala para respostas faladas.

Palavras de Ativacao

Swabble (macOS)

Swabble e um daemon nativo macOS que fornece deteccao de palavra de ativacao sempre ativa e no dispositivo usando o Speech.framework da Apple.

Recursos:

  • Processamento apenas local -- nenhum audio sai do seu dispositivo durante a deteccao de palavra de ativacao
  • Palavra de ativacao padrao: clawd (com alias claude)
  • Palavras de ativacao personalizaveis
  • Captura e transcricao continua de audio
  • Execucao de hook -- aciona comandos shell quando a palavra de ativacao e detectada
  • Transcricao de arquivos -- converta arquivos de audio em texto (formato TXT ou SRT)
  • Cooldown, contagem minima de caracteres e timeout configuraveis
  • Como funciona:

  • Swabble escuta continuamente usando o microfone do sistema
  • Quando detecta a palavra de ativacao no texto falado, captura a fala seguinte
  • O texto capturado e enviado ao seu agente via um comando de hook configurado
  • O agente processa o comando de voz e responde
  • Palavras de Ativacao em Nodes

    Em apps companion iOS e Android, o despertar por voz e tratado nativamente:

  • Configuracao de palavras de ativacao e de propriedade do Gateway
  • Nodes recebem configuracao de palavras de ativacao na conexao
  • Deteccao usa reconhecimento de fala nativo da plataforma
  • Modo de Conversa

    O modo de conversa habilita conversas por voz continuas -- fale naturalmente e ouca seu agente responder.

    Como Funciona

  • Fala-para-Texto -- Sua voz e transcrita em tempo real (streaming Deepgram ou STT nativo da plataforma)
  • Processamento do Agente -- O texto transcrito e enviado ao seu agente como uma mensagem regular
  • Texto-para-Fala -- A resposta do agente e falada de volta para voce
  • Maquina de Estados de Voz

    O modo de conversa transiciona entre quatro estados:

    | Estado | Descricao | |--------|-----------| | Inativo | Nao escutando ativamente | | Escutando | Capturando e transcrevendo sua fala | | Pensando | Agente esta processando sua solicitacao | | Falando | Resposta do agente esta sendo falada |

    Provedores de Texto-para-Fala

    | Provedor | Descricao | |----------|-----------| | ElevenLabs | Sintese de voz de alta qualidade com selecao de voz | | OpenAI TTS | API de texto-para-fala da OpenAI |

    Preferencias de Voz

  • Selecao de voz -- Escolha entre as vozes TTS disponiveis
  • Prompt de sistema personalizado -- Sobrescreva a personalidade do agente para o modo de voz
  • Formato de resposta personalizado -- Controle como o agente formata respostas faladas
  • Suporte a idiomas -- Strings de voz localizadas para mais de 18 idiomas
  • Comandos de Voz

    Deteccao Multi-Intencao

    Agentes podem detectar e executar comandos de voz com multiplas etapas:

    > "Crie um evento no calendario para amanha as 15h, depois envie um email para a equipe sobre isso e poste um lembrete no Slack"

    Isso e automaticamente analisado em uma sequencia de comandos, cada um executado em ordem com os resultados fluindo para a proxima etapa.

    Execucao de Ferramentas

    Durante conversas por voz, agentes podem executar ferramentas assim como em conversas de texto -- navegar na web, executar codigo, gerenciar arquivos, controlar dispositivos e mais. Resultados sao resumidos e falados de volta.

    Aplicacao de Veracidade de Acao

    O modo de voz inclui validacao de que as alegacoes do agente correspondem aos resultados reais das ferramentas. Se um agente diz "Enviei o email" mas a ferramenta de email falhou, o sistema detecta a discrepancia e relata o resultado real.

    Chamadas de Voz (Plugin)

    O plugin Voice Call adiciona suporte a telefonia SIP:

  • Tratamento de chamadas de entrada
  • Chamadas de saida (dependente do provedor)
  • Audio bidirecional em tempo real (streams PCM)
  • Sintese TTS injetada no audio da chamada
  • Gestao de Cota

    Servicos de voz podem ter cotas de uso:

  • Alocacao mensal de minutos para TTS + STT
  • Rastreamento por sessao
  • Aviso em 80% de uso
  • Corte automatico no limite de cota
  • View full documentation