Voice - Neotask by Neotask Documentation | Neotask

Voz

Descripción general

Open Claw admite interacción por voz a través de múltiples sistemas: detección de palabra de activación, conversación de voz continua (modo hablar) y texto a voz para respuestas habladas.

Palabras de activación

Swabble (macOS)

Swabble es un daemon nativo de macOS que proporciona detección de palabra de activación por voz siempre activa y en el dispositivo utilizando el framework Speech de Apple.

Características:

Procesamiento solo local: ningún audio sale de tu dispositivo durante la detección de la palabra de activación

Palabra de activación predeterminada: clawd (con alias claude)

Palabras de activación personalizables

Captura y transcripción continua de audio

Ejecución de hooks: ejecuta comandos de shell cuando se detecta la palabra de activación

Transcripción de archivos: convierte archivos de audio a texto (formato TXT o SRT)

Tiempo de espera, recuento mínimo de caracteres y tiempo de expiración configurables

Cómo funciona:

Swabble escucha continuamente utilizando el micrófono del sistema

Cuando detecta la palabra de activación en el texto hablado, captura el habla siguiente

El texto capturado se envía a tu agente a través de un comando hook configurado

El agente procesa el comando de voz y responde

Palabras de activación en nodos

En las aplicaciones complementarias de iOS y Android, la activación por voz se maneja de forma nativa:

La configuración de la palabra de activación es propiedad del Gateway

Los nodos reciben la configuración de la palabra de activación al conectarse

La detección utiliza reconocimiento de voz nativo de la plataforma

Modo hablar

El modo hablar permite conversaciones de voz continuas: habla de forma natural y escucha a tu agente responder.

Cómo funciona

Voz a texto — Tu voz se transcribe en tiempo real (streaming de Deepgram o STT nativo de la plataforma)

Procesamiento del agente — El texto transcrito se envía a tu agente como un mensaje normal

Texto a voz — La respuesta del agente se te reproduce en voz alta

Máquina de estados de voz

El modo hablar transiciona entre cuatro estados:

| Estado | Descripción | |--------|-------------| | Inactivo | No está escuchando activamente | | Escuchando | Capturando y transcribiendo tu habla | | Pensando | El agente está procesando tu solicitud | | Hablando | La respuesta del agente se está reproduciendo |

Proveedores de texto a voz

| Proveedor | Descripción | |-----------|-------------| | ElevenLabs | Síntesis de voz de alta calidad con selección de voz | | OpenAI TTS | API de texto a voz de OpenAI |

Preferencias de voz

Selección de voz — Elige entre las voces TTS disponibles

Prompt de sistema personalizado — Sobrescribe la personalidad del agente para el modo de voz

Formato de respuesta personalizado — Controla cómo el agente formatea las respuestas habladas

Soporte de idiomas — Cadenas de voz localizadas para más de 18 idiomas

Comandos de voz

Detección de múltiples intenciones

Los agentes pueden detectar y ejecutar comandos de voz de múltiples pasos:

> "Crea un evento de calendario para mañana a las 3 PM, luego envía un correo al equipo sobre eso, y publica un recordatorio en Slack"

Esto se analiza automáticamente en una secuencia de comandos, cada uno ejecutado en orden con los resultados fluyendo al siguiente paso.

Ejecución de herramientas

Durante las conversaciones de voz, los agentes pueden ejecutar herramientas igual que en las conversaciones de texto: navegar por la web, ejecutar código, gestionar archivos, controlar dispositivos y más. Los resultados se resumen y se reproducen en voz.

Verificación de veracidad de acciones

El modo de voz incluye validación de que las afirmaciones del agente coinciden con los resultados reales de las herramientas. Si un agente dice "He enviado el correo" pero la herramienta de correo falló, el sistema detecta la discrepancia e informa del resultado real.

Llamadas de voz (Plugin)

El plugin de llamadas de voz agrega soporte de telefonía SIP:

Manejo de llamadas entrantes

Llamadas salientes (dependiente del proveedor)

Audio bidireccional en tiempo real (flujos PCM)

Síntesis TTS inyectada en el audio de la llamada

Gestión de cuotas

Los servicios de voz pueden tener cuotas de uso:

Asignación mensual de minutos para TTS + STT

Seguimiento por sesión

Advertencia al 80% de uso

Corte automático en el límite de cuota

View full documentation