Voice - Neotask by Neotask Documentation | Neotask
Voz
Descripción general
Open Claw admite interacción por voz a través de múltiples sistemas: detección de palabra de activación, conversación de voz continua (modo hablar) y texto a voz para respuestas habladas.
Palabras de activación
Swabble (macOS)
Swabble es un daemon nativo de macOS que proporciona detección de palabra de activación por voz siempre activa y en el dispositivo utilizando el framework Speech de Apple.
Características:
Procesamiento solo local: ningún audio sale de tu dispositivo durante la detección de la palabra de activación
Palabra de activación predeterminada: clawd (con alias claude)
Palabras de activación personalizables
Captura y transcripción continua de audio
Ejecución de hooks: ejecuta comandos de shell cuando se detecta la palabra de activación
Transcripción de archivos: convierte archivos de audio a texto (formato TXT o SRT)
Tiempo de espera, recuento mínimo de caracteres y tiempo de expiración configurablesCómo funciona:
Swabble escucha continuamente utilizando el micrófono del sistema
Cuando detecta la palabra de activación en el texto hablado, captura el habla siguiente
El texto capturado se envía a tu agente a través de un comando hook configurado
El agente procesa el comando de voz y respondePalabras de activación en nodos
En las aplicaciones complementarias de iOS y Android, la activación por voz se maneja de forma nativa:
La configuración de la palabra de activación es propiedad del Gateway
Los nodos reciben la configuración de la palabra de activación al conectarse
La detección utiliza reconocimiento de voz nativo de la plataformaModo hablar
El modo hablar permite conversaciones de voz continuas: habla de forma natural y escucha a tu agente responder.
Cómo funciona
Voz a texto — Tu voz se transcribe en tiempo real (streaming de Deepgram o STT nativo de la plataforma)
Procesamiento del agente — El texto transcrito se envía a tu agente como un mensaje normal
Texto a voz — La respuesta del agente se te reproduce en voz altaMáquina de estados de voz
El modo hablar transiciona entre cuatro estados:
| Estado | Descripción |
|--------|-------------|
| Inactivo | No está escuchando activamente |
| Escuchando | Capturando y transcribiendo tu habla |
| Pensando | El agente está procesando tu solicitud |
| Hablando | La respuesta del agente se está reproduciendo |
Proveedores de texto a voz
| Proveedor | Descripción |
|-----------|-------------|
| ElevenLabs | Síntesis de voz de alta calidad con selección de voz |
| OpenAI TTS | API de texto a voz de OpenAI |
Preferencias de voz
Selección de voz — Elige entre las voces TTS disponibles
Prompt de sistema personalizado — Sobrescribe la personalidad del agente para el modo de voz
Formato de respuesta personalizado — Controla cómo el agente formatea las respuestas habladas
Soporte de idiomas — Cadenas de voz localizadas para más de 18 idiomasComandos de voz
Detección de múltiples intenciones
Los agentes pueden detectar y ejecutar comandos de voz de múltiples pasos:
> "Crea un evento de calendario para mañana a las 3 PM, luego envía un correo al equipo sobre eso, y publica un recordatorio en Slack"
Esto se analiza automáticamente en una secuencia de comandos, cada uno ejecutado en orden con los resultados fluyendo al siguiente paso.
Ejecución de herramientas
Durante las conversaciones de voz, los agentes pueden ejecutar herramientas igual que en las conversaciones de texto: navegar por la web, ejecutar código, gestionar archivos, controlar dispositivos y más. Los resultados se resumen y se reproducen en voz.
Verificación de veracidad de acciones
El modo de voz incluye validación de que las afirmaciones del agente coinciden con los resultados reales de las herramientas. Si un agente dice "He enviado el correo" pero la herramienta de correo falló, el sistema detecta la discrepancia e informa del resultado real.
Llamadas de voz (Plugin)
El plugin de llamadas de voz agrega soporte de telefonía SIP:
Manejo de llamadas entrantes
Llamadas salientes (dependiente del proveedor)
Audio bidireccional en tiempo real (flujos PCM)
Síntesis TTS inyectada en el audio de la llamadaGestión de cuotas
Los servicios de voz pueden tener cuotas de uso:
Asignación mensual de minutos para TTS + STT
Seguimiento por sesión
Advertencia al 80% de uso
Corte automático en el límite de cuota
View full documentation