Voice - Neotask by Neotask Documentation | Neotask
Voix
Aperçu
Open Claw prend en charge l'interaction vocale via plusieurs systèmes : détection de mot de réveil, conversation vocale continue (mode conversation) et synthèse vocale pour les réponses parlées.
Mots de réveil
Swabble (macOS)
Swabble est un démon macOS natif qui fournit une détection de mot de réveil toujours active sur l'appareil en utilisant Speech.framework d'Apple.
Fonctionnalités :
Traitement local uniquement — aucun audio ne quitte votre appareil pendant la détection du mot de réveil
Mot de réveil par défaut : clawd (avec alias claude)
Mots de réveil personnalisables
Capture et transcription audio continues
Exécution de hooks — déclenche des commandes shell lorsque le mot de réveil est détecté
Transcription de fichiers — convertir des fichiers audio en texte (format TXT ou SRT)
Délai de refroidissement, nombre minimum de caractères et délai d'expiration configurablesFonctionnement :
Swabble écoute en continu en utilisant le microphone système
Lorsqu'il détecte le mot de réveil dans le texte parlé, il capture la parole suivante
Le texte capturé est envoyé à votre agent via une commande hook configurée
L'agent traite la commande vocale et répondMots de réveil sur nœuds
Sur les applications compagnons iOS et Android, le réveil vocal est géré nativement :
La configuration des mots de réveil est gérée par le Gateway
Les nœuds reçoivent la configuration des mots de réveil lors de la connexion
La détection utilise la reconnaissance vocale native de la plateformeMode conversation
Le mode conversation permet des conversations vocales continues — parlez naturellement et écoutez votre agent répondre.
Fonctionnement
Parole vers texte — Votre voix est transcrite en temps réel (streaming Deepgram ou STT natif de la plateforme)
Traitement par l'agent — Le texte transcrit est envoyé à votre agent comme un message ordinaire
Texte vers parole — La réponse de l'agent vous est lue à voix hauteMachine à états vocale
Le mode conversation passe entre quatre états :
| État | Description |
|------|-------------|
| Inactif | Pas d'écoute active |
| Écoute | Capture et transcription de votre parole |
| Réflexion | L'agent traite votre demande |
| Parole | La réponse de l'agent est prononcée |
Fournisseurs de synthèse vocale
| Fournisseur | Description |
|-------------|-------------|
| ElevenLabs | Synthèse vocale de haute qualité avec sélection de voix |
| OpenAI TTS | API de synthèse vocale d'OpenAI |
Préférences vocales
Sélection de voix — Choisir parmi les voix TTS disponibles
Invite système personnalisée — Remplacer la personnalité de l'agent pour le mode vocal
Format de réponse personnalisé — Contrôler comment l'agent formate les réponses parlées
Prise en charge des langues — Chaînes vocales localisées pour plus de 18 languesCommandes vocales
Détection multi-intention
Les agents peuvent détecter et exécuter des commandes vocales en plusieurs étapes :
> « Crée un événement de calendrier pour demain à 15h, puis envoie un e-mail à l'équipe à ce sujet, et publie un rappel sur Slack »
Cela est automatiquement analysé en une séquence de commandes, chacune exécutée dans l'ordre avec les résultats passant à l'étape suivante.
Exécution d'outils
Pendant les conversations vocales, les agents peuvent exécuter des outils tout comme dans les conversations textuelles — naviguer sur le web, exécuter du code, gérer des fichiers, contrôler des appareils et plus encore. Les résultats sont résumés et prononcés à voix haute.
Application de la véracité des actions
Le mode vocal inclut une validation que les affirmations de l'agent correspondent aux résultats réels des outils. Si un agent dit « J'ai envoyé l'e-mail » mais que l'outil d'e-mail a échoué, le système détecte la divergence et signale le résultat réel.
Appels vocaux (plugin)
Le plugin d'appel vocal ajoute la prise en charge de la téléphonie SIP :
Gestion des appels entrants
Appels sortants (selon le fournisseur)
Audio bidirectionnel en temps réel (flux PCM)
Synthèse TTS injectée dans l'audio de l'appelGestion des quotas
Les services vocaux peuvent avoir des quotas d'utilisation :
Allocation mensuelle en minutes pour TTS + STT
Suivi par session
Avertissement à 80 % d'utilisation
Coupure automatique à la limite du quota
View full documentation