Voice - Neotask by Neotask Documentation | Neotask

Voix

Aperçu

Open Claw prend en charge l'interaction vocale via plusieurs systèmes : détection de mot de réveil, conversation vocale continue (mode conversation) et synthèse vocale pour les réponses parlées.

Mots de réveil

Swabble (macOS)

Swabble est un démon macOS natif qui fournit une détection de mot de réveil toujours active sur l'appareil en utilisant Speech.framework d'Apple.

Fonctionnalités :

Traitement local uniquement — aucun audio ne quitte votre appareil pendant la détection du mot de réveil

Mot de réveil par défaut : clawd (avec alias claude)

Mots de réveil personnalisables

Capture et transcription audio continues

Exécution de hooks — déclenche des commandes shell lorsque le mot de réveil est détecté

Transcription de fichiers — convertir des fichiers audio en texte (format TXT ou SRT)

Délai de refroidissement, nombre minimum de caractères et délai d'expiration configurables

Fonctionnement :

Swabble écoute en continu en utilisant le microphone système

Lorsqu'il détecte le mot de réveil dans le texte parlé, il capture la parole suivante

Le texte capturé est envoyé à votre agent via une commande hook configurée

L'agent traite la commande vocale et répond

Mots de réveil sur nœuds

Sur les applications compagnons iOS et Android, le réveil vocal est géré nativement :

La configuration des mots de réveil est gérée par le Gateway

Les nœuds reçoivent la configuration des mots de réveil lors de la connexion

La détection utilise la reconnaissance vocale native de la plateforme

Mode conversation

Le mode conversation permet des conversations vocales continues — parlez naturellement et écoutez votre agent répondre.

Fonctionnement

Parole vers texte — Votre voix est transcrite en temps réel (streaming Deepgram ou STT natif de la plateforme)

Traitement par l'agent — Le texte transcrit est envoyé à votre agent comme un message ordinaire

Texte vers parole — La réponse de l'agent vous est lue à voix haute

Machine à états vocale

Le mode conversation passe entre quatre états :

| État | Description | |------|-------------| | Inactif | Pas d'écoute active | | Écoute | Capture et transcription de votre parole | | Réflexion | L'agent traite votre demande | | Parole | La réponse de l'agent est prononcée |

Fournisseurs de synthèse vocale

| Fournisseur | Description | |-------------|-------------| | ElevenLabs | Synthèse vocale de haute qualité avec sélection de voix | | OpenAI TTS | API de synthèse vocale d'OpenAI |

Préférences vocales

Sélection de voix — Choisir parmi les voix TTS disponibles

Invite système personnalisée — Remplacer la personnalité de l'agent pour le mode vocal

Format de réponse personnalisé — Contrôler comment l'agent formate les réponses parlées

Prise en charge des langues — Chaînes vocales localisées pour plus de 18 langues

Commandes vocales

Détection multi-intention

Les agents peuvent détecter et exécuter des commandes vocales en plusieurs étapes :

> « Crée un événement de calendrier pour demain à 15h, puis envoie un e-mail à l'équipe à ce sujet, et publie un rappel sur Slack »

Cela est automatiquement analysé en une séquence de commandes, chacune exécutée dans l'ordre avec les résultats passant à l'étape suivante.

Exécution d'outils

Pendant les conversations vocales, les agents peuvent exécuter des outils tout comme dans les conversations textuelles — naviguer sur le web, exécuter du code, gérer des fichiers, contrôler des appareils et plus encore. Les résultats sont résumés et prononcés à voix haute.

Application de la véracité des actions

Le mode vocal inclut une validation que les affirmations de l'agent correspondent aux résultats réels des outils. Si un agent dit « J'ai envoyé l'e-mail » mais que l'outil d'e-mail a échoué, le système détecte la divergence et signale le résultat réel.

Appels vocaux (plugin)

Le plugin d'appel vocal ajoute la prise en charge de la téléphonie SIP :

Gestion des appels entrants

Appels sortants (selon le fournisseur)

Audio bidirectionnel en temps réel (flux PCM)

Synthèse TTS injectée dans l'audio de l'appel

Gestion des quotas

Les services vocaux peuvent avoir des quotas d'utilisation :

Allocation mensuelle en minutes pour TTS + STT

Suivi par session

Avertissement à 80 % d'utilisation

Coupure automatique à la limite du quota

View full documentation