Voice - Neotask by Neotask Documentation | Neotask

Voix

Aperçu

Open Claw prend en charge l'interaction vocale via plusieurs systèmes : détection de mot de réveil, conversation vocale continue (mode conversation) et synthèse vocale pour les réponses parlées.

Mots de réveil

Swabble (macOS)

Swabble est un démon macOS natif qui fournit une détection de mot de réveil toujours active sur l'appareil en utilisant Speech.framework d'Apple.

Fonctionnalités :

  • Traitement local uniquement — aucun audio ne quitte votre appareil pendant la détection du mot de réveil
  • Mot de réveil par défaut : clawd (avec alias claude)
  • Mots de réveil personnalisables
  • Capture et transcription audio continues
  • Exécution de hooks — déclenche des commandes shell lorsque le mot de réveil est détecté
  • Transcription de fichiers — convertir des fichiers audio en texte (format TXT ou SRT)
  • Délai de refroidissement, nombre minimum de caractères et délai d'expiration configurables
  • Fonctionnement :

  • Swabble écoute en continu en utilisant le microphone système
  • Lorsqu'il détecte le mot de réveil dans le texte parlé, il capture la parole suivante
  • Le texte capturé est envoyé à votre agent via une commande hook configurée
  • L'agent traite la commande vocale et répond
  • Mots de réveil sur nœuds

    Sur les applications compagnons iOS et Android, le réveil vocal est géré nativement :

  • La configuration des mots de réveil est gérée par le Gateway
  • Les nœuds reçoivent la configuration des mots de réveil lors de la connexion
  • La détection utilise la reconnaissance vocale native de la plateforme
  • Mode conversation

    Le mode conversation permet des conversations vocales continues — parlez naturellement et écoutez votre agent répondre.

    Fonctionnement

  • Parole vers texte — Votre voix est transcrite en temps réel (streaming Deepgram ou STT natif de la plateforme)
  • Traitement par l'agent — Le texte transcrit est envoyé à votre agent comme un message ordinaire
  • Texte vers parole — La réponse de l'agent vous est lue à voix haute
  • Machine à états vocale

    Le mode conversation passe entre quatre états :

    | État | Description | |------|-------------| | Inactif | Pas d'écoute active | | Écoute | Capture et transcription de votre parole | | Réflexion | L'agent traite votre demande | | Parole | La réponse de l'agent est prononcée |

    Fournisseurs de synthèse vocale

    | Fournisseur | Description | |-------------|-------------| | ElevenLabs | Synthèse vocale de haute qualité avec sélection de voix | | OpenAI TTS | API de synthèse vocale d'OpenAI |

    Préférences vocales

  • Sélection de voix — Choisir parmi les voix TTS disponibles
  • Invite système personnalisée — Remplacer la personnalité de l'agent pour le mode vocal
  • Format de réponse personnalisé — Contrôler comment l'agent formate les réponses parlées
  • Prise en charge des langues — Chaînes vocales localisées pour plus de 18 langues
  • Commandes vocales

    Détection multi-intention

    Les agents peuvent détecter et exécuter des commandes vocales en plusieurs étapes :

    > « Crée un événement de calendrier pour demain à 15h, puis envoie un e-mail à l'équipe à ce sujet, et publie un rappel sur Slack »

    Cela est automatiquement analysé en une séquence de commandes, chacune exécutée dans l'ordre avec les résultats passant à l'étape suivante.

    Exécution d'outils

    Pendant les conversations vocales, les agents peuvent exécuter des outils tout comme dans les conversations textuelles — naviguer sur le web, exécuter du code, gérer des fichiers, contrôler des appareils et plus encore. Les résultats sont résumés et prononcés à voix haute.

    Application de la véracité des actions

    Le mode vocal inclut une validation que les affirmations de l'agent correspondent aux résultats réels des outils. Si un agent dit « J'ai envoyé l'e-mail » mais que l'outil d'e-mail a échoué, le système détecte la divergence et signale le résultat réel.

    Appels vocaux (plugin)

    Le plugin d'appel vocal ajoute la prise en charge de la téléphonie SIP :

  • Gestion des appels entrants
  • Appels sortants (selon le fournisseur)
  • Audio bidirectionnel en temps réel (flux PCM)
  • Synthèse TTS injectée dans l'audio de l'appel
  • Gestion des quotas

    Les services vocaux peuvent avoir des quotas d'utilisation :

  • Allocation mensuelle en minutes pour TTS + STT
  • Suivi par session
  • Avertissement à 80 % d'utilisation
  • Coupure automatique à la limite du quota
  • View full documentation