Voice - Neotask by Neotask Documentation | Neotask

Sprache

Ueberblick

Open Claw unterstuetzt Sprachinteraktion ueber mehrere Systeme: Aktivierungswort-Erkennung, kontinuierliche Sprachkonversation (Talk-Modus) und Text-to-Speech fuer gesprochene Antworten.

Aktivierungswoerter

Swabble (macOS)

Swabble ist ein nativer macOS-Daemon, der eine stets aktive, geraeteinterne Aktivierungswort-Erkennung mit Apples Speech.framework bietet.

Funktionen:

  • Nur lokale Verarbeitung -- kein Audio verlaesst Ihr Geraet waehrend der Aktivierungswort-Erkennung
  • Standard-Aktivierungswort: clawd (mit Alias claude)
  • Anpassbare Aktivierungswoerter
  • Kontinuierliche Audioaufnahme und Transkription
  • Hook-Ausfuehrung -- loest Shell-Befehle aus, wenn das Aktivierungswort erkannt wird
  • Datei-Transkription -- Audiodateien in Text konvertieren (TXT- oder SRT-Format)
  • Konfigurierbarer Cooldown, Mindestzeichenanzahl und Timeout
  • Funktionsweise:

  • Swabble hoert kontinuierlich ueber das Systemmikrofon
  • Wenn es das Aktivierungswort in gesprochener Sprache erkennt, erfasst es die folgende Sprache
  • Der erfasste Text wird ueber einen konfigurierten Hook-Befehl an Ihren Agenten gesendet
  • Der Agent verarbeitet den Sprachbefehl und antwortet
  • Node-Aktivierungswoerter

    Auf iOS- und Android-Begleit-Apps wird die Sprachaktivierung nativ behandelt:

  • Die Aktivierungswort-Konfiguration wird vom Gateway verwaltet
  • Nodes erhalten die Aktivierungswort-Konfiguration bei der Verbindung
  • Die Erkennung verwendet plattformnative Spracherkennung
  • Talk-Modus

    Der Talk-Modus ermoeglicht kontinuierliche Sprachgespraeche -- sprechen Sie natuerlich und hoeren Sie die Antwort Ihres Agenten.

    Funktionsweise

  • Speech-to-Text -- Ihre Stimme wird in Echtzeit transkribiert (Deepgram-Streaming oder plattformnatives STT)
  • Agent-Verarbeitung -- Der transkribierte Text wird als regulaere Nachricht an Ihren Agenten gesendet
  • Text-to-Speech -- Die Antwort des Agenten wird Ihnen vorgesprochen
  • Sprach-Zustandsautomat

    Der Talk-Modus wechselt zwischen vier Zustaenden:

    | Zustand | Beschreibung | |---------|-------------| | Idle | Hoert nicht aktiv zu | | Listening | Erfasst und transkribiert Ihre Sprache | | Thinking | Agent verarbeitet Ihre Anfrage | | Speaking | Agentenantwort wird vorgesprochen |

    Text-to-Speech-Anbieter

    | Anbieter | Beschreibung | |----------|-------------| | ElevenLabs | Hochwertige Sprachsynthese mit Stimmauswahl | | OpenAI TTS | OpenAIs Text-to-Speech-API |

    Spracheinstellungen

  • Stimmauswahl -- Aus verfuegbaren TTS-Stimmen waehlen
  • Benutzerdefinierter System-Prompt -- Die Persoenlichkeit des Agenten fuer den Sprachmodus ueberschreiben
  • Benutzerdefiniertes Antwortformat -- Steuern, wie der Agent gesprochene Antworten formatiert
  • Sprachunterstuetzung -- Sprachzeichenketten fuer 18+ Sprachen lokalisiert
  • Sprachbefehle

    Multi-Intent-Erkennung

    Agenten koennen mehrstufige Sprachbefehle erkennen und ausfuehren:

    > "Erstelle einen Kalendereintrag fuer morgen um 15 Uhr, sende dann eine E-Mail an das Team darueber und poste eine Erinnerung in Slack"

    Dies wird automatisch in eine Befehlssequenz zerlegt, wobei jeder Befehl der Reihe nach ausgefuehrt wird und die Ergebnisse in den naechsten Schritt fliessen.

    Tool-Ausfuehrung

    Waehrend Sprachgespraechen koennen Agenten Tools genau wie in Textgespraechen ausfuehren -- im Web suchen, Code ausfuehren, Dateien verwalten, Geraete steuern und mehr. Ergebnisse werden zusammengefasst und zurueckgesprochen.

    Action-Truth-Durchsetzung

    Der Sprachmodus beinhaltet eine Validierung, dass die Behauptungen des Agenten mit den tatsaechlichen Tool-Ergebnissen uebereinstimmen. Wenn ein Agent sagt "Ich habe die E-Mail gesendet", aber das E-Mail-Tool fehlgeschlagen ist, erkennt das System die Diskrepanz und meldet das tatsaechliche Ergebnis.

    Voice Calling (Plugin)

    Das Voice Call-Plugin fuegt SIP-Telefonie-Unterstuetzung hinzu:

  • Eingehende Anrufbearbeitung
  • Ausgehende Anrufe (anbieterabhaengig)
  • Bidirektionales Echtzeit-Audio (PCM-Streams)
  • TTS-Synthese in den Anruf-Audiostream eingespeist
  • Kontingent-Verwaltung

    Sprachdienste koennen Nutzungskontingente haben:

  • Monatliche Minutenzuteilung fuer TTS + STT
  • Verfolgung pro Session
  • Warnung bei 80% Nutzung
  • Automatische Sperrung bei Kontingentlimit
  • View full documentation