Voice - Neotask by Neotask Documentation | Neotask
Sprache
Ueberblick
Open Claw unterstuetzt Sprachinteraktion ueber mehrere Systeme: Aktivierungswort-Erkennung, kontinuierliche Sprachkonversation (Talk-Modus) und Text-to-Speech fuer gesprochene Antworten.
Aktivierungswoerter
Swabble (macOS)
Swabble ist ein nativer macOS-Daemon, der eine stets aktive, geraeteinterne Aktivierungswort-Erkennung mit Apples Speech.framework bietet.
Funktionen:
Nur lokale Verarbeitung -- kein Audio verlaesst Ihr Geraet waehrend der Aktivierungswort-Erkennung
Standard-Aktivierungswort: clawd (mit Alias claude)
Anpassbare Aktivierungswoerter
Kontinuierliche Audioaufnahme und Transkription
Hook-Ausfuehrung -- loest Shell-Befehle aus, wenn das Aktivierungswort erkannt wird
Datei-Transkription -- Audiodateien in Text konvertieren (TXT- oder SRT-Format)
Konfigurierbarer Cooldown, Mindestzeichenanzahl und TimeoutFunktionsweise:
Swabble hoert kontinuierlich ueber das Systemmikrofon
Wenn es das Aktivierungswort in gesprochener Sprache erkennt, erfasst es die folgende Sprache
Der erfasste Text wird ueber einen konfigurierten Hook-Befehl an Ihren Agenten gesendet
Der Agent verarbeitet den Sprachbefehl und antwortetNode-Aktivierungswoerter
Auf iOS- und Android-Begleit-Apps wird die Sprachaktivierung nativ behandelt:
Die Aktivierungswort-Konfiguration wird vom Gateway verwaltet
Nodes erhalten die Aktivierungswort-Konfiguration bei der Verbindung
Die Erkennung verwendet plattformnative SpracherkennungTalk-Modus
Der Talk-Modus ermoeglicht kontinuierliche Sprachgespraeche -- sprechen Sie natuerlich und hoeren Sie die Antwort Ihres Agenten.
Funktionsweise
Speech-to-Text -- Ihre Stimme wird in Echtzeit transkribiert (Deepgram-Streaming oder plattformnatives STT)
Agent-Verarbeitung -- Der transkribierte Text wird als regulaere Nachricht an Ihren Agenten gesendet
Text-to-Speech -- Die Antwort des Agenten wird Ihnen vorgesprochenSprach-Zustandsautomat
Der Talk-Modus wechselt zwischen vier Zustaenden:
| Zustand | Beschreibung |
|---------|-------------|
| Idle | Hoert nicht aktiv zu |
| Listening | Erfasst und transkribiert Ihre Sprache |
| Thinking | Agent verarbeitet Ihre Anfrage |
| Speaking | Agentenantwort wird vorgesprochen |
Text-to-Speech-Anbieter
| Anbieter | Beschreibung |
|----------|-------------|
| ElevenLabs | Hochwertige Sprachsynthese mit Stimmauswahl |
| OpenAI TTS | OpenAIs Text-to-Speech-API |
Spracheinstellungen
Stimmauswahl -- Aus verfuegbaren TTS-Stimmen waehlen
Benutzerdefinierter System-Prompt -- Die Persoenlichkeit des Agenten fuer den Sprachmodus ueberschreiben
Benutzerdefiniertes Antwortformat -- Steuern, wie der Agent gesprochene Antworten formatiert
Sprachunterstuetzung -- Sprachzeichenketten fuer 18+ Sprachen lokalisiertSprachbefehle
Multi-Intent-Erkennung
Agenten koennen mehrstufige Sprachbefehle erkennen und ausfuehren:
> "Erstelle einen Kalendereintrag fuer morgen um 15 Uhr, sende dann eine E-Mail an das Team darueber und poste eine Erinnerung in Slack"
Dies wird automatisch in eine Befehlssequenz zerlegt, wobei jeder Befehl der Reihe nach ausgefuehrt wird und die Ergebnisse in den naechsten Schritt fliessen.
Tool-Ausfuehrung
Waehrend Sprachgespraechen koennen Agenten Tools genau wie in Textgespraechen ausfuehren -- im Web suchen, Code ausfuehren, Dateien verwalten, Geraete steuern und mehr. Ergebnisse werden zusammengefasst und zurueckgesprochen.
Action-Truth-Durchsetzung
Der Sprachmodus beinhaltet eine Validierung, dass die Behauptungen des Agenten mit den tatsaechlichen Tool-Ergebnissen uebereinstimmen. Wenn ein Agent sagt "Ich habe die E-Mail gesendet", aber das E-Mail-Tool fehlgeschlagen ist, erkennt das System die Diskrepanz und meldet das tatsaechliche Ergebnis.
Voice Calling (Plugin)
Das Voice Call-Plugin fuegt SIP-Telefonie-Unterstuetzung hinzu:
Eingehende Anrufbearbeitung
Ausgehende Anrufe (anbieterabhaengig)
Bidirektionales Echtzeit-Audio (PCM-Streams)
TTS-Synthese in den Anruf-Audiostream eingespeistKontingent-Verwaltung
Sprachdienste koennen Nutzungskontingente haben:
Monatliche Minutenzuteilung fuer TTS + STT
Verfolgung pro Session
Warnung bei 80% Nutzung
Automatische Sperrung bei Kontingentlimit
View full documentation