Voice - Neotask by Neotask Documentation | Neotask

Sprache

Ueberblick

Open Claw unterstuetzt Sprachinteraktion ueber mehrere Systeme: Aktivierungswort-Erkennung, kontinuierliche Sprachkonversation (Talk-Modus) und Text-to-Speech fuer gesprochene Antworten.

Aktivierungswoerter

Swabble (macOS)

Swabble ist ein nativer macOS-Daemon, der eine stets aktive, geraeteinterne Aktivierungswort-Erkennung mit Apples Speech.framework bietet.

Funktionen:

Nur lokale Verarbeitung -- kein Audio verlaesst Ihr Geraet waehrend der Aktivierungswort-Erkennung

Standard-Aktivierungswort: clawd (mit Alias claude)

Anpassbare Aktivierungswoerter

Kontinuierliche Audioaufnahme und Transkription

Hook-Ausfuehrung -- loest Shell-Befehle aus, wenn das Aktivierungswort erkannt wird

Datei-Transkription -- Audiodateien in Text konvertieren (TXT- oder SRT-Format)

Konfigurierbarer Cooldown, Mindestzeichenanzahl und Timeout

Funktionsweise:

Swabble hoert kontinuierlich ueber das Systemmikrofon

Wenn es das Aktivierungswort in gesprochener Sprache erkennt, erfasst es die folgende Sprache

Der erfasste Text wird ueber einen konfigurierten Hook-Befehl an Ihren Agenten gesendet

Der Agent verarbeitet den Sprachbefehl und antwortet

Node-Aktivierungswoerter

Auf iOS- und Android-Begleit-Apps wird die Sprachaktivierung nativ behandelt:

Die Aktivierungswort-Konfiguration wird vom Gateway verwaltet

Nodes erhalten die Aktivierungswort-Konfiguration bei der Verbindung

Die Erkennung verwendet plattformnative Spracherkennung

Talk-Modus

Der Talk-Modus ermoeglicht kontinuierliche Sprachgespraeche -- sprechen Sie natuerlich und hoeren Sie die Antwort Ihres Agenten.

Funktionsweise

Speech-to-Text -- Ihre Stimme wird in Echtzeit transkribiert (Deepgram-Streaming oder plattformnatives STT)

Agent-Verarbeitung -- Der transkribierte Text wird als regulaere Nachricht an Ihren Agenten gesendet

Text-to-Speech -- Die Antwort des Agenten wird Ihnen vorgesprochen

Sprach-Zustandsautomat

Der Talk-Modus wechselt zwischen vier Zustaenden:

| Zustand | Beschreibung | |---------|-------------| | Idle | Hoert nicht aktiv zu | | Listening | Erfasst und transkribiert Ihre Sprache | | Thinking | Agent verarbeitet Ihre Anfrage | | Speaking | Agentenantwort wird vorgesprochen |

Text-to-Speech-Anbieter

| Anbieter | Beschreibung | |----------|-------------| | ElevenLabs | Hochwertige Sprachsynthese mit Stimmauswahl | | OpenAI TTS | OpenAIs Text-to-Speech-API |

Spracheinstellungen

Stimmauswahl -- Aus verfuegbaren TTS-Stimmen waehlen

Benutzerdefinierter System-Prompt -- Die Persoenlichkeit des Agenten fuer den Sprachmodus ueberschreiben

Benutzerdefiniertes Antwortformat -- Steuern, wie der Agent gesprochene Antworten formatiert

Sprachunterstuetzung -- Sprachzeichenketten fuer 18+ Sprachen lokalisiert

Sprachbefehle

Multi-Intent-Erkennung

Agenten koennen mehrstufige Sprachbefehle erkennen und ausfuehren:

> "Erstelle einen Kalendereintrag fuer morgen um 15 Uhr, sende dann eine E-Mail an das Team darueber und poste eine Erinnerung in Slack"

Dies wird automatisch in eine Befehlssequenz zerlegt, wobei jeder Befehl der Reihe nach ausgefuehrt wird und die Ergebnisse in den naechsten Schritt fliessen.

Tool-Ausfuehrung

Waehrend Sprachgespraechen koennen Agenten Tools genau wie in Textgespraechen ausfuehren -- im Web suchen, Code ausfuehren, Dateien verwalten, Geraete steuern und mehr. Ergebnisse werden zusammengefasst und zurueckgesprochen.

Action-Truth-Durchsetzung

Der Sprachmodus beinhaltet eine Validierung, dass die Behauptungen des Agenten mit den tatsaechlichen Tool-Ergebnissen uebereinstimmen. Wenn ein Agent sagt "Ich habe die E-Mail gesendet", aber das E-Mail-Tool fehlgeschlagen ist, erkennt das System die Diskrepanz und meldet das tatsaechliche Ergebnis.

Voice Calling (Plugin)

Das Voice Call-Plugin fuegt SIP-Telefonie-Unterstuetzung hinzu:

Eingehende Anrufbearbeitung

Ausgehende Anrufe (anbieterabhaengig)

Bidirektionales Echtzeit-Audio (PCM-Streams)

TTS-Synthese in den Anruf-Audiostream eingespeist

Kontingent-Verwaltung

Sprachdienste koennen Nutzungskontingente haben:

Monatliche Minutenzuteilung fuer TTS + STT

Verfolgung pro Session

Warnung bei 80% Nutzung

Automatische Sperrung bei Kontingentlimit

View full documentation