Voice - Neotask by Neotask Documentation | Neotask

Głos

Przegląd

Open Claw obsługuje interakcję głosową przez wiele systemów: wykrywanie słowa budzącego, ciągłą rozmowę głosową (tryb mówienia) oraz zamianę tekstu na mowę dla wypowiadanych odpowiedzi.

Słowa budzące

Swabble (macOS)

Swabble to natywny daemon macOS, który zapewnia zawsze aktywne, lokalne wykrywanie słów budzących przy użyciu Apple Speech.framework.

Funkcje:

  • Przetwarzanie wyłącznie lokalne -- żaden dźwięk nie opuszcza Twojego urządzenia podczas wykrywania słowa budzącego
  • Domyślne słowo budzące: clawd (z aliasem claude)
  • Konfigurowalne słowa budzące
  • Ciągłe przechwytywanie i transkrypcja dźwięku
  • Wykonywanie hooków -- wyzwala polecenia powłoki po wykryciu słowa budzącego
  • Transkrypcja plików -- konwertuj pliki audio do tekstu (format TXT lub SRT)
  • Konfigurowalne opóźnienie, minimalna liczba znaków i limit czasu
  • Jak to działa:

  • Swabble stale nasłuchuje przez mikrofon systemowy
  • Gdy wykryje słowo budzące w mówionym tekście, przechwytuje następującą mowę
  • Przechwycony tekst jest wysyłany do Twojego agenta za pośrednictwem skonfigurowanego polecenia hook
  • Agent przetwarza polecenie głosowe i odpowiada
  • Słowa budzące węzła

    W aplikacjach towarzyszących iOS i Android budzenie głosowe jest obsługiwane natywnie:

  • Konfiguracja słowa budzącego jest zarządzana przez Gateway
  • Węzły otrzymują konfigurację słów budzących przy połączeniu
  • Wykrywanie używa natywnego rozpoznawania mowy platformy
  • Tryb mówienia

    Tryb mówienia umożliwia ciągłe rozmowy głosowe -- mów naturalnie i słuchaj, jak Twój agent odpowiada.

    Jak to działa

  • Zamiana mowy na tekst -- Twój głos jest transkrybowany w czasie rzeczywistym (strumieniowanie Deepgram lub natywne STT platformy)
  • Przetwarzanie przez agenta -- Transkrybowany tekst jest wysyłany do Twojego agenta jako zwykła wiadomość
  • Zamiana tekstu na mowę -- Odpowiedź agenta jest głośno czytana
  • Automat stanów głosu

    Tryb mówienia przechodzi między czterema stanami:

    | Stan | Opis | |------|------| | Bezczynny | Nie słucha aktywnie | | Słuchający | Przechwytuje i transkrybuje Twoją mowę | | Myślący | Agent przetwarza Twoje żądanie | | Mówiący | Odpowiedź agenta jest odczytywana |

    Dostawcy zamiany tekstu na mowę

    | Dostawca | Opis | |----------|------| | ElevenLabs | Wysokiej jakości synteza głosu z wyborem głosu | | OpenAI TTS | API zamiany tekstu na mowę OpenAI |

    Preferencje głosowe

  • Wybór głosu -- Wybierz spośród dostępnych głosów TTS
  • Niestandardowy prompt systemowy -- Zastąp osobowość agenta dla trybu głosowego
  • Niestandardowy format odpowiedzi -- Kontroluj, jak agent formatuje wypowiadane odpowiedzi
  • Obsługa języków -- Ciągi głosowe zlokalizowane dla 18+ języków
  • Polecenia głosowe

    Wykrywanie wielu intencji

    Agenci mogą wykrywać i wykonywać wieloetapowe polecenia głosowe:

    > "Utwórz wydarzenie w kalendarzu na jutro o 15:00, następnie wyślij e-mail do zespołu w tej sprawie i opublikuj przypomnienie w Slack"

    Jest to automatycznie analizowane jako sekwencja poleceń, z których każde jest wykonywane po kolei, a wyniki są przekazywane do następnego kroku.

    Wykonywanie narzędzi

    Podczas rozmów głosowych agenci mogą wykonywać narzędzia tak samo jak w rozmowach tekstowych -- przeglądać internet, uruchamiać kod, zarządzać plikami, sterować urządzeniami i nie tylko. Wyniki są podsumowywane i odczytywane głośno.

    Egzekwowanie prawdziwości działań

    Tryb głosowy obejmuje walidację, która sprawdza, czy twierdzenia agenta odpowiadają rzeczywistym wynikom narzędzi. Jeśli agent powie „Wysłałem e-mail", ale narzędzie e-mail zawiodło, system wykrywa rozbieżność i zgłasza rzeczywisty wynik.

    Połączenia głosowe (wtyczka)

    Wtyczka Voice Call dodaje obsługę telefonii SIP:

  • Obsługa połączeń przychodzących
  • Połączenia wychodzące (zależne od dostawcy)
  • Dwukierunkowe audio w czasie rzeczywistym (strumienie PCM)
  • Synteza TTS wstrzykiwana do audio połączenia
  • Zarządzanie limitami

    Usługi głosowe mogą mieć limity użytkowania:

  • Miesięczna alokacja minut dla TTS i STT
  • Śledzenie na poziomie sesji
  • Ostrzeżenie przy 80% użycia
  • Automatyczne odcięcie po osiągnięciu limitu
  • View full documentation