Voice - Neotask by Neotask Documentation | Neotask
Głos
Przegląd
Open Claw obsługuje interakcję głosową przez wiele systemów: wykrywanie słowa budzącego, ciągłą rozmowę głosową (tryb mówienia) oraz zamianę tekstu na mowę dla wypowiadanych odpowiedzi.
Słowa budzące
Swabble (macOS)
Swabble to natywny daemon macOS, który zapewnia zawsze aktywne, lokalne wykrywanie słów budzących przy użyciu Apple Speech.framework.
Funkcje:
Przetwarzanie wyłącznie lokalne -- żaden dźwięk nie opuszcza Twojego urządzenia podczas wykrywania słowa budzącego
Domyślne słowo budzące: clawd (z aliasem claude)
Konfigurowalne słowa budzące
Ciągłe przechwytywanie i transkrypcja dźwięku
Wykonywanie hooków -- wyzwala polecenia powłoki po wykryciu słowa budzącego
Transkrypcja plików -- konwertuj pliki audio do tekstu (format TXT lub SRT)
Konfigurowalne opóźnienie, minimalna liczba znaków i limit czasuJak to działa:
Swabble stale nasłuchuje przez mikrofon systemowy
Gdy wykryje słowo budzące w mówionym tekście, przechwytuje następującą mowę
Przechwycony tekst jest wysyłany do Twojego agenta za pośrednictwem skonfigurowanego polecenia hook
Agent przetwarza polecenie głosowe i odpowiadaSłowa budzące węzła
W aplikacjach towarzyszących iOS i Android budzenie głosowe jest obsługiwane natywnie:
Konfiguracja słowa budzącego jest zarządzana przez Gateway
Węzły otrzymują konfigurację słów budzących przy połączeniu
Wykrywanie używa natywnego rozpoznawania mowy platformyTryb mówienia
Tryb mówienia umożliwia ciągłe rozmowy głosowe -- mów naturalnie i słuchaj, jak Twój agent odpowiada.
Jak to działa
Zamiana mowy na tekst -- Twój głos jest transkrybowany w czasie rzeczywistym (strumieniowanie Deepgram lub natywne STT platformy)
Przetwarzanie przez agenta -- Transkrybowany tekst jest wysyłany do Twojego agenta jako zwykła wiadomość
Zamiana tekstu na mowę -- Odpowiedź agenta jest głośno czytanaAutomat stanów głosu
Tryb mówienia przechodzi między czterema stanami:
| Stan | Opis |
|------|------|
| Bezczynny | Nie słucha aktywnie |
| Słuchający | Przechwytuje i transkrybuje Twoją mowę |
| Myślący | Agent przetwarza Twoje żądanie |
| Mówiący | Odpowiedź agenta jest odczytywana |
Dostawcy zamiany tekstu na mowę
| Dostawca | Opis |
|----------|------|
| ElevenLabs | Wysokiej jakości synteza głosu z wyborem głosu |
| OpenAI TTS | API zamiany tekstu na mowę OpenAI |
Preferencje głosowe
Wybór głosu -- Wybierz spośród dostępnych głosów TTS
Niestandardowy prompt systemowy -- Zastąp osobowość agenta dla trybu głosowego
Niestandardowy format odpowiedzi -- Kontroluj, jak agent formatuje wypowiadane odpowiedzi
Obsługa języków -- Ciągi głosowe zlokalizowane dla 18+ językówPolecenia głosowe
Wykrywanie wielu intencji
Agenci mogą wykrywać i wykonywać wieloetapowe polecenia głosowe:
> "Utwórz wydarzenie w kalendarzu na jutro o 15:00, następnie wyślij e-mail do zespołu w tej sprawie i opublikuj przypomnienie w Slack"
Jest to automatycznie analizowane jako sekwencja poleceń, z których każde jest wykonywane po kolei, a wyniki są przekazywane do następnego kroku.
Wykonywanie narzędzi
Podczas rozmów głosowych agenci mogą wykonywać narzędzia tak samo jak w rozmowach tekstowych -- przeglądać internet, uruchamiać kod, zarządzać plikami, sterować urządzeniami i nie tylko. Wyniki są podsumowywane i odczytywane głośno.
Egzekwowanie prawdziwości działań
Tryb głosowy obejmuje walidację, która sprawdza, czy twierdzenia agenta odpowiadają rzeczywistym wynikom narzędzi. Jeśli agent powie „Wysłałem e-mail", ale narzędzie e-mail zawiodło, system wykrywa rozbieżność i zgłasza rzeczywisty wynik.
Połączenia głosowe (wtyczka)
Wtyczka Voice Call dodaje obsługę telefonii SIP:
Obsługa połączeń przychodzących
Połączenia wychodzące (zależne od dostawcy)
Dwukierunkowe audio w czasie rzeczywistym (strumienie PCM)
Synteza TTS wstrzykiwana do audio połączeniaZarządzanie limitami
Usługi głosowe mogą mieć limity użytkowania:
Miesięczna alokacja minut dla TTS i STT
Śledzenie na poziomie sesji
Ostrzeżenie przy 80% użycia
Automatyczne odcięcie po osiągnięciu limitu
View full documentation