Voice - Neotask by Neotask Documentation | Neotask
Spraak
Overzicht
Open Claw ondersteunt spraakinteractie via meerdere systemen: wake word-detectie, continu spraakgesprek (gespreksmodus) en tekst-naar-spraak voor gesproken antwoorden.
Wake words
Swabble (macOS)
Swabble is een native macOS-daemon die altijd-aan, on-device wake word-detectie biedt met behulp van Apple's Speech.framework.
Functies:
Alleen lokale verwerking — geen audio verlaat uw apparaat tijdens wake word-detectie
Standaard wake word: clawd (met alias claude)
Aanpasbare wake words
Continu audioopname en transcriptie
Hook-uitvoering — activeert shellopdrachten wanneer het wake word wordt gedetecteerd
Bestandstranscriptie — audiobestanden converteren naar tekst (TXT- of SRT-formaat)
Configureerbare cooldown, minimaal aantal tekens en time-outHoe het werkt:
Swabble luistert continu via de systeemmicrofoon
Wanneer het het wake word in gesproken tekst detecteert, legt het de volgende spraak vast
De vastgelegde tekst wordt via een geconfigureerde hookopdracht naar uw agent gestuurd
De agent verwerkt de spraakopdracht en antwoordtNode wake words
Op iOS- en Android-companion-apps wordt spraakactivering native afgehandeld:
Wake word-configuratie is eigendom van de Gateway
Nodes ontvangen wake word-configuratie bij verbinding
Detectie maakt gebruik van platform-native spraakherkenningGespreksmodus
Gespreksmodus maakt continue spraakgesprekken mogelijk — spreek natuurlijk en hoor uw agent antwoorden.
Hoe het werkt
Spraak-naar-tekst — Uw stem wordt in real time getranscribeerd (Deepgram streaming of platform-native STT)
Agentverwerking — De getranscribeerde tekst wordt als een normaal bericht naar uw agent gestuurd
Tekst-naar-spraak — Het antwoord van de agent wordt aan u voorgelezenSpraaktoestandsmachine
Gespreksmodus schakelt tussen vier toestanden:
| Toestand | Beschrijving |
|-------|-------------|
| Inactief | Luistert niet actief |
| Luisteren | Vastleggen en transcriberen van uw spraak |
| Denken | Agent verwerkt uw verzoek |
| Spreken | Agentantwoord wordt uitgesproken |
Tekst-naar-spraak-providers
| Provider | Beschrijving |
|----------|-------------|
| ElevenLabs | Hoogwaardige spraaksynthese met stemselectie |
| OpenAI TTS | OpenAI's tekst-naar-spraak-API |
Spraakvoorkeuren
Stemselectie — Kiezen uit beschikbare TTS-stemmen
Aangepaste systeemprompt — De persoonlijkheid van de agent overschrijven voor spraakmodis
Aangepast antwoordformaat — Bepalen hoe de agent gesproken antwoorden opmaakt
Taalondersteuning — Spraakreeksen gelokaliseerd voor 18+ talenSpraakopdrachten
Multi-intent-detectie
Agents kunnen meerstapige spraakopdrachten detecteren en uitvoeren:
> "Maak een agendaafspraak voor morgen om 15:00 uur, stuur dan een e-mail naar het team daarover en post een herinnering in Slack"
Dit wordt automatisch geparseerd in een reeks opdrachten, elk uitgevoerd in volgorde met de resultaten die naar de volgende stap stromen.
Tooluitvoering
Tijdens spraakgesprekken kunnen agents tools uitvoeren net als in tekstgesprekken — het web browsen, code uitvoeren, bestanden beheren, apparaten bedienen en meer. Resultaten worden samengevat en uitgesproken.
Actiewaarheidshandhaving
Spraakmodis bevat validatie dat agentclaims overeenkomen met werkelijke toolresultaten. Als een agent zegt "Ik heb de e-mail verstuurd" maar de e-mailtool mislukt, vangt het systeem de discrepantie op en rapporteert het werkelijke resultaat.
Spraakoproepen (plugin)
De Voice Call-plugin voegt SIP-telefonie-ondersteuning toe:
Afhandeling van inkomende oproepen
Uitgaande oproepen (providerafhankelijk)
Bidirectionele real-time audio (PCM-streams)
TTS-synthese ingespoten in de oproepudioQuotabeheer
Spraakdiensten kunnen gebruiksquota hebben:
Maandelijkse minutentoewijzing voor TTS + STT
Bijhouding per sessie
Waarschuwing bij 80% gebruik
Automatische afsluiting bij quotalimiet
View full documentation