Voice - Neotask by Neotask Documentation | Neotask

Spraak

Overzicht

Open Claw ondersteunt spraakinteractie via meerdere systemen: wake word-detectie, continu spraakgesprek (gespreksmodus) en tekst-naar-spraak voor gesproken antwoorden.

Wake words

Swabble (macOS)

Swabble is een native macOS-daemon die altijd-aan, on-device wake word-detectie biedt met behulp van Apple's Speech.framework.

Functies:

Alleen lokale verwerking — geen audio verlaat uw apparaat tijdens wake word-detectie

Standaard wake word: clawd (met alias claude)

Aanpasbare wake words

Continu audioopname en transcriptie

Hook-uitvoering — activeert shellopdrachten wanneer het wake word wordt gedetecteerd

Bestandstranscriptie — audiobestanden converteren naar tekst (TXT- of SRT-formaat)

Configureerbare cooldown, minimaal aantal tekens en time-out

Hoe het werkt:

Swabble luistert continu via de systeemmicrofoon

Wanneer het het wake word in gesproken tekst detecteert, legt het de volgende spraak vast

De vastgelegde tekst wordt via een geconfigureerde hookopdracht naar uw agent gestuurd

De agent verwerkt de spraakopdracht en antwoordt

Node wake words

Op iOS- en Android-companion-apps wordt spraakactivering native afgehandeld:

Wake word-configuratie is eigendom van de Gateway

Nodes ontvangen wake word-configuratie bij verbinding

Detectie maakt gebruik van platform-native spraakherkenning

Gespreksmodus

Gespreksmodus maakt continue spraakgesprekken mogelijk — spreek natuurlijk en hoor uw agent antwoorden.

Hoe het werkt

Spraak-naar-tekst — Uw stem wordt in real time getranscribeerd (Deepgram streaming of platform-native STT)

Agentverwerking — De getranscribeerde tekst wordt als een normaal bericht naar uw agent gestuurd

Tekst-naar-spraak — Het antwoord van de agent wordt aan u voorgelezen

Spraaktoestandsmachine

Gespreksmodus schakelt tussen vier toestanden:

| Toestand | Beschrijving | |-------|-------------| | Inactief | Luistert niet actief | | Luisteren | Vastleggen en transcriberen van uw spraak | | Denken | Agent verwerkt uw verzoek | | Spreken | Agentantwoord wordt uitgesproken |

Tekst-naar-spraak-providers

| Provider | Beschrijving | |----------|-------------| | ElevenLabs | Hoogwaardige spraaksynthese met stemselectie | | OpenAI TTS | OpenAI's tekst-naar-spraak-API |

Spraakvoorkeuren

Stemselectie — Kiezen uit beschikbare TTS-stemmen

Aangepaste systeemprompt — De persoonlijkheid van de agent overschrijven voor spraakmodis

Aangepast antwoordformaat — Bepalen hoe de agent gesproken antwoorden opmaakt

Taalondersteuning — Spraakreeksen gelokaliseerd voor 18+ talen

Spraakopdrachten

Multi-intent-detectie

Agents kunnen meerstapige spraakopdrachten detecteren en uitvoeren:

> "Maak een agendaafspraak voor morgen om 15:00 uur, stuur dan een e-mail naar het team daarover en post een herinnering in Slack"

Dit wordt automatisch geparseerd in een reeks opdrachten, elk uitgevoerd in volgorde met de resultaten die naar de volgende stap stromen.

Tooluitvoering

Tijdens spraakgesprekken kunnen agents tools uitvoeren net als in tekstgesprekken — het web browsen, code uitvoeren, bestanden beheren, apparaten bedienen en meer. Resultaten worden samengevat en uitgesproken.

Actiewaarheidshandhaving

Spraakmodis bevat validatie dat agentclaims overeenkomen met werkelijke toolresultaten. Als een agent zegt "Ik heb de e-mail verstuurd" maar de e-mailtool mislukt, vangt het systeem de discrepantie op en rapporteert het werkelijke resultaat.

Spraakoproepen (plugin)

De Voice Call-plugin voegt SIP-telefonie-ondersteuning toe:

Afhandeling van inkomende oproepen

Uitgaande oproepen (providerafhankelijk)

Bidirectionele real-time audio (PCM-streams)

TTS-synthese ingespoten in de oproepudio

Quotabeheer

Spraakdiensten kunnen gebruiksquota hebben:

Maandelijkse minutentoewijzing voor TTS + STT

Bijhouding per sessie

Waarschuwing bij 80% gebruik

Automatische afsluiting bij quotalimiet

View full documentation