Voice - Neotask by Neotask Documentation | Neotask

Röst

Översikt

Open Claw stöder röstinteraktion via flera system: vakningsordsdetektering, kontinuerliga röstkonversationer (talläge) och text-till-tal för talade svar.

Vakningsord

Swabble (macOS)

Swabble är en inbyggd macOS-demon som tillhandahåller alltid-aktiverad, lokal vakningsordsdetektering via Apples Speech.framework.

Funktioner:

  • Lokal bearbetning enbart — inget ljud lämnar din enhet under vakningsordsdetektering
  • Standard vakningsord: clawd (med alias claude)
  • Anpassningsbara vakningsord
  • Kontinuerlig ljudfångst och transkription
  • Krokoköring — utlöser skalkommandon när vakningsordet detekteras
  • Filtranskription — konvertera ljudfiler till text (TXT- eller SRT-format)
  • Konfigurerbar nedkylning, minsta teckenantal och tidsgräns
  • Hur det fungerar:

  • Swabble lyssnar kontinuerligt med hjälp av systemmikrofonen
  • När det detekterar vakningsordet i talad text fångar det efterföljande tal
  • Den fångade texten skickas till din agent via ett konfigurerat krokokommando
  • Agenten bearbetar röstkommandot och svarar
  • Nodvakningsord

    På iOS- och Android-följappar hanteras röstvakningsord inbyggt:

  • Vakningordskonfiguration ägs av Gateway
  • Noder tar emot vakningordskonfiguration vid anslutning
  • Detektering använder plattformsinbyggd taligenkänning
  • Talläge

    Talläget möjliggör kontinuerliga röstkonversationer — tala naturligt och hör din agent svara.

    Hur det fungerar

  • Tal till text — Din röst transkriberas i realtid (Deepgram-strömning eller plattformsinbyggd STT)
  • Agentbearbetning — Den transkriberade texten skickas till din agent som ett vanligt meddelande
  • Text till tal — Agentens svar talas upp för dig
  • Röststatus-maskin

    Talläget övergår mellan fyra tillstånd:

    | Tillstånd | Beskrivning | |-------|-------------| | Inaktiv | Lyssnar inte aktivt | | Lyssnar | Fångar och transkriberar ditt tal | | Tänker | Agenten bearbetar din begäran | | Talar — | Agentsvarets talas upp |

    Text-till-tal-leverantörer

    | Leverantör | Beskrivning | |----------|-------------| | ElevenLabs | Högkvalitativ röstsyntes med röstval | | OpenAI TTS | OpenAIs text-till-tal-API |

    Röstpreferenser

  • Röstval — Välj bland tillgängliga TTS-röster
  • Anpassad systemprompt — Åsidosätt agentens personlighet för röstläge
  • Anpassat svarsformat — Styr hur agenten formaterar talade svar
  • Språkstöd — Röststrängar lokaliserade för 18+ språk
  • Röstkommandon

    Flerintentionsdetektering

    Agenter kan detektera och köra flerstegsröstkommandon:

    > "Create a calendar event for tomorrow at 3 PM, then send an email to the team about it, and post a reminder in Slack"

    Detta parsas automatiskt till en sekvens av kommandon, var och en körd i ordning med resultaten som flödar till nästa steg.

    Verktygsexekvering

    Under röstkonversationer kan agenter köra verktyg precis som i textkonversationer — surfa på webben, kör kod, hantera filer, styr enheter och mer. Resultaten sammanfattas och talas upp.

    Handlingssanningskontroll

    Röstläget inkluderar validering att agentpåståenden matchar faktiska verktygsutfall. Om en agent säger "Jag har skickat e-postmeddelandet" men e-postverktyget misslyckades fångar systemet avvikelsen och rapporterar det faktiska resultatet.

    Röstsamtal (Plug-in)

    Röstsamtal-plug-inet lägger till SIP-telefonistöd:

  • Hantering av inkommande samtal
  • Utgående samtal (leverantörsberoende)
  • Realtids dubbelriktad ljud (PCM-strömmar)
  • TTS-syntes injicerad i samtalsljudet
  • Kvothantering

    Röststjänster kan ha användningskvoter:

  • Månadsvis minutallokering för TTS + STT
  • Per-session-spårning
  • Varning vid 80 % användning
  • Automatisk avstängning vid kvotgräns
  • View full documentation