Voice - Neotask by Neotask Documentation | Neotask

음성

개요

OpenClaw는 웨이크 워드 감지, 연속 음성 대화(토크 모드), 음성 응답을 위한 텍스트-음성 변환 등 여러 시스템을 통해 음성 상호작용을 지원합니다.

웨이크 워드

Swabble (macOS)

Swabble은 Apple의 Speech.framework를 사용하여 항상 켜져 있는 기기 내 음성 웨이크 워드 감지를 제공하는 네이티브 macOS 데몬입니다.

기능:

  • 로컬 전용 처리 — 웨이크 워드 감지 중 오디오가 기기를 벗어나지 않음
  • 기본 웨이크 워드: clawd (별칭 claude)
  • 사용자 정의 가능한 웨이크 워드
  • 연속 오디오 캡처 및 전사
  • 훅 실행 — 웨이크 워드가 감지될 때 셸 명령 트리거
  • 파일 전사 — 오디오 파일을 텍스트로 변환 (TXT 또는 SRT 형식)
  • 구성 가능한 쿨다운, 최소 문자 수 및 타임아웃
  • 작동 방식:

  • Swabble이 시스템 마이크를 사용하여 지속적으로 수신합니다
  • 말하는 텍스트에서 웨이크 워드를 감지하면 이후 음성을 캡처합니다
  • 캡처된 텍스트가 구성된 훅 명령을 통해 에이전트로 전송됩니다
  • 에이전트가 음성 명령을 처리하고 응답합니다
  • 노드 웨이크 워드

    iOS 및 Android 컴패니언 앱에서 음성 웨이크는 네이티브로 처리됩니다:

  • 웨이크 워드 구성은 게이트웨이가 소유합니다
  • 노드는 연결 시 웨이크 워드 구성을 받습니다
  • 감지는 플랫폼 네이티브 음성 인식을 사용합니다
  • 토크 모드

    토크 모드는 연속 음성 대화를 가능하게 합니다 — 자연스럽게 말하고 에이전트의 응답을 들으세요.

    작동 방식

  • 음성-텍스트 변환 — 음성이 실시간으로 전사됩니다 (Deepgram 스트리밍 또는 플랫폼 네이티브 STT)
  • 에이전트 처리 — 전사된 텍스트가 일반 메시지로 에이전트에 전송됩니다
  • 텍스트-음성 변환 — 에이전트의 응답이 음성으로 변환되어 읽어집니다
  • 음성 상태 기계

    토크 모드는 4가지 상태 간에 전환됩니다:

    | 상태 | 설명 | |------|------| | 대기 | 활성으로 수신하지 않음 | | 수신 중 | 음성 캡처 및 전사 중 | | 처리 중 | 에이전트가 요청을 처리 중 | | 말하는 중 | 에이전트 응답이 음성으로 출력 중 |

    텍스트-음성 변환 제공업체

    | 제공업체 | 설명 | |----------|------| | ElevenLabs | 음성 선택이 가능한 고품질 음성 합성 | | OpenAI TTS | OpenAI의 텍스트-음성 변환 API |

    음성 설정

  • 음성 선택 — 사용 가능한 TTS 음성 중 선택
  • 커스텀 시스템 프롬프트 — 음성 모드를 위한 에이전트 개성 재정의
  • 커스텀 응답 형식 — 에이전트가 음성 응답을 형식화하는 방식 제어
  • 언어 지원 — 18개 이상 언어로 현지화된 음성 문자열
  • 음성 명령

    멀티 인텐트 감지

    에이전트는 다단계 음성 명령을 감지하고 실행할 수 있습니다:

    > "내일 오후 3시에 캘린더 이벤트를 만들고, 팀에 그것에 대한 이메일을 보내고, Slack에 리마인더를 게시해"

    이것은 각 명령이 순서대로 실행되고 결과가 다음 단계로 흐르는 일련의 명령으로 자동 파싱됩니다.

    도구 실행

    음성 대화 중에 에이전트는 텍스트 대화와 마찬가지로 도구를 실행할 수 있습니다 — 웹 검색, 코드 실행, 파일 관리, 기기 제어 등. 결과는 요약되어 음성으로 읽어집니다.

    액션 진실 강제

    음성 모드에는 에이전트의 주장이 실제 도구 결과와 일치하는지 검증하는 기능이 포함됩니다. 에이전트가 "이메일을 보냈습니다"라고 말했지만 이메일 도구가 실패한 경우, 시스템이 불일치를 감지하고 실제 결과를 보고합니다.

    음성 통화 (플러그인)

    음성 통화 플러그인은 SIP 전화 지원을 추가합니다:

  • 인바운드 통화 처리
  • 아웃바운드 통화 (제공업체에 따라 다름)
  • 실시간 양방향 오디오 (PCM 스트림)
  • 통화 오디오에 주입되는 TTS 합성
  • 할당량 관리

    음성 서비스에는 사용 할당량이 있을 수 있습니다:

  • TTS + STT를 위한 월별 분 할당
  • 세션별 추적
  • 사용량 80%에서 경고
  • 할당량 한도에서 자동 차단
  • View full documentation