OpenClaw는 웨이크 워드 감지, 연속 음성 대화(토크 모드), 음성 응답을 위한 텍스트-음성 변환 등 여러 시스템을 통해 음성 상호작용을 지원합니다.
Swabble은 Apple의 Speech.framework를 사용하여 항상 켜져 있는 기기 내 음성 웨이크 워드 감지를 제공하는 네이티브 macOS 데몬입니다.
기능:
clawd (별칭 claude)작동 방식:
iOS 및 Android 컴패니언 앱에서 음성 웨이크는 네이티브로 처리됩니다:
토크 모드는 연속 음성 대화를 가능하게 합니다 — 자연스럽게 말하고 에이전트의 응답을 들으세요.
토크 모드는 4가지 상태 간에 전환됩니다:
| 상태 | 설명 | |------|------| | 대기 | 활성으로 수신하지 않음 | | 수신 중 | 음성 캡처 및 전사 중 | | 처리 중 | 에이전트가 요청을 처리 중 | | 말하는 중 | 에이전트 응답이 음성으로 출력 중 |
| 제공업체 | 설명 | |----------|------| | ElevenLabs | 음성 선택이 가능한 고품질 음성 합성 | | OpenAI TTS | OpenAI의 텍스트-음성 변환 API |
에이전트는 다단계 음성 명령을 감지하고 실행할 수 있습니다:
> "내일 오후 3시에 캘린더 이벤트를 만들고, 팀에 그것에 대한 이메일을 보내고, Slack에 리마인더를 게시해"
이것은 각 명령이 순서대로 실행되고 결과가 다음 단계로 흐르는 일련의 명령으로 자동 파싱됩니다.
음성 대화 중에 에이전트는 텍스트 대화와 마찬가지로 도구를 실행할 수 있습니다 — 웹 검색, 코드 실행, 파일 관리, 기기 제어 등. 결과는 요약되어 음성으로 읽어집니다.
음성 모드에는 에이전트의 주장이 실제 도구 결과와 일치하는지 검증하는 기능이 포함됩니다. 에이전트가 "이메일을 보냈습니다"라고 말했지만 이메일 도구가 실패한 경우, 시스템이 불일치를 감지하고 실제 결과를 보고합니다.
음성 통화 플러그인은 SIP 전화 지원을 추가합니다:
음성 서비스에는 사용 할당량이 있을 수 있습니다: