Open Clawは複数のシステムを通じた音声インタラクションをサポートしています:ウェイクワード検出、継続的な音声会話(トークモード)、音声による応答のためのテキスト読み上げ。
SwabbleはAppleのSpeech.frameworkを使用して常時オンのオンデバイス音声ウェイクワード検出を提供するネイティブのmacOSデーモンです。
特徴:
clawd(エイリアスclaude)仕組み:
iOSおよびAndroidのコンパニオンアプリでは、音声ウェイクはネイティブで処理されます:
トークモードは継続的な音声会話を可能にします——自然に話しかけ、エージェントの応答を聞くことができます。
トークモードは4つの状態間を遷移します:
| 状態 | 説明 | |-------|-------------| | アイドル | アクティブにリッスンしていない | | リッスン中 | 音声をキャプチャして文字起こし中 | | 思考中 | エージェントがリクエストを処理中 | | 話し中 | エージェントの応答が読み上げられている |
| プロバイダー | 説明 | |----------|-------------| | ElevenLabs | 音声選択付きの高品質音声合成 | | OpenAI TTS | OpenAIのテキスト読み上げAPI |
エージェントはマルチステップの音声コマンドを検出・実行できます:
> 「明日の午後3時にカレンダーイベントを作成して、それについてチームにメールを送り、Slackにリマインダーを投稿して」
これは自動的にコマンドのシーケンスに解析され、各コマンドが順番に実行され、結果が次のステップに流れます。
音声会話中、エージェントはテキスト会話と同様にツールを実行できます——Webを閲覧し、コードを実行し、ファイルを管理し、デバイスを制御するなど。結果は要約されて読み上げられます。
音声モードには、エージェントの主張が実際のツールの結果と一致することを検証する機能が含まれています。エージェントが「メールを送信しました」と言っても、メールツールが失敗した場合、システムはその不一致を検出して実際の結果を報告します。
音声通話プラグインはSIPテレフォニーサポートを追加します:
音声サービスには使用クォータがある場合があります: