Voice - Neotask by Neotask Documentation | Neotask

Голос

Огляд

Open Claw підтримує голосову взаємодію через кілька систем: виявлення ключових слів, безперервна голосова розмова (режим розмови) та синтез мовлення для озвучення відповідей.

Ключові слова

Swabble (macOS)

Swabble — це нативний демон macOS, що забезпечує завжди активне, локальне виявлення голосових ключових слів за допомогою Apple Speech.framework.

Функції:

  • Лише локальна обробка — жодне аудіо не залишає ваш пристрій під час виявлення ключового слова
  • Ключове слово за замовчуванням: clawd (з псевдонімом claude)
  • Налаштовувані ключові слова
  • Безперервне захоплення та транскрипція аудіо
  • Виконання хуків — запуск команд оболонки при виявленні ключового слова
  • Транскрипція файлів — конвертація аудіофайлів у текст (формат TXT або SRT)
  • Конфігуровані затримка, мінімальна кількість символів та тайм-аут
  • Як це працює:

  • Swabble безперервно прослуховує через системний мікрофон
  • Коли в усному тексті виявляється ключове слово, захоплюється подальше мовлення
  • Захоплений текст надсилається агенту через налаштовану команду хука
  • Агент обробляє голосову команду та відповідає
  • Ключові слова вузлів

    На додатках-компаньйонах iOS та Android голосове пробудження обробляється нативно:

  • Конфігурація ключових слів належить Gateway
  • Вузли отримують конфігурацію ключових слів при підключенні
  • Виявлення використовує нативне розпізнавання мовлення платформи
  • Режим розмови

    Режим розмови забезпечує безперервні голосові розмови — говоріть природно та слухайте відповіді агента.

    Як це працює

  • Мовлення в текст — Ваш голос транскрибується в реальному часі (потокове STT Deepgram або нативне STT платформи)
  • Обробка агентом — Транскрибований текст надсилається агенту як звичайне повідомлення
  • Текст у мовлення — Відповідь агента озвучується вам
  • Стан-машина голосу

    Режим розмови переходить між чотирма станами:

    | Стан | Опис | |-------|-------------| | Очікування | Не прослуховує активно | | Прослуховування | Захоплює та транскрибує ваше мовлення | | Обдумування | Агент обробляє ваш запит | | Говоріння | Озвучується відповідь агента |

    Провайдери синтезу мовлення

    | Провайдер | Опис | |----------|-------------| | ElevenLabs | Синтез мовлення високої якості з вибором голосу | | OpenAI TTS | API синтезу мовлення від OpenAI |

    Голосові вподобання

  • Вибір голосу — Вибір з доступних голосів синтезу мовлення
  • Власний системний запит — Перевизначення особистості агента для голосового режиму
  • Власний формат відповіді — Керування форматуванням агентом усних відповідей
  • Підтримка мов — Голосові рядки локалізовані для 18+ мов
  • Голосові команди

    Виявлення кількох намірів

    Агенти можуть виявляти та виконувати голосові команди з кількома кроками:

    > «Створи подію в календарі на завтра о 15:00, потім надішли електронного листа команді про це і опублікуй нагадування в Slack»

    Це автоматично розбивається на послідовність команд, кожна з яких виконується по черзі, передаючи результати на наступний крок.

    Виконання інструментів

    Під час голосових розмов агенти можуть виконувати інструменти так само, як і в текстових розмовах — переглядати веб, виконувати код, керувати файлами, управляти пристроями та інше. Результати підсумовуються та озвучуються.

    Перевірка достовірності дій

    Голосовий режим включає перевірку відповідності заяв агента фактичним результатам інструментів. Якщо агент каже «Я надіслав лист», але інструмент надсилання листів завершився помилкою, система виявляє невідповідність та повідомляє фактичний результат.

    Голосові дзвінки (плагін)

    Плагін Voice Call додає підтримку SIP-телефонії:

  • Обробка вхідних дзвінків
  • Вихідні дзвінки (залежить від провайдера)
  • Двонаправлений аудіозв'язок в реальному часі (PCM-потоки)
  • Синтез мовлення, вставлений в аудіо дзвінка
  • Управління квотами

    Голосові сервіси можуть мати квоти використання:

  • Щомісячний ліміт хвилин для синтезу мовлення та розпізнавання мовлення
  • Відстеження на рівні сесій
  • Попередження при 80% використання
  • Автоматичне відключення при досягненні ліміту квоти
  • View full documentation