Voice - Neotask by Neotask Documentation | Neotask

Ses

Genel Bakış

Open Claw, birden fazla sistem aracılığıyla ses etkileşimini destekler: uyandırma kelimesi algılama, sürekli ses konuşması (konuşma modu) ve konuşulan yanıtlar için metinden konuşmaya.

Uyandırma Kelimeleri

Swabble (macOS)

Swabble, Apple'ın Speech.framework'ünü kullanan her zaman açık, cihaz üzerinde ses uyandırma kelimesi algılama sağlayan yerel bir macOS daemon'udur.

Özellikler:

  • Yalnızca yerel işleme — uyandırma kelimesi algılama sırasında cihazınızdan ses ayrılmaz
  • Varsayılan uyandırma kelimesi: clawd (claude takma adıyla)
  • Özelleştirilebilir uyandırma kelimeleri
  • Sürekli ses yakalama ve döküm
  • Kanca yürütme — uyandırma kelimesi algılandığında kabuk komutlarını tetikler
  • Dosya dökümü — ses dosyalarını metne dönüştürün (TXT veya SRT formatı)
  • Yapılandırılabilir soğuma süresi, minimum karakter sayısı ve zaman aşımı
  • Nasıl çalışır:

  • Swabble, sistem mikrofonu kullanarak sürekli dinler
  • Konuşulan metinde uyandırma kelimesini algıladığında, ardından gelen konuşmayı yakalar
  • Yakalanan metin, yapılandırılmış bir kanca komutu aracılığıyla ajanınıza gönderilir
  • Ajan sesli komutu işler ve yanıt verir
  • Düğüm Uyandırma Kelimeleri

    iOS ve Android eşlik eden uygulamalarında ses uyandırma, yerel olarak işlenir:

  • Uyandırma kelimesi yapılandırması Gateway'e aittir
  • Düğümler bağlanma üzerine uyandırma kelimesi yapılandırması alır
  • Algılama, platforma özgü konuşma tanıma kullanır
  • Konuşma Modu

    Konuşma modu, sürekli ses konuşmalarına olanak tanır — doğal konuşun ve ajanınızın yanıt vermesini dinleyin.

    Nasıl Çalışır?

  • Konuşmadan Metne — Sesiniz gerçek zamanlı olarak dökümlenir (Deepgram akışı veya platforma özgü STT)
  • Ajan İşleme — Dökümlenen metin, ajanınıza normal bir mesaj olarak gönderilir
  • Metinden Konuşmaya — Ajanın yanıtı size sesli okunur
  • Ses Durum Makinesi

    Konuşma modu dört durum arasında geçiş yapar:

    | Durum | Açıklama | |-------|-------------| | Boşta | Aktif olarak dinlemiyor | | Dinliyor | Konuşmanızı yakalıyor ve dökümlüyor | | Düşünüyor | Ajan isteğinizi işliyor | | Konuşuyor | Ajan yanıtı sesli okunuyor |

    Metinden Konuşmaya Sağlayıcıları

    | Sağlayıcı | Açıklama | |----------|-------------| | ElevenLabs | Ses seçimiyle yüksek kaliteli ses sentezi | | OpenAI TTS | OpenAI'ın metinden konuşmaya API'si |

    Ses Tercihleri

  • Ses seçimi — Mevcut TTS seslerinden birini seçin
  • Özel sistem istemi — Ses modu için ajanın kişiliğini geçersiz kılın
  • Özel yanıt biçimi — Ajanın konuşulan yanıtları nasıl biçimlendirdiğini kontrol edin
  • Dil desteği — 18'den fazla dil için yerelleştirilmiş ses dizeleri
  • Ses Komutları

    Çoklu Amaç Algılama

    Ajanlar çok adımlı sesli komutları algılayabilir ve yürütebilir:

    > "Yarın saat 3'te bir takvim etkinliği oluştur, ardından ekibe bu konuda bir e-posta gönder ve Slack'te bir hatırlatıcı yayınla"

    Bu, her biri sırayla yürütülen ve sonuçları bir sonraki adıma akan bir komut dizisine otomatik olarak ayrıştırılır.

    Araç Yürütme

    Ses konuşmaları sırasında ajanlar, metin konuşmalarında olduğu gibi araçları yürütebilir — web'e göz atın, kod çalıştırın, dosyaları yönetin, cihazları kontrol edin ve daha fazlası. Sonuçlar özetlenir ve sesli okunur.

    Eylem Doğruluk Uygulaması

    Ses modu, ajan iddialarının gerçek araç sonuçlarıyla eşleştiğini doğrulamayı içerir. Bir ajan "E-postayı gönderdim" derse ancak e-posta aracı başarısız olduysa, sistem tutarsızlığı yakalar ve gerçek sonucu raporlar.

    Sesli Arama (Eklenti)

    Sesli Arama eklentisi SIP telefoni desteği ekler:

  • Gelen arama işleme
  • Giden aramalar (sağlayıcıya bağlı)
  • Gerçek zamanlı çift yönlü ses (PCM akışları)
  • Arama sesine enjekte edilen TTS sentezi
  • Kota Yönetimi

    Ses hizmetlerinin kullanım kotaları olabilir:

  • TTS + STT için aylık dakika tahsisi
  • Oturum başına takip
  • %80 kullanımda uyarı
  • Kota limitinde otomatik kesme
  • View full documentation