Voice - Neotask by Neotask Documentation | Neotask
Ses
Genel Bakış
Open Claw, birden fazla sistem aracılığıyla ses etkileşimini destekler: uyandırma kelimesi algılama, sürekli ses konuşması (konuşma modu) ve konuşulan yanıtlar için metinden konuşmaya.
Uyandırma Kelimeleri
Swabble (macOS)
Swabble, Apple'ın Speech.framework'ünü kullanan her zaman açık, cihaz üzerinde ses uyandırma kelimesi algılama sağlayan yerel bir macOS daemon'udur.
Özellikler:
Yalnızca yerel işleme — uyandırma kelimesi algılama sırasında cihazınızdan ses ayrılmaz
Varsayılan uyandırma kelimesi: clawd (claude takma adıyla)
Özelleştirilebilir uyandırma kelimeleri
Sürekli ses yakalama ve döküm
Kanca yürütme — uyandırma kelimesi algılandığında kabuk komutlarını tetikler
Dosya dökümü — ses dosyalarını metne dönüştürün (TXT veya SRT formatı)
Yapılandırılabilir soğuma süresi, minimum karakter sayısı ve zaman aşımıNasıl çalışır:
Swabble, sistem mikrofonu kullanarak sürekli dinler
Konuşulan metinde uyandırma kelimesini algıladığında, ardından gelen konuşmayı yakalar
Yakalanan metin, yapılandırılmış bir kanca komutu aracılığıyla ajanınıza gönderilir
Ajan sesli komutu işler ve yanıt verirDüğüm Uyandırma Kelimeleri
iOS ve Android eşlik eden uygulamalarında ses uyandırma, yerel olarak işlenir:
Uyandırma kelimesi yapılandırması Gateway'e aittir
Düğümler bağlanma üzerine uyandırma kelimesi yapılandırması alır
Algılama, platforma özgü konuşma tanıma kullanırKonuşma Modu
Konuşma modu, sürekli ses konuşmalarına olanak tanır — doğal konuşun ve ajanınızın yanıt vermesini dinleyin.
Nasıl Çalışır?
Konuşmadan Metne — Sesiniz gerçek zamanlı olarak dökümlenir (Deepgram akışı veya platforma özgü STT)
Ajan İşleme — Dökümlenen metin, ajanınıza normal bir mesaj olarak gönderilir
Metinden Konuşmaya — Ajanın yanıtı size sesli okunurSes Durum Makinesi
Konuşma modu dört durum arasında geçiş yapar:
| Durum | Açıklama |
|-------|-------------|
| Boşta | Aktif olarak dinlemiyor |
| Dinliyor | Konuşmanızı yakalıyor ve dökümlüyor |
| Düşünüyor | Ajan isteğinizi işliyor |
| Konuşuyor | Ajan yanıtı sesli okunuyor |
Metinden Konuşmaya Sağlayıcıları
| Sağlayıcı | Açıklama |
|----------|-------------|
| ElevenLabs | Ses seçimiyle yüksek kaliteli ses sentezi |
| OpenAI TTS | OpenAI'ın metinden konuşmaya API'si |
Ses Tercihleri
Ses seçimi — Mevcut TTS seslerinden birini seçin
Özel sistem istemi — Ses modu için ajanın kişiliğini geçersiz kılın
Özel yanıt biçimi — Ajanın konuşulan yanıtları nasıl biçimlendirdiğini kontrol edin
Dil desteği — 18'den fazla dil için yerelleştirilmiş ses dizeleriSes Komutları
Çoklu Amaç Algılama
Ajanlar çok adımlı sesli komutları algılayabilir ve yürütebilir:
> "Yarın saat 3'te bir takvim etkinliği oluştur, ardından ekibe bu konuda bir e-posta gönder ve Slack'te bir hatırlatıcı yayınla"
Bu, her biri sırayla yürütülen ve sonuçları bir sonraki adıma akan bir komut dizisine otomatik olarak ayrıştırılır.
Araç Yürütme
Ses konuşmaları sırasında ajanlar, metin konuşmalarında olduğu gibi araçları yürütebilir — web'e göz atın, kod çalıştırın, dosyaları yönetin, cihazları kontrol edin ve daha fazlası. Sonuçlar özetlenir ve sesli okunur.
Eylem Doğruluk Uygulaması
Ses modu, ajan iddialarının gerçek araç sonuçlarıyla eşleştiğini doğrulamayı içerir. Bir ajan "E-postayı gönderdim" derse ancak e-posta aracı başarısız olduysa, sistem tutarsızlığı yakalar ve gerçek sonucu raporlar.
Sesli Arama (Eklenti)
Sesli Arama eklentisi SIP telefoni desteği ekler:
Gelen arama işleme
Giden aramalar (sağlayıcıya bağlı)
Gerçek zamanlı çift yönlü ses (PCM akışları)
Arama sesine enjekte edilen TTS senteziKota Yönetimi
Ses hizmetlerinin kullanım kotaları olabilir:
TTS + STT için aylık dakika tahsisi
Oturum başına takip
%80 kullanımda uyarı
Kota limitinde otomatik kesme
View full documentation