Voice Control - Neotask Documentation | Neotask

音声制御

Neotask にはフル機能の音声制御システムが搭載されており、音声のみで AI エージェントとやり取りできます。エージェントのアクティベート、コマンドの発行、インターフェースのナビゲーション、音声レスポンスの受信がすべてハンズフリーで可能です。

---

概要

アクティベーション方法

音声入力をアクティベートする方法は2つあります:

  • 常時リスニングウェイクワード。 トリガーフレーズ(例:「Hey Neotask」)を話すと、アプリケーションがリスニングを開始します。キーを押す必要はありません。
  • キーボードショートカット。 キーの組み合わせを押して、オンデマンドで音声入力を開始します。
  • 設定 > ウェイクモード で好みの方法を選択できます。

    音声インタラクションフロー

    すべての音声インタラクションは以下のサイクルに従います:

  • ウェイク。 ウェイクワードまたはキーボードショートカットによるアクティベーション。
  • リスン。 Neotask があなたの音声入力をリスニングします。
  • 文字起こし。 音声がリアルタイムでテキストに変換されます。
  • 思考。 AI がリクエストを処理し、適切なアクションを決定します。
  • 発話。 レスポンスが自然なテキスト読み上げで話し返されます。
  • リスン。 システムが次のコマンドのリスニングに戻り、会話を続けます。
  • ---

    ウェイクワードアクティベーション

    デフォルトウェイクワード

    デフォルトのウェイクワードは:

    > "Hey Neotask"

    このフレーズを話すだけで、Neotask がコマンドのリスニングを開始します。

    カスタムウェイクワード

    設定 > ウェイクワード でカスタムウェイクワードを設定できます。短く、明確で、通常の会話では出にくいフレーズを選んでください。

    パフォーマンス

    ウェイクワード検出は 完全にローカルマシン上 で実行されます。ウェイクワード処理のために音声がクラウドに送信されることはありません。検出エンジンは 超低 CPU 使用量 に最適化されており、システムパフォーマンスに影響を与えることなくバックグラウンドでアクティブのままでいられます。

    感度

    ウェイクワードの感度は設定可能です。ウェイクワードがトリガーされやすすぎる(誤検知)場合や、十分にトリガーされない(検出漏れ)場合は、設定 > ウェイクワード > 感度 で感度スライダーを調整してください。

    ---

    キーボードショートカットアクティベーション

    デフォルトショートカット

    | プラットフォーム | ショートカット | |---|---| | macOS | Cmd + Shift + Space | | Windows / Linux | Ctrl + Shift + Space |

    カスタマイズ

    キーボードショートカットは完全にカスタマイズ可能です。設定 > ウェイクモード > キーボードショートカット で好みのキーの組み合わせを設定してください。

    ---

    音声機能

    音声からテキスト

    Neotask はリアルタイムの音声からテキストへの文字起こしに Deepgram を使用しています。話した言葉が最小限のレイテンシで会話中にテキストとして表示されます。

    テキストから音声

    レスポンスは ElevenLabs の自然なテキスト読み上げテクノロジーを使用して音声で読み上げられます。音声ライブラリには、幅広いスタイルにまたがる 100以上の音声 が含まれています。

    音声の選択

    設定 > 音声 で好みの音声を選択できます。以下でフィルタリングできます:

  • 性別: 男性、女性、またはニュートラル。
  • アクセント: アメリカ、イギリス、オーストラリア、その他多数。
  • 年齢: 若い、中年、または年配。
  • 各音声の横に 音声プレビュー ボタンがあり、選択前にサンプルを聞くことができます。

    会話コントロール

  • 一時停止。 いつでも音声会話を一時停止できます。再開するまで AI はリスニングと発話を停止します。
  • 再開。 中断したところから会話を続けます。
  • ファイル添付

    音声セッション中にファイルを添付できます。例えば、「ファイルを共有したい」と言って添付ダイアログを使用するか、音声モードがアクティブな状態で会話ウィンドウにファイルをドラッグアンドドロップします。AI は添付ファイルを参照して作業できます。

    ---

    音声コマンド

    Neotask は幅広い自然言語コマンドを理解します。以下は一般的なカテゴリと例です。

    ウェブサイトを開く

    | コマンド例 | |---| | 「YouTube を開いて」 | | 「github.com に移動して」 | | 「Neotask のドキュメントを開いて」 |

    ウェブ検索

    | コマンド例 | |---| | 「Google で Python チュートリアルを検索して」 | | 「サンフランシスコの天気を調べて」 | | 「Stack Overflow で React hooks を検索して」 |

    アプリケーションの起動

    | コマンド例 | |---| | 「Safari を開いて」 | | 「Finder を起動して」 | | 「Visual Studio Code を開いて」 | | 「Terminal を開始して」 |

    ブラウザ操作

    | コマンド例 | |---| | 「下にスクロール」 | | 「戻って」 | | 「ページをリフレッシュ」 | | 「上までスクロール」 |

    エージェント操作

    | コマンド例 | |---| | 「Research Assistant というエージェントを作成して」 | | 「エージェントを開始して」 | | 「エージェントを停止して」 | | 「エージェントのステータスを表示して」 |

    マルチコマンドチェーン

    複数の指示を1つの音声コマンドにまとめることができます:

    | コマンド例 | |---| | 「Data Analyzer というエージェントを作成して、音声を有効にして、開始して」 | | 「YouTube を開いて機械学習チュートリアルを検索して」 | | 「エージェントを停止してセッションログを見せて」 |

    ---

    音声中のツール実行

    音声コマンドがツールまたはアクションをトリガーした場合、Neotask は リアルタイムの音声フィードバック を提供して、何が起こっているかを知らせます:

  • 「ファイルエディタを開いています...」
  • 「シェルコマンドを実行中...」
  • 「Web ページを取得中...」
  • サポートされるツールアクション

    音声でトリガーできるツールには以下が含まれます:

  • シェルコマンド。 マシン上でターミナルコマンドを実行。
  • ファイル操作。 ファイルの作成、読み取り、編集、整理。
  • Web リクエスト。 URL や API からデータを取得。
  • 承認ワークフロー

    セーフモード が有効な場合(デフォルトでオン)、機密アクションは実行前にあなたの明示的な音声またはクリックによる承認が必要です。機密アクションには以下が含まれます:

  • ファイルまたはディレクトリの削除
  • コードまたはサービスのデプロイ
  • あなたに代わってメッセージやメールを送信
  • AI はアクションを説明し、続行する前に確認を求めます。

    ---

    数学チュータリングモード

    Neotask には、音声指導とアニメーション付き視覚化を組み合わせた専用の数学チュータリングモードが搭載されています。

    仕組み

  • 数学のトピックを尋ねます。例:「単位円について教えて。」
  • AI がトピックに合わせた レッスンプラン を生成します。
  • Manim(数学アニメーションエンジン)を使用してアニメーション付き視覚化がレンダリングされます。
  • レッスンは セクションごと に配信され、音声解説がビジュアルと同期します。
  • 視覚化テンプレート

    以下の組み込みテンプレートが即時のアニメーション付きレッスンに利用可能です:

    | テンプレート | 説明 | |---|---| | 単位円 | 角度と座標ラベル付きの単位円のビジュアルウォークスルー。 | | ピタゴラスの定理 | 三角形の辺上のラベル付き正方形による幾何学的証明アニメーション。 | | テイラー級数 | 多項式近似の収束を示すステップバイステップの展開。 | | 二次方程式の公式 | 根の導出とグラフによる解釈。 | | 正弦/余弦波 | 振幅、周期、位相のアノテーション付きアニメーション波形プロット。 | | 微分 | 瞬間変化率を示す接線アニメーション。 | | 積分 | リーマン和の進行による曲線下面積アニメーション。 | | 関数グラフ | ラベル付き軸、切片、主要な特徴を持つ任意の関数のプロット。 |

    段階的な教え方

    レッスンはセクションに分かれています。各セクションの後、AI は続行するか、復習するか、質問があるかを尋ねて一時停止します。これにより、自分のペースで学習できます。

    ---

    サポートされる言語

    Neotask は 21言語 で音声インタラクションをサポートしています:

    | 言語 | コード | |---|---| | English | en | | Spanish | es | | French | fr | | German | de | | Italian | it | | Portuguese | pt | | Dutch | nl | | Russian | ru | | Chinese (Mandarin) | zh | | Japanese | ja | | Korean | ko | | Arabic | ar | | Hindi | hi | | Turkish | tr | | Polish | pl | | Swedish | sv | | Danish | da | | Norwegian | no | | Finnish | fi | | Czech | cs | | Romanian | ro |

    設定 > 言語 からいつでも音声言語を変更できます。音声認識とテキスト読み上げの両方が選択した言語に切り替わります。

    ---

    音声プロンプト

    音声プロンプトは、音声会話中の AI アシスタントの動作とレスポンスの仕方を制御します。両方とも 設定 > 音声プロンプト で編集可能です。

    システムプロンプト

    システムプロンプト は、音声アシスタントの全体的なパーソナリティと動作を定義します。トーン、専門性レベル、インタラクションスタイルを設定します。例えば、アシスタントに簡潔で技術的であるよう指示したり、フレンドリーで会話的であるよう指示したりできます。

    レスポンスプロンプト

    レスポンスプロンプト は、アシスタントが音声レスポンスをフォーマットし配信する方法をカスタマイズします。レスポンスの長さ、詳細レベル、アシスタントが類似を使用するかどうか、その他のスタイルの好みを制御するために使用します。

    両方のプロンプトは自由形式のテキストを受け付け、以降のすべての音声インタラクションに即座に適用されます。

    View full documentation