Voice Control - Neotask Documentation | Neotask

语音控制

Neotask 包含一个功能完整的语音控制系统,让您完全通过语音与 AI 代理交互。您可以激活代理、发出命令、导航界面以及接收语音响应,全程免提操作。

---

概述

激活方式

有两种方式激活语音输入:

  • 始终监听唤醒词。 说出触发短语(如 "Hey Neotask"),应用程序开始监听。无需按键。
  • 键盘快捷键。 按下组合键按需启动语音输入。
  • 您可以在设置 > 唤醒模式中选择首选方式。

    语音交互流程

    每次语音交互遵循以下循环:

  • 唤醒。 通过唤醒词或键盘快捷键激活。
  • 监听。 Neotask 监听您的语音输入。
  • 转录。 语音实时转换为文本。
  • 思考。 AI 处理您的请求并确定适当的操作。
  • 朗读。 响应通过自然的文本转语音技术朗读给您。
  • 监听。 系统返回监听您的下一个命令,保持对话流畅。
  • ---

    唤醒词激活

    默认唤醒词

    默认唤醒词是:

    > "Hey Neotask"

    只需说出这个短语,Neotask 就会开始监听您的命令。

    自定义唤醒词

    您可以在设置 > 唤醒词中设置自定义唤醒词。选择任何简短、独特的短语,便于您说出且不太可能在正常对话中出现。

    性能

    唤醒词检测完全在您的本地机器上运行;唤醒词处理不会将音频发送到云端。检测引擎针对超低 CPU 使用率进行了优化,因此可以在后台保持活跃而不影响系统性能。

    灵敏度

    唤醒词灵敏度可配置。如果您发现唤醒词触发太容易(误触发)或不够频繁(错过激活),请在设置 > 唤醒词 > 灵敏度中调整灵敏度滑块。

    ---

    键盘快捷键激活

    默认快捷键

    | 平台 | 快捷键 | |---|---| | macOS | Cmd + Shift + Space | | Windows / Linux | Ctrl + Shift + Space |

    自定义

    键盘快捷键完全可自定义。前往设置 > 唤醒模式 > 键盘快捷键设置您首选的组合键。

    ---

    语音功能

    语音转文本

    Neotask 使用 Deepgram 进行实时语音转文本转录。您说出的话会以文本形式显示在对话中,延迟极低。

    文本转语音

    响应使用 ElevenLabs 自然文本转语音技术大声朗读。声音库包含 100 多种声音,涵盖多种风格。

    声音选择

    设置 > 声音中选择您首选的声音。您可以按以下条件筛选声音:

  • 性别: 男性、女性或中性。
  • 口音: 美式、英式、澳大利亚式等多种。
  • 年龄: 年轻、中年或成熟。
  • 每个声音旁边有声音预览按钮,您可以在选择前试听样本。

    对话控制

  • 暂停。 随时暂停语音对话。AI 将停止监听和朗读,直到您恢复。
  • 继续。 从上次中断的地方继续对话。
  • 文件附件

    您可以在语音会话期间附加文件。例如,说"我想分享一个文件"然后使用附件对话框,或在语音模式激活时将文件拖放到对话窗口中。AI 随后可以引用和处理附加的文件。

    ---

    语音命令

    Neotask 理解广泛的自然语言命令。以下是按类别列出的常见示例。

    打开网站

    | 示例命令 | |---| | "打开 YouTube" | | "前往 github.com" | | "打开 Neotask 文档" |

    搜索网页

    | 示例命令 | |---| | "在 Google 上搜索 Python 教程" | | "查看旧金山的天气" | | "在 Stack Overflow 上搜索 React hooks" |

    启动应用程序

    | 示例命令 | |---| | "打开 Safari" | | "启动 Finder" | | "打开 Visual Studio Code" | | "启动终端" |

    浏览器控制

    | 示例命令 | |---| | "向下滚动" | | "返回" | | "刷新页面" | | "滚动到顶部" |

    代理操作

    | 示例命令 | |---| | "创建一个名为研究助手的代理" | | "启动代理" | | "停止代理" | | "显示代理状态" |

    多命令链

    您可以在单条语音命令中组合多个指令:

    | 示例命令 | |---| | "创建一个名为数据分析器的代理,启用语音,然后启动它" | | "打开 YouTube 并搜索机器学习教程" | | "停止代理并显示会话日志" |

    ---

    语音期间的工具执行

    当您的语音命令触发工具或操作时,Neotask 提供实时语音反馈让您知道正在发生什么:

  • "我正在打开文件编辑器..."
  • "正在运行 shell 命令..."
  • "正在获取网页..."
  • 支持的工具操作

    可通过语音触发的工具包括:

  • Shell 命令。 在您的机器上执行终端命令。
  • 文件操作。 创建、读取、编辑和组织文件。
  • Web 请求。 从 URL 和 API 获取数据。
  • 批准工作流

    安全模式启用时(默认开启),敏感操作在执行前需要您明确的语音或点击批准。敏感操作包括:

  • 删除文件或目录
  • 部署代码或服务
  • 以您的名义发送消息或邮件
  • AI 将描述操作并在继续前请求确认。

    ---

    数学辅导模式

    Neotask 包含一个专门的数学辅导模式,将语音教学与动画可视化相结合。

    工作原理

  • 询问一个数学话题,例如 "教我关于单位圆的知识。"
  • AI 生成针对该话题的教学计划
  • 使用 Manim(数学动画引擎)渲染动画可视化。
  • 课程按部分进行,口头讲解与可视化同步。
  • 可视化模板

    以下内置模板可用于即时动画课程:

    | 模板 | 描述 | |---|---| | 单位圆 | 带有角度和坐标标签的单位圆视觉演示。 | | 勾股定理 | 带有三角形各边标记正方形的几何证明动画。 | | 泰勒级数 | 展示多项式近似收敛的逐步展开。 | | 二次公式 | 根的推导和图形解释。 | | 正弦/余弦波 | 带有振幅、周期和相位标注的动画波形图。 | | 导数 | 切线动画说明瞬时变化率。 | | 积分 | 带有黎曼和递进的曲线下面积动画。 | | 函数图形 | 绘制任何函数,带有标记的轴、截距和关键特征。 |

    渐进式教学

    课程被分为多个部分。每个部分后,AI 暂停并询问您是否准备好继续、想要复习或有问题。这确保您按自己的节奏学习。

    ---

    支持的语言

    Neotask 支持 21 种语言的语音交互:

    | 语言 | 代码 | |---|---| | 英语 | en | | 西班牙语 | es | | 法语 | fr | | 德语 | de | | 意大利语 | it | | 葡萄牙语 | pt | | 荷兰语 | nl | | 俄语 | ru | | 中文(普通话) | zh | | 日语 | ja | | 韩语 | ko | | 阿拉伯语 | ar | | 印地语 | hi | | 土耳其语 | tr | | 波兰语 | pl | | 瑞典语 | sv | | 丹麦语 | da | | 挪威语 | no | | 芬兰语 | fi | | 捷克语 | cs | | 罗马尼亚语 | ro |

    您可以随时在设置 > 语言中更改语音语言。语音识别和文本转语音都将切换到所选语言。

    ---

    语音提示

    语音提示控制 AI 助手在语音对话中的行为和响应方式。两者都可以在设置 > 语音提示中编辑。

    系统提示

    系统提示定义语音助手的整体个性和行为。它设置语气、专业水平和交互风格。例如,您可以指示助手简洁且技术性,或友好且对话式。

    响应提示

    响应提示自定义助手格式化和传达口头响应的方式。使用它来控制响应长度、详细程度、助手是否使用类比以及其他风格偏好。

    两个提示都接受自由格式文本,并对所有后续语音交互立即生效。

    View full documentation