Arize Phoenix

AI与ML

Neotask 在 OpenClaw 上通过 Arize Phoenix 自动化您的大模型可观测性流水线——监控追踪、管理提示词并运行实验,确保您的 AI 系统持续可靠。

你可以做什么

您的 AI 代理将 Arize Phoenix 变成全自动化的大模型可观测性运营。它监控您的 AI 流水线、管理提示词版本并运行实验——让您的模型在无需持续人工监督的情况下保持可靠。

流水线监控

您的代理在各项目中持续检查追踪记录和跨度。它识别错误模式、审查跨度标注,并呈现质量下降的会话。安排定期健康检查,在问题触达用户前获得提醒。

提示词生命周期管理

将提示词作为有版本、有标签的资产管理。您的代理创建新版本、将版本标记为生产或预发布,并追踪迭代历史。需要回滚时,它了解曾经存在过的每个版本。

自动化实验

从真实生产追踪记录构建评估数据集。您的代理从有趣的跨度中添加示例、针对数据集运行实验,并比较各提示词版本的结果。在部署前量化改进效果。

| 领域 | 您的代理处理的内容 |

|------|--------------------|

| 提示词 | 版本管理、标记、更新插入、迭代追踪 |

| 追踪记录与跨度 | 检查、标注审查、错误检测 |

| 数据集 | 示例管理、实验执行、回归测试 |

| 项目 | 多项目监控、会话追踪、健康检查 |

每个操作都可以自主执行或需要你的批准——由你决定。

试试这样问

  • "检查过去一小时的所有追踪记录,标记有错误跨度的记录"
  • "将我们'客户支持'提示词的最新版本标记为'生产'"
  • "将最近 10 条失败的追踪记录作为示例添加到我们的回归测试数据集"
  • "运行一个对比提示词 v4 和 v5 在'分类'数据集上的实验"
  • "'搜索流水线'项目的跨度存在哪些标注?"
  • "展示今天超过 3 轮对话的所有会话"
  • "列出我们过去一个月部署到生产的每个提示词版本"
  • "从这个模板创建一个名为'发票提取器'的新提示词"
  • 专业技巧

  • 在高流量期间安排每小时追踪检查——您的代理在回归问题复合之前就能发现
  • 对提示词版本标记使用审批门控——在将任何内容标记为生产前审查更改
  • 多代理团队在这里表现出色:一个代理监控追踪记录,另一个管理提示词,第三个运行实验
  • 从真实故障构建回归数据集——它们能捕获合成数据遗漏的边缘案例
  • 会话级分析揭示单次追踪检查遗漏的多轮对话问题
  • 将 Phoenix 与您的告警集成配对,在追踪质量下降的瞬间获得通知
  • Works Well With