Arize Phoenix
AI与ML
Neotask 在 OpenClaw 上通过 Arize Phoenix 自动化您的大模型可观测性流水线——监控追踪、管理提示词并运行实验,确保您的 AI 系统持续可靠。
- 大模型流水线健康状态自动监控——您的代理检查追踪记录、标记失败的跨度,并在问题进入生产环境前呈现标注问题
- 提示词工程成为受管工作流——版本控制、标记和 A/B 测试提示词通过对话完成,而非手动迭代
- 评估数据集从真实生产数据中生成——您的代理捕获追踪记录、将其添加为测试用例,并自动运行回归实验
你可以做什么
您的 AI 代理将 Arize Phoenix 变成全自动化的大模型可观测性运营。它监控您的 AI 流水线、管理提示词版本并运行实验——让您的模型在无需持续人工监督的情况下保持可靠。
流水线监控
您的代理在各项目中持续检查追踪记录和跨度。它识别错误模式、审查跨度标注,并呈现质量下降的会话。安排定期健康检查,在问题触达用户前获得提醒。
提示词生命周期管理
将提示词作为有版本、有标签的资产管理。您的代理创建新版本、将版本标记为生产或预发布,并追踪迭代历史。需要回滚时,它了解曾经存在过的每个版本。
自动化实验
从真实生产追踪记录构建评估数据集。您的代理从有趣的跨度中添加示例、针对数据集运行实验,并比较各提示词版本的结果。在部署前量化改进效果。
| 领域 | 您的代理处理的内容 |
|------|--------------------|
| 提示词 | 版本管理、标记、更新插入、迭代追踪 |
| 追踪记录与跨度 | 检查、标注审查、错误检测 |
| 数据集 | 示例管理、实验执行、回归测试 |
| 项目 | 多项目监控、会话追踪、健康检查 |
每个操作都可以自主执行或需要你的批准——由你决定。
试试这样问
"检查过去一小时的所有追踪记录,标记有错误跨度的记录"
"将我们'客户支持'提示词的最新版本标记为'生产'"
"将最近 10 条失败的追踪记录作为示例添加到我们的回归测试数据集"
"运行一个对比提示词 v4 和 v5 在'分类'数据集上的实验"
"'搜索流水线'项目的跨度存在哪些标注?"
"展示今天超过 3 轮对话的所有会话"
"列出我们过去一个月部署到生产的每个提示词版本"
"从这个模板创建一个名为'发票提取器'的新提示词"专业技巧
在高流量期间安排每小时追踪检查——您的代理在回归问题复合之前就能发现
对提示词版本标记使用审批门控——在将任何内容标记为生产前审查更改
多代理团队在这里表现出色:一个代理监控追踪记录,另一个管理提示词,第三个运行实验
从真实故障构建回归数据集——它们能捕获合成数据遗漏的边缘案例
会话级分析揭示单次追踪检查遗漏的多轮对话问题
将 Phoenix 与您的告警集成配对,在追踪质量下降的瞬间获得通知
Works Well With
- bigquery - Connect Arize Phoenix with BigQuery to sync ML model metrics, traces, and observability data directly into your data war...
- google-slides - Connect Arize Phoenix to Google Slides to automate ML observability reporting and share AI model monitoring insights as ...
- microsoft-365 - Connect Arize Phoenix ML observability with Microsoft 365. Send AI model monitoring reports to Teams, automate alerts, a...