Prometheus

基础设施

查询指标、调查告警并了解系统健康状况——Neotask 通过 OpenClaw 说 PromQL。

你能做什么

描述您想要测量的内容——“显示过去一小时内生产命名空间中每个 Pod 的 CPU 使用情况”——然后 Neotask 编写并运行 PromQL 表达式，以可读格式返回结果，并附带有关数字含义的上下文。

当警报触发时，请 Neotask 提取基础指标，向您显示触发警报的趋势，并解释它是否看起来像是一个峰值或持续下降。更快地从“警报触发”转向“根本原因”。

用简单的英语描述您的警报意图 - “如果任何 Pod 在 10 分钟内重新启动超过 5 次，则发出警报” - 并且 Neotask 生成正确的 PromQL 表达式，设置合理的标签和注释，并以 Prometheus YAML 格式格式化规则。

询问正在从特定目标中删除哪些指标、哪些作业当前已关闭，或者特定指标上有哪些可用标签。 Neotask 查询 Prometheus API 以探索您的指标目录。

询问过去一周关键指标（如请求率、错误率或磁盘使用率）趋势的摘要。获得简单的语言解释：“您的错误率在周二晚上翻了一番，与部署 v2.3 相关。”

“集群中每个节点当前的 CPU 使用率是多少？”

“显示支付服务第 95 个百分位数的请求延迟”

“编写 PromQL 查询来跟踪每个命名空间的内存使用情况”

“哪些普罗米修斯目标目前已关闭？”

“生成一个警报规则，当磁盘使用率超过 85% 持续 5 分钟时触发”

“为什么今天早上 HighMemoryUsage 警报会触发？”

“按服务显示过去 7 天的错误率趋势”

“节点导出器工作中正在删除哪些指标？”

在构建查询时请求rate()与irate()指导——Neotask解释了哪个适合您用例中的计数器。

在提示中包含时间范围：“过去 30 分钟内”或“自昨天上午 9 点以来”以获得相关结果，而不是 Prometheus 默认范围。

要求 Neotask 解释您继承的 PromQL 表达式 - 粘贴查询并询问“这个衡量什么？它有什么问题吗？”

在提示中使用标签匹配器：“仅适用于生产中的前端服务” - Neotask 会将正确的标签选择器添加到查询中。

创建警报规则时，请要求 Neotask 包含指向您的内部 wiki 的 runbook_url 注释，以便更快地响应。

airtable - Connect Airtable and Prometheus with Neotask to automate monitoring workflows, sync metrics data, and trigger alerts fro...
google-keep - Connect Google Keep and Prometheus with Neotask. Automate monitoring notes, document alerts, and streamline your observa...
video-frames - Combine Prometheus monitoring with video frame extraction to capture visual proof of infrastructure incidents, alert sta...