Prometheus
基础设施
查询指标、调查告警并了解系统健康状况——Neotask 通过 OpenClaw 说 PromQL。
- 使用简单英语描述您想查看的指标来编写和执行 PromQL 查询
- 通过拉取相关指标并解释数据含义来调查触发的告警
- 从您所需阈值和条件的描述生成记录规则和告警规则
你能做什么
无需编写 PromQL 即可查询指标
描述您想要测量的内容——“显示过去一小时内生产命名空间中每个 Pod 的 CPU 使用情况”——然后 Neotask 编写并运行 PromQL 表达式,以可读格式返回结果,并附带有关数字含义的上下文。
调查活动警报
当警报触发时,请 Neotask 提取基础指标,向您显示触发警报的趋势,并解释它是否看起来像是一个峰值或持续下降。更快地从“警报触发”转向“根本原因”。
构建警报规则
用简单的英语描述您的警报意图 - “如果任何 Pod 在 10 分钟内重新启动超过 5 次,则发出警报” - 并且 Neotask 生成正确的 PromQL 表达式,设置合理的标签和注释,并以 Prometheus YAML 格式格式化规则。
探索可用指标
询问正在从特定目标中删除哪些指标、哪些作业当前已关闭,或者特定指标上有哪些可用标签。 Neotask 查询 Prometheus API 以探索您的指标目录。
分析趋势和容量
询问过去一周关键指标(如请求率、错误率或磁盘使用率)趋势的摘要。获得简单的语言解释:“您的错误率在周二晚上翻了一番,与部署 v2.3 相关。”
尝试询问
“集群中每个节点当前的 CPU 使用率是多少?”
“显示支付服务第 95 个百分位数的请求延迟”
“编写 PromQL 查询来跟踪每个命名空间的内存使用情况”
“哪些普罗米修斯目标目前已关闭?”
“生成一个警报规则,当磁盘使用率超过 85% 持续 5 分钟时触发”
“为什么今天早上 HighMemoryUsage 警报会触发?”
“按服务显示过去 7 天的错误率趋势”
“节点导出器工作中正在删除哪些指标?”专业提示
在构建查询时请求rate()与irate()指导——Neotask解释了哪个适合您用例中的计数器。
在提示中包含时间范围:“过去 30 分钟内”或“自昨天上午 9 点以来”以获得相关结果,而不是 Prometheus 默认范围。
要求 Neotask 解释您继承的 PromQL 表达式 - 粘贴查询并询问“这个衡量什么?它有什么问题吗?”
在提示中使用标签匹配器:“仅适用于生产中的前端服务” - Neotask 会将正确的标签选择器添加到查询中。
创建警报规则时,请要求 Neotask 包含指向您的内部 wiki 的 runbook_url 注释,以便更快地响应。
Works Well With
- airtable - Connect Airtable and Prometheus with Neotask to automate monitoring workflows, sync metrics data, and trigger alerts fro...
- google-keep - Connect Google Keep and Prometheus with Neotask. Automate monitoring notes, document alerts, and streamline your observa...
- video-frames - Combine Prometheus monitoring with video frame extraction to capture visual proof of infrastructure incidents, alert sta...