Prometheus

基础设施

查询指标、调查告警并了解系统健康状况——Neotask 通过 OpenClaw 说 PromQL。

你能做什么

无需编写 PromQL 即可查询指标

描述您想要测量的内容——“显示过去一小时内生产命名空间中每个 Pod 的 CPU 使用情况”——然后 Neotask 编写并运行 PromQL 表达式,以可读格式返回结果,并附带有关数字含义的上下文。

调查活动警报

当警报触发时,请 Neotask 提取基础指标,向您显示触发警报的趋势,并解释它是否看起来像是一个峰值或持续下降。更快地从“警报触发”转向“根本原因”。

构建警报规则

用简单的英语描述您的警报意图 - “如果任何 Pod 在 10 分钟内重新启动超过 5 次,则发出警报” - 并且 Neotask 生成正确的 PromQL 表达式,设置合理的标签和注释,并以 Prometheus YAML 格式格式化规则。

探索可用指标

询问正在从特定目标中删除哪些指标、哪些作业当前已关闭,或者特定指标上有哪些可用标签。 Neotask 查询 Prometheus API 以探索您的指标目录。

分析趋势和容量

询问过去一周关键指标(如请求率、错误率或磁盘使用率)趋势的摘要。获得简单的语言解释:“您的错误率在周二晚上翻了一番,与部署 v2.3 相关。”

尝试询问

  • “集群中每个节点当前的 CPU 使用率是多少?”
  • “显示支付服务第 95 个百分位数的请求延迟”
  • “编写 PromQL 查询来跟踪每个命名空间的内存使用情况”
  • “哪些普罗米修斯目标目前已关闭?”
  • “生成一个警报规则,当磁盘使用率超过 85% 持续 5 分钟时触发”
  • “为什么今天早上 HighMemoryUsage 警报会触发?”
  • “按服务显示过去 7 天的错误率趋势”
  • “节点导出器工作中正在删除哪些指标?”
  • 专业提示

  • 在构建查询时请求rate()与irate()指导——Neotask解释了哪个适合您用例中的计数器。
  • 在提示中包含时间范围:“过去 30 分钟内”或“自昨天上午 9 点以来”以获得相关结果,而不是 Prometheus 默认范围。
  • 要求 Neotask 解释您继承的 PromQL 表达式 - 粘贴查询并询问“这个衡量什么?它有什么问题吗?”
  • 在提示中使用标签匹配器:“仅适用于生产中的前端服务” - Neotask 会将正确的标签选择器添加到查询中。
  • 创建警报规则时,请要求 Neotask 包含指向您的内部 wiki 的 runbook_url 注释,以便更快地响应。
  • Works Well With