Prometheus

監控

查詢指標並監控系統健康 — Neotask 透過 OpenClaw 為您自動化 Prometheus。

您可以做什麼

無需撰寫 PromQL 即可查詢指標

描述您想要測量的內容——"顯示過去一小時生產命名空間中每個 Pod 的 CPU 使用量"——Neotask 撰寫並執行 PromQL 表達式,以可讀格式返回結果並解釋數字的含義。

調查活躍警報

當警報觸發時,請 Neotask 提取底層指標、顯示觸發它的趨勢,並解釋它看起來像是尖峰還是持續降級。更快地從 "警報觸發" 到 "根本原因"。

建立警報規則

用純語言描述您的警報意圖——"如果任何 Pod 在 10 分鐘內重啟超過 5 次則警報"——Neotask 生成正確的 PromQL 表達式、設定合理的標籤和註解,並以 Prometheus YAML 格式格式化規則。

探索可用指標

詢問從特定目標抓取了哪些指標、哪些工作目前停機,或特定指標上有哪些標籤可用。Neotask 查詢 Prometheus API 以探索您的指標目錄。

分析趨勢與容量

要求摘要說明關鍵指標(如請求率、錯誤率或磁碟使用量)在過去一週的趨勢。取得純語言解釋:"您的錯誤率在週二晚間翻倍,與部署 v2.3 相關。"

試試這樣問

  • "我叢集中每個節點的當前 CPU 使用量是多少?"
  • "顯示 payment-service 的第 95 百分位請求延遲"
  • "撰寫一個追蹤每個命名空間記憶體使用量的 PromQL 查詢"
  • "哪些 Prometheus 目標目前停機?"
  • "生成當磁碟使用量超過 85% 持續 5 分鐘時觸發的警報規則"
  • "今天早上 HighMemoryUsage 警報為什麼觸發?"
  • "顯示過去 7 天按服務的錯誤率趨勢"
  • "從 node-exporter 工作抓取了哪些指標?"
  • 進階技巧

  • 建立查詢時要求 rate() 與 irate() 的指導——Neotask 解釋哪個適合您用例中的計數器。
  • 在提示中包含時間範圍:"過去 30 分鐘" 或 "自昨天上午 9 點以來" 以獲得相關結果而非 Prometheus 預設範圍。
  • 請 Neotask 解釋您繼承的 PromQL 表達式——貼上查詢並詢問 "這測量什麼以及是否有任何問題?"
  • 在提示中使用標籤匹配器:"僅限生產中的前端服務"——Neotask 會在查詢中添加正確的標籤選擇器。
  • 建立警報規則時,請 Neotask 包含指向內部 wiki 的 runbook_url 註解,以加快值班回應。
  • Works Well With