Prometheus
監控
查詢指標並監控系統健康 — Neotask 透過 OpenClaw 為您自動化 Prometheus。
- 執行 PromQL 查詢以取得指標
- 監控警示和事件
- 分析時間序列資料趨勢
您可以做什麼
無需撰寫 PromQL 即可查詢指標
描述您想要測量的內容——"顯示過去一小時生產命名空間中每個 Pod 的 CPU 使用量"——Neotask 撰寫並執行 PromQL 表達式,以可讀格式返回結果並解釋數字的含義。
調查活躍警報
當警報觸發時,請 Neotask 提取底層指標、顯示觸發它的趨勢,並解釋它看起來像是尖峰還是持續降級。更快地從 "警報觸發" 到 "根本原因"。
建立警報規則
用純語言描述您的警報意圖——"如果任何 Pod 在 10 分鐘內重啟超過 5 次則警報"——Neotask 生成正確的 PromQL 表達式、設定合理的標籤和註解,並以 Prometheus YAML 格式格式化規則。
探索可用指標
詢問從特定目標抓取了哪些指標、哪些工作目前停機,或特定指標上有哪些標籤可用。Neotask 查詢 Prometheus API 以探索您的指標目錄。
分析趨勢與容量
要求摘要說明關鍵指標(如請求率、錯誤率或磁碟使用量)在過去一週的趨勢。取得純語言解釋:"您的錯誤率在週二晚間翻倍,與部署 v2.3 相關。"
試試這樣問
"我叢集中每個節點的當前 CPU 使用量是多少?"
"顯示 payment-service 的第 95 百分位請求延遲"
"撰寫一個追蹤每個命名空間記憶體使用量的 PromQL 查詢"
"哪些 Prometheus 目標目前停機?"
"生成當磁碟使用量超過 85% 持續 5 分鐘時觸發的警報規則"
"今天早上 HighMemoryUsage 警報為什麼觸發?"
"顯示過去 7 天按服務的錯誤率趨勢"
"從 node-exporter 工作抓取了哪些指標?"進階技巧
建立查詢時要求 rate() 與 irate() 的指導——Neotask 解釋哪個適合您用例中的計數器。
在提示中包含時間範圍:"過去 30 分鐘" 或 "自昨天上午 9 點以來" 以獲得相關結果而非 Prometheus 預設範圍。
請 Neotask 解釋您繼承的 PromQL 表達式——貼上查詢並詢問 "這測量什麼以及是否有任何問題?"
在提示中使用標籤匹配器:"僅限生產中的前端服務"——Neotask 會在查詢中添加正確的標籤選擇器。
建立警報規則時,請 Neotask 包含指向內部 wiki 的 runbook_url 註解,以加快值班回應。
Works Well With
- airtable - Connect Airtable and Prometheus with Neotask to automate monitoring workflows, sync metrics data, and trigger alerts fro...
- google-keep - Connect Google Keep and Prometheus with Neotask. Automate monitoring notes, document alerts, and streamline your observa...
- video-frames - Combine Prometheus monitoring with video frame extraction to capture visual proof of infrastructure incidents, alert sta...