Prometheus

Infrastructure

メトリクスを照会し、アラートを調査し、システムの健全性を把握 — NeotaskはOpenClaw経由でPromQLを話します。

できること

PromQLを書かずにメトリクスを照会

測定したい内容を説明すると — 「過去1時間のproductionネームスペースのPodごとのCPU使用率を見せて」— NeotaskがPromQL式を作成・実行し、数値の意味を含む読みやすい形式で結果を返します。

アクティブなアラートの調査

アラートが発火したとき、Neotaskに基盤となるメトリクスを取得させ、トリガーとなったトレンドを表示し、スパイクなのか持続的な劣化なのかを説明してもらえます。「アラート発火」から「根本原因」まで、より速くたどり着けます。

アラートルールの構築

アラートの意図を平易な日本語で説明すると — 「10分間にPodが5回以上再起動したらアラートして」— Neotaskが正しいPromQL式を生成し、適切なラベルとアノテーションを設定し、PrometheusのYAML形式でルールをフォーマットします。

利用可能なメトリクスの探索

特定のターゲットからスクレイピングされているメトリクス、現在ダウンしているジョブ、特定のメトリクスで利用可能なラベルを確認できます。NeotaskがPrometheus APIを照会してメトリクスカタログを探索します。

トレンドとキャパシティの分析

主要なメトリクス(リクエストレート、エラーレート、ディスク使用量など)が過去1週間でどのように推移したかのサマリーを依頼できます。平易な解釈が得られます:「火曜日の夕方にエラーレートが倍増しており、デプロイメントv2.3と相関しています。」

こう聞いてみよう

  • 「クラスター内の各ノードの現在のCPU使用率は?」
  • 「payment-serviceの95パーセンタイルリクエストレイテンシを見せて」
  • 「ネームスペースごとのメモリ使用量を追跡するPromQLクエリを書いて」
  • 「現在ダウンしているPrometheusターゲットはどれ?」
  • 「ディスク使用量が5分間85%を超えたら発火するアラートルールを生成して」
  • 「今朝HighMemoryUsageアラートが発火した理由は?」
  • 「過去7日間のサービス別エラーレートのトレンドを見せて」
  • 「node-exporterジョブからスクレイピングされているメトリクスは何?」
  • 活用のコツ

  • クエリ構築時にrate()とirate()のガイダンスを依頼しましょう — Neotaskがあなたのユースケースでカウンターにどちらが適切か説明します。
  • プロンプトに時間範囲を含めましょう:Prometheusのデフォルト範囲ではなく関連性のある結果を得るために「過去30分間」や「昨日の朝9時から」と指定します。
  • 引き継いだPromQL式をNeotaskに説明してもらいましょう — クエリを貼り付けて「これは何を測定していて問題はある?」と聞きます。
  • プロンプトでラベルマッチャーを使いましょう:「productionのfrontendサービスのみ」— Neotaskがクエリに正しいラベルセレクターを追加します。
  • アラートルール作成時は、オンコール対応を迅速化するために内部Wikiを指すrunbook_urlアノテーションを含めるようNeotaskに依頼しましょう。
  • Works Well With