Prometheus

ความสามารถในการสังเกต

สอบถาม ดึง metrics Prometheus ผ่านการสนทนา

คุณสามารถทำอะไรได้บ้าง

เมตริกแบบสอบถามโดยไม่ต้องเขียน PromQL

อธิบายสิ่งที่คุณต้องการวัด — "แสดงการใช้งาน CPU ต่อพ็อดในเนมสเปซที่ใช้งานจริงในช่วงชั่วโมงที่ผ่านมา" และ Neotask เขียนและรันนิพจน์ PromQL โดยส่งคืนผลลัพธ์ในรูปแบบที่อ่านได้พร้อมบริบทเกี่ยวกับความหมายของตัวเลข

ตรวจสอบการแจ้งเตือนที่ใช้งานอยู่

เมื่อมีการแจ้งเตือนเกิดขึ้น ขอให้ Neotask ดึงตัวชี้วัดที่ซ่อนอยู่ แสดงให้คุณเห็นแนวโน้มที่กระตุ้นให้เกิดการแจ้งเตือน และอธิบายว่าดูเหมือนว่าจะเพิ่มขึ้นอย่างรวดเร็วหรือลดลงอย่างต่อเนื่อง เปลี่ยนจาก "การแจ้งเตือน" ไปสู่ ​​"สาเหตุที่แท้จริง" ได้เร็วขึ้น

สร้างกฎการแจ้งเตือน

อธิบายจุดประสงค์ในการแจ้งเตือนของคุณเป็นภาษาอังกฤษธรรมดา — "แจ้งเตือนหากพ็อดใดรีสตาร์ทมากกว่า 5 ครั้งใน 10 นาที" — และ Neotask สร้างนิพจน์ PromQL ที่ถูกต้อง ตั้งค่าป้ายกำกับและคำอธิบายประกอบที่สมเหตุสมผล และจัดรูปแบบกฎในรูปแบบ Prometheus YAML

สำรวจตัวชี้วัดที่มีอยู่

ถามว่าเมตริกใดที่ถูกคัดลอกมาจากเป้าหมายเฉพาะ งานใดที่กำลังใช้งานอยู่ หรือมีป้ายกำกับใดบ้างในเมตริกหนึ่งๆ Neotask สอบถาม Prometheus API เพื่อสำรวจแค็ตตาล็อกหน่วยเมตริกของคุณ

วิเคราะห์แนวโน้มและความสามารถ

สอบถามข้อมูลสรุปว่าตัววัดหลัก (เช่น อัตราคำขอ อัตราข้อผิดพลาด หรือการใช้งานดิสก์) มีแนวโน้มอย่างไรในสัปดาห์ที่ผ่านมา รับการตีความด้วยภาษาธรรมดา: "อัตราข้อผิดพลาดของคุณเพิ่มขึ้นสองเท่าในเย็นวันอังคาร ซึ่งสัมพันธ์กับการปรับใช้เวอร์ชัน 2.3"

ลองถามดู

  • "การใช้งาน CPU ปัจจุบันสำหรับแต่ละโหนดในคลัสเตอร์ของฉันเป็นเท่าใด"
  • "แสดงเวลาแฝงของคำขอเปอร์เซ็นไทล์ที่ 95 สำหรับบริการการชำระเงิน"
  • "เขียนแบบสอบถาม PromQL เพื่อติดตามการใช้หน่วยความจำต่อเนมสเปซ"
  • "เป้าหมายของ Prometheus ตัวไหนที่ล่มอยู่ในขณะนี้?"
  • "สร้างกฎการแจ้งเตือนที่จะเริ่มทำงานเมื่อมีการใช้งานดิสก์เกิน 85% เป็นเวลา 5 นาที"
  • “เหตุใดการแจ้งเตือน HighMemoryUsage จึงเริ่มทำงานเมื่อเช้านี้”
  • "แสดงแนวโน้มอัตราข้อผิดพลาดในช่วง 7 วันที่ผ่านมาตามบริการ"
  • "ตัวชี้วัดใดบ้างที่ถูกคัดลอกมาจากงานผู้ส่งออกโหนด"
  • เคล็ดลับมือโปร

  • ขอคำแนะนำเกี่ยวกับ Rate() กับ Irate() เมื่อสร้างคำสั่ง — Neotask อธิบายว่าข้อใดเหมาะสำหรับตัวนับในกรณีการใช้งานของคุณ
  • รวมช่วงเวลาในข้อความแจ้งของคุณ: "ในช่วง 30 นาทีที่ผ่านมา" หรือ "ตั้งแต่เมื่อวาน เวลา 9.00 น." สำหรับผลลัพธ์ที่เกี่ยวข้อง แทนที่จะเป็นช่วงเริ่มต้นของ Prometheus
  • ขอให้ Neotask อธิบายนิพจน์ PromQL ที่คุณสืบทอดมา วางข้อความค้นหาแล้วถามว่า "สิ่งนี้ใช้วัดอะไรและมีปัญหาใดๆ หรือไม่"
  • ใช้ตัวจับคู่ป้ายกำกับในข้อความแจ้งของคุณ: "สำหรับบริการส่วนหน้าในการใช้งานจริงเท่านั้น" — Neotask จะเพิ่มตัวเลือกป้ายกำกับที่ถูกต้องลงในแบบสอบถาม
  • เมื่อสร้างกฎการแจ้งเตือน ขอให้ Neotask รวมคำอธิบายประกอบ runbook_url ที่ชี้ไปยังวิกิภายในของคุณเพื่อการตอบกลับเมื่อมีสายเร็วขึ้น
  • Works Well With