PERF 7: 您如何監控資源來確保達成預期效能?
系統效能可能會隨時間降低。監控系統效能以識別效能降低情況,並修復內部或外部因素,如作業系統或應用程式負載。
資源
Cut through the chaos: Gain operational visibility and insight (MGT301-R1)
X-Ray Documentation
CloudWatch Documentation
Monitoring, Logging, and Performance APN Partners
最佳實務:
-
記錄效能相關指標: 使用監控和可觀察性服務來記錄效能相關指標。例如,記錄資料庫交易、慢速查詢、I/O 延遲、HTTP 請求輸送量、服務延遲或其他關鍵資料。
-
分析事件或事故發生時的指標: 為回應事件或事故 (或在事件或事故期間),使用監控儀表板或報告來了解和診斷影響。這些檢視可讓您深入了解工作負載的哪些部分未如預期執行。
-
建立用於測量工作負載效能的關鍵績效指標 (KPI): 確定指示工作負載效能是否達到預期的 KPI。例如,以 API 為基礎的工作負載可能使用整體回應延遲來表示整體效能,而電子商務網站可能會選擇將購買數用作其 KPI。
-
使用監控來產生警示型通知: 使用監控系統和您定義的效能相關關鍵績效指標 (KPI),當這些測量結果超出預期範圍時自動產生警示。
-
定期審查指標: 作為日常維護或對事件或事故的回應,審查收集了哪些指標。透過這些審查來確定哪些指標是解決問題的關鍵,以及哪些其他指標 (如果被追蹤) 將有助於識別、解決或預防問題。
-
主動監控和警示: 使用關鍵績效指標 (KPI) 搭配監控和提醒系統,主動處理效能相關的問題。使用警示觸發自動化動作,盡可能修復問題。如果無法自動回應,則將警示上報給能夠回應的人員。例如,您可能有一個可以預測關鍵績效指標 (KPI) 預期值並在超過特定閾值時發出警示的系統,或者在 KPI 超出預期值時可以自動停止或回復部署的工具。
改進方案
記錄效能相關指標
分析事件或事故發生時的指標
建立用於測量工作負載效能的關鍵績效指標 (KPI)
使用監控來產生警示型通知
定期審查指標
主動監控和警示