Amazon CloudWatch 常見問答集

一般問題

Amazon CloudWatch 是一項針對在 AWS 上執行的雲端資源和應用程式的 AWS 監控服務。您可以使用 Amazon CloudWatch 收集和追蹤指標、收集和監控日誌檔以及設定警示。除了監控應用程式和服務產生的自訂指標,以及在內部部署、混合式或在其他雲端託管的應用程式產生的所有日誌外,Amazon CloudWatch 還可以監控各種 AWS 資源,例如 Amazon EC2 執行個體、Amazon DynamoDB 表、Amazon RDS 資料庫執行個體。您可以使用 Amazon CloudWatch 全面了解系統的資源使用率、應用程式效能和運作狀態。可以使用這些分析結果並即時做出反應,保持應用程式順暢運作。

要開始使用監控,您可以使用內建 AWS 最佳實務的自動儀表板,探索帳戶和檢視以資源為基礎的指標和警示情況,並輕鬆深入了解引起效能問題的根本原因。

您可以透過 API、命令列界面、AWS 開發套件以及 AWS 管理主控台存取 Amazon CloudWatch。

Amazon CloudWatch 為所有 Amazon EC2 執行個體接收和提供指標,且應適用於 Amazon EC2 服務目前支援的所有作業系統。

Amazon CloudWatch 已與 AWS Identity and Access Management (IAM) 整合,因此,您可以指定 AWS 帳戶中的使用者能夠執行哪些 CloudWatch 動作。例如,您可以建立一個 IAM 政策,將使用 GetMetricStatistics 的許可僅提供給組織中的特定使用者。然後,他們就可以使用該動作來擷取有關雲端資源的資料。

您不能使用 IAM 來控制對 CloudWatch 上的特定資源之資料的存取。例如,您不能只授與使用者對一組特定執行個體或特定 LoadBalancer 的 CloudWatch 資料存取權限。透過 IAM 授與的許可涵蓋與 CloudWatch 搭配使用的所有雲端資源。此外,您不能將 IAM 角色與 Amazon CloudWatch 命令列工具搭配使用。

Amazon CloudWatch Logs 可讓您透過現有系統、應用程式和自訂日誌檔來監控系統和應用程式,以及進行故障排除。

使用 CloudWatch Logs,您可用幾乎即時的方式監控您日誌上的特定字詞、數值或模式。例如,您可以按系統日誌內發生的錯誤數量設定警示,或從應用程式日誌檢視 Web 請求延遲的圖表。然後您可以檢視原始日誌資料,以查看問題來源。日誌資料可無限期存放於成本低廉、高耐用性的儲存以供存取,您無須擔心硬碟空間不足。
Amazon CloudWatch Logs 可讓您透過現有系統、應用程式和自訂日誌檔來監控系統和應用程式,以及進行故障排除。

CloudWatch Logs 能夠監控和存放日誌,協助您更了解系統和應用程式及其運作。CloudWatch Logs 有多種使用方式。

即時應用程式和系統監控:您可以透過 CloudWatch Logs,使用日誌資料來監控應用程式和系統。例如,CloudWatch Logs 可追蹤應用程式日誌內發生的錯誤數量,並在錯誤率超過指定的閾值時傳送通知給您。CloudWatch Logs 會使用您的日誌資料進行監控,因此不需要變更程式碼。

長期日誌保留:您可以透過 CloudWatch Logs 將日誌資料無限期地存放於成本低廉、高耐用性的儲存空間,無須擔心硬碟空間不足。CloudWatch Logs 代理器可讓您輕鬆快速地將輪換和非輪換的日誌檔案從主機移入日誌服務。然後,您可以視需要存取原始日誌事件資料。

Amazon Linux、Ubuntu、CentOS、Red Hat Enterprise Linux 和 Windows 都支援 CloudWatch Logs 代理器。此代理器支援在主機上監控個別日誌檔案的功能。

是。CloudWatch Logs 代理器已與 Identity and Access Management (IAM) 整合,並支援存取金鑰與 IAM 角色。

Amazon CloudWatch Logs Insights 是 CloudWatch Logs 的互動式、按用量付費整合日誌分析功能。它讓開發人員、操作人員和系統工程師能夠搜尋和視覺化日誌,幫助他們了解、改進和偵錯應用程式。Logs Insights 與 CloudWatch 完全整合,讓您可以管理、瀏覽和分析日誌。您還可以結合 CloudWatch Metrics、Alarms 和 Dashboards 利用 Logs,來獲得對應用程式的完整營運可見性。這讓您能夠了解應用程式,進行改進,快速查找並修正問題,以便您可以繼續快速創新。您可以藉由彙總、篩選條件和規則表達式寫入查詢,以從您的日誌獲得可行的洞見。您還可以視覺化時間序列資料,深入檢視個別日誌事件,並將您的查詢結果匯出至 CloudWatch 儀表板。

您可以立即開始使用 Logs Insights 對傳送到 CloudWatch Logs 的所有日誌執行查詢。無需設定,也無需管理基礎設施。您可以使用 AWS 開發套件,從 AWS 管理主控台存取 Logs Insights,也可以透過應用程式以程式設計的方式存取。

Amazon CloudWatch 異常偵測套用機器學習演算法,持續分析單一時間序列的系統和應用程式、決定一般基準,並透過最少的使用者介入顯現異常狀況。這可讓您建立警示,根據自然的指標模式,例如,一天中的時間、一週中的一天、季節性或趨勢變化,來自動調整臨界值。此外,您還可以使用儀表板上的異常偵測區間,視覺化指標,監控、隔離指標,以及對指標中的非預期變更進行疑難排解。

輕鬆開始使用異常偵測。在 CloudWatch 主控台中,移至導覽窗格中的警示,以建立警示,或開始使用指標,將指標的預期值作為一個範圍覆蓋在圖表上。您也可以使用 AWS CLI、AWS SDK 或 AWS CloudFormation 範本啟用異常偵測。若要進一步了解,請參閱 CloudWatch 異常偵測文件定價頁面。

Amazon CloudWatch 現已包括 Contributor Insights,能分析時序資料,以了解影響系統效能的最主要因素。一旦設定完成,Contributor Insights 就能持續執行,使用者無需介入。如此一來,開發人員和操作人員就能在發生操作事件時,更迅速地隔離、診斷及化解問題。

在 CloudWatch 主控台中,前往導覽窗格中的「Contributor Insights」以建立 Contributor Insights 規則。您也可以使用 AWS CLI、AWS 開發套件或 AWS CloudFormation 範本啟用 Contributor Insights。Contributor Insights 在所有的商業 AWS 區域皆提供。若要進一步了解,請瀏覽 CloudWatch Contributor Insights 的文件。

Amazon CloudWatch ServiceLens 是一種功能,可讓您在一處即可視覺化並分析您應用程式的運作狀態、效能及可用性。CloudWatch ServiceLens 結合 CloudWatch 指標和日誌,以及 AWS X-Ray 的追蹤功能,可協助您全面掌握您的應用程式及其相依項目。這可讓您快速且精準地找出效能瓶頸、隔離應用程式問題的根本原因,以及確定受影響的使用者。CloudWatch ServiceLens 可讓您充分掌握應用程式的以下三個主要面向:基礎設施監控 (透過指標和日誌,了解支援您應用程式的資源)、交易監控 (透過追蹤功能,了解您資源之間的相依性),以及最終使用者監控 (使用 Canary 監控端點,並在最終使用者體驗不如預期時通知您)。

如果您已使用 AWS X-Ray,預設可以在 CloudWatch 主控台上存取 CloudWatch ServiceLens。如果您尚未使用 AWS X-Ray,透過 X-Ray 開發套件在您應用程式上啟用 AWS X-Ray 即可開始使用。在提供 AWS-X-Ray 的所有公有 AWS 區域都可使用 Amazon CloudWatch ServiceLens。如要進一步了解,請瀏覽 Amazon CloudWatch ServiceLens 說明文件。

Amazon CloudWatch Synthetics 可讓您更輕鬆地監控應用程式端點。這能全年無休隨時測試您的端點,並在應用程式端點行為不合預期時立即發出警示。您可自訂這些測試,針對可用性、延遲、交易、連結中斷或失效、逐步任務完成進度、頁面載入錯誤、UI 資產負載延遲、複雜的精靈操作程序,或應用程式中的結帳流程等方面,深入檢查。您也可使用 CloudWatch Synthetics 隔離發出警示的應用程式端點,對應回底層基礎設施問題,縮短解決問題的平均時間。

開始使用 CloudWatch Synthetics 相當簡單。您可以在短短幾分鐘內編寫第一個傳遞 Canary。如要進一步了解,請瀏覽 Amazon CloudWatch Synthetics 說明文件

定價

請參閱定價頁面了解最新資訊。

所有 Amazon EC2 執行個體類型都會自動將關鍵運作狀態和效能指標免費傳送至 CloudWatch。若啟用 EC2 詳細監控,則會根據傳送至執行個體的 CloudWatch 的指標數目,向您收取自訂指標的費用。針對執行個體傳送的指標數目取決於執行個體類型,如需詳細資訊,請參閱執行個體可用的 CloudWatch 指標

除非另有說明,否則我們的價格不包括適用的稅金和稅收 (包括加值稅和適用的營業稅)。進一步了解。

2017 年 7 月以前,CloudWatch 費用在 AWS 帳單及成本和用量報告切割成兩個部分。基於歷史因素,CloudWatch 警示、CloudWatch 指標及 CloudWatch API 的用量費用會列在帳單的「Elastic Compute Cloud」(EC2) 詳細資訊部分,而 CloudWatch Logs 和 CloudWatch 儀表板的費用則會列在「CloudWatch」詳細資訊部分。為有助於合併與簡化您的每月 AWS CloudWatch 用量和帳單,我們將 CloudWatch 指標、警示及 API 用量的費用從帳單的 "EC2" 部分移到 "CloudWatch" 部分,有效地將所有 CloudWatch 監控費用全都放在 "CloudWatch" 部分。請注意,這並不會影響您的 AWS 帳單總金額。您的帳單及成本和用量報告現在只會在一個部分顯示 CloudWatch 的費用。

此外,CloudWatch 有一個名為「預計費用」的帳單指標,可用來檢視總預計費用或是服務細項預計費用。「總預計費用」指標不會改變。但是,依服務細分的「預計費用」指標會在 ServiceName 維度等於 "AmazonEC2" 和 ServiceName 維度等於 "AmazonCloudWatch" 時改變。由於帳單合併的緣故,您可能會看到 AmazonEC2 帳單指標減少,而 AmazonCloudWatch 帳單指標增加,因為用量和帳單費用已從 EC2 移出並移入 CloudWatch 中。

Logs Insights 是依查詢計價,而費用是以查詢所掃描的擷取日誌的資料量為依據。如需有關定價的其他詳細資訊,請瀏覽 Amazon CloudWatch 定價

是,若您手動取消查詢,便會依據截至取消查詢前所掃描的擷取日誌的資料量計費。

不,查詢失敗不會計費。

跨帳戶可觀察性

Amazon CloudWatch 中的跨帳戶可觀察性可讓您監控跨區域內多個帳戶的應用程式,並對其進行疑難排解。使用跨帳戶可觀察性,您可以無縫搜尋、視覺化並分析您的指標、日誌和追蹤,而不必為帳戶邊界而擔憂。您可以從應用程式的彙總跨帳戶檢視開始,以視覺化方式識別出現錯誤的資源,並深入研究相關的追蹤、指標和日誌,以找出問題的根本原因。跨帳戶監控支援無縫的跨帳戶資料存取和導覽,可協助您減少解決問題所需的手動工作,並節省寶貴的解決時間。跨帳戶可觀察性是對 Amazon CloudWatch 統一可觀察性功能的補充。

跨帳戶可觀察性引入了兩個新的帳戶概念。「監控帳戶」是中央 AWS 帳戶,可跨其他帳戶檢視產生的可觀察性資料並與之互動。「來源帳戶」是個別 AWS 帳戶,可針對駐留在其中的資源產生可觀察性資料。一旦您確定監控帳戶和來源帳戶,即可透過選取要與您的監控帳戶共用哪些遙測資料,來完成跨帳戶監控組態。只需幾分鐘,即可輕鬆設定中央監控帳戶,從中全面了解跨多個相關帳戶或整個 AWS 組織部署的應用程式的運作狀態和效能。藉助 Amazon CloudWatch 中的跨帳戶可觀察性,您可以概觀可能影響服務可用性的跨應用程式相依項,主動查明問題並進行疑難排解,從而縮短平均解決時間。

使用跨帳戶可觀察性,您可以從中央檢視搜尋跨多個帳戶存放的日誌群組,執行跨帳戶 Logs Insights 查詢、Live Tail 分析,以及跨帳戶建立 Contributor Insights 規則,以識別產生日誌項目的前 N 個促成因素。您可以使用指標搜尋,在綜合檢視中視覺化多個帳戶的指標,並建立警示來評估其他帳戶的指標,以便在出現異常和趨勢問題時收到通知,並在集中式儀表板上視覺化呈現。您還可以使用此功能設定單一跨帳戶指標串流,以包含跨 AWS 區域中多個 AWS 帳戶的指標。憑藉跨帳戶可觀察性,您還可以使用 ServiceLens 檢視跨帳戶應用程式的互動式地圖,只需一步即可深入了解相關指標、日誌和追蹤。

Amazon CloudWatch 中的跨帳戶監控和跨帳戶跨區域功能都將在 Amazon CloudWatch 主控台上提供。當您在 CloudWatch 中設定跨帳戶可觀察性時,跨帳戶、跨區域下拉式選單將從主控台中移除。請注意,Amazon CloudWatch 中的跨帳戶可觀察性體驗一次只在一個區域內可用。跨帳戶、跨區域功能允許透過 IAM 角色,來存取組織範圍的遙測資料。Amazon CloudWatch 中的跨帳戶可觀察性使用 Observability Access Manager API 來定義存取政策。如要進一步了解,請參閱我們的文件。

應用程式效能監控 (APM)

Amazon CloudWatch 可完全了解應用程式交易跨度,為開發人員提供任何規模的強大全新搜尋和分析體驗。這個全面的解決方案不僅僅是取樣,還能夠在交易相關業務影響與應用程式效能之間快速建立連線。藉助立即可用的分析和視覺化功能,CloudWatch 可對整體應用程式交易運作狀態和效能提供即時洞察。此功能可與 CloudWatch Application Signals 無縫整合,讓團隊能夠輕鬆高效地監控和最佳化應用程式,並對其進行疑難排解。

您可以在 AWS Management Console for CloudWatch 中開啟 Application Signals,或在 AWS 資源 (例如 Amazon EKS 叢集) 上啟用 CloudWatch 時開啟。應用程式檢測隨附在 Amazon CloudWatch Agent 中。在摘要檢視和服務地圖上可以探索應用程式服務、其 API 和相依性,並將其視覺化。為反映業務影響和重要性,只需要按幾下滑鼠,就可以針對標準應用程式指標、真實使用者或綜合監視器,建立服務水準目標 (SLO)。主控台中的「啟用更多 APM」檢視可顯示受監控和未受監控的資源,從而讓客戶逐步新增應用程式可見性。您可以使用 CloudWatch 設定來增加對重要服務的追蹤取樣,並擷取更多重大交易範例,例如付款訂單。若要新增外部可用性監控或 UI 工作流程,您可以新增 Synthetic Canary;若要新增用戶端可見性,請在其 Web 應用程式上啟用 RUM 遙測。 若要開始使用可完全了解應用程式交易跨度的 Application Signals,請參閱文件

Amazon CloudWatch Application Signals 可探索在 EKS 中執行的抵押貸款付款處理器等應用程式服務,並針對 API 的數量、延遲、錯誤和故障產生一組標準應用程式指標 (例如新增使用者、下訂單、付款等) 和相依性 (例如在應用程式服務之間、對 AWS 服務或對外部端點的呼叫)。客戶可以透過定義服務水準目標來反映應用程式服務、其 API 和相依性的業務影響與重要性。接著,AWS Management Console for CloudWatch 中以應用程式為中心的新可觀測性檢視,將會針對 SLO 總結應用程式運作狀態,並提供深入分析以便於確定根本原因。

使用 Application Signals 可獲得整合式應用程式效能監控體驗。您可以透過整合式監控,自動收集應用程式遙測並建立關聯,同時為業務關鍵應用程式排定優先順序。您也可以利用警示、追蹤和事件資料來採取自動化動作,並縮短從問題復原 (MTTR) 所需的時間。您可以監控在 Amazon EKS、Amazon EC2、Amazon ECS、資料庫、元件或內部部署資源上執行的應用程式。只需指定要監控的資源,並在 CloudWatch 主控台中啟用 Application Signals for Amazon EKS,而無需手動設定。對於其他所有應用程式環境,您可以快速部署 CloudWatch Agent 並開始監控您的應用程式。您可以使用 Application Signals 建立、衡量和追蹤符合您業務和營運 KPI 的 SLO。SLO 在管理關鍵應用程式、提高可用性、減少停機時間以及提供一致的客戶體驗方面至關重要。您需要存取所有應用程式的全面檢視,而且能夠管理應用程式效能。利用自動、預先建置且標準化的儀表板來處理您的所有應用程式、服務和遙測資料。這些視覺化功能可協助您快速掃描和存取指標,例如數量、可用性延遲以及影響應用程式的錯誤。Application Signals 服務地圖可讓您深入研究追蹤、API 和運算資源,以全面檢視應用程式問題的根本原因。在 Application Signals 中整合 Amazon CloudWatch RUM 與 Amazon CloudWatch Synthetics 之後,可在單一檢視中為您提供即時使用者資料和 Canary。如果您需要在影響任何最終使用者之前快速確定程式碼、相依性或託管環境中的根本原因,這非常重要。

CloudWatch Application Insights 可協助您監控使用 Amazon EC2 執行個體與其他應用程式資源的應用程式。它可在應用程式資源和技術堆疊 (例如 Microsoft SQL Server 資料庫、Web (IIS) 和應用程式伺服器、作業系統、負載平衡器以及佇列) 中識別和設定關鍵指標、日誌與警示。它會持續監控指標和日誌,以偵測異常狀況和錯誤並建立關聯。偵測到錯誤和異常狀況時,Application Insights 會產生 CloudWatch Events,您可以將其用於設定通知或採取動作。為協助進行疑難排解,它會針對偵測到的問題 (包括相關指標異常和日誌錯誤) 建立自動儀表板,並提供其他見解,指出潛在的根本原因。

Amazon CloudWatch Application Signals 可擴展 Amazon CloudWatch,在 AWS Management Console for CloudWatch 中提供標準化的應用程式指標和以應用程式為中心的可觀測性檢視。無需編寫自訂檢測即可開始使用。新的檢視可總結應用程式運作狀態以協助判斷業務影響並排定優先順序,然後提供深入分析以便於確定根本原因。
當客戶選擇可完全了解應用程式交易跨度的 Application Signals 時,您可存取任何規模的強大全新搜尋和分析體驗。這個全面的解決方案不僅僅是取樣,還能夠在交易相關業務影響與應用程式效能之間快速建立連線。藉助立即可用的分析和視覺化功能,CloudWatch 可對整體應用程式交易運作狀態和效能提供即時洞察。此功能讓團隊能夠輕鬆高效地監控和最佳化應用程式,並對其進行疑難排解。

X-Ray 追蹤

X-Ray 追蹤可協助開發人員分析和偵錯生產、分散式應用程式,提供請求在應用程式中傳輸時的端對端檢視。

X-Ray 讓您輕鬆地:

  1. 建立服務地圖:X-Ray 追蹤請求以對應使用的服務,並顯示連線、相依性樹狀圖以及跨可用區域或區域的問題。

  2. 識別錯誤和偵錯:X-Ray 分析回應碼,以自動顯示錯誤,實現輕鬆偵錯而無需重新產生。

  3. 建立自訂分析和視覺化應用程式:X-Ray 的查詢 API 允許建立利用其記錄的資料的應用程式。

一組資料點,可在請求通過應用程式服務時共享相同的追蹤 ID。

  • 片段:封裝分散式應用程式的單一元件的資料,包括系統定義和使用者定義的資料。

  • 自動化:與片段關聯的系統定義或使用者定義的中繼資料。

  • 錯誤:會導致錯誤的呼叫片段上的系統註釋,包括訊息、堆疊追蹤和來源詳細資料。

  • 取樣:X-Ray 會針對具有統計意義的請求數量收集資料,而不是每個請求,以提高效能和成本效益。

  • X-Ray 常駐程式:收集追蹤並將其傳送至 X-Ray 的服務,與直接 API 使用相比,簡化了程序。

在應用程式內包含 X-Ray 語言開發套件並安裝 X-Ray 常駐程式,即可開始使用 X-Ray。如需詳細資訊,請參閱 X-Ray 使用者指南

X-Ray 可與任何大小的分散式應用程式搭配使用,以同時追蹤和偵錯同步請求與非同步事件。例如,您可以使用 X-Ray 來追蹤對 Web 應用程式發出的 Web 請求,或使用 Amazon SQS 佇列的非同步事件。

X-Ray 可與 EC2、ECS、Lambda、Amazon SQS、Amazon SNS 和 Elastic Beanstalk 上執行的應用程式一起使用。此外,X-Ray 開發套件可使用 AWS 開發套件自動擷取對 AWS 服務發出的 API 呼叫中繼資料。X-Ray 開發套件還提供 MySQL 和 PostgreSQL 驅動程式的增益集。

如果您使用 Elastic Beanstalk,則必須在應用程式程式碼內包含語言特定的 X-Ray 程式庫。至於在其他 AWS 服務 (EC2 或 ECS) 上執行的應用程式,則必須安裝 X-Ray 常駐程式並檢測應用程式程式碼。

是,X-Ray 提供一組 API,可用於導入請求資料、查詢追蹤及設定服務。除了 X-Ray 本身提供的 API 之外,您也可以使用 X-Ray API 建立分析和視覺化應用程式。

是。X-Ray 會將所有 API 呼叫記錄為管理事件。它還會將追蹤的呼叫以資料事件的形式紀錄,包括在其他 API 之間的 PutTraceSegments 和 GetTimeSeriesServiceStatistics。資料事件預設為不會記錄。若要記錄資料事件,您必須設定 CloudTrail 追蹤或事件資料存放區,以收集資料事件。

容器監控

CloudWatch 容器洞見是容器化應用程式和微型服務上的監控、故障排除和警報功能。容器洞見針對影響容器環境的效能問題提供簡化的隔離和分析。DevOps 和系統工程師可存取 CloudWatch 主控台的自動儀表板,依 pod/任務、容器和服務查看各指標、日誌和分散式追蹤的端對端操作資訊,以取得 Amazon Elastic Container Service for Kubernetes (EKS)Amazon Elastic Container Service (ECS)AWS FargateKubernetes 叢集的效能和運作狀態摘要。

具有 Amazon Elastic Kubernetes Service (EKS) 增強可觀測性的 Container Insights 可讓您以視覺方式深入研究 EKS 容器層,並輕鬆發現個別容器中的記憶體洩漏等問題,從而縮短平均解決時間。透過控制平面指標,您現在可以監控自動擴展狀態,並在自動化測試功能中規劃測試叢集生命週期,以提高營運效率。透過 EKS 的增強可觀測性,您現在可以按資源消耗狀況,對叢集、節點和工作負載進行排序並快速識別異常情況、設定自己的警示以密切監控,並在終端使用者體驗受到影響之前主動降低風險。

是。您可以使用具有 Amazon Elastic Kubernetes Service (EKS) 增強可觀測性的 Container Insights,監控控制平面狀態。例如,您可以將其用於了解自動擴展狀態,並在自動化測試功能中規劃測試叢集生命週期。

具有 Amazon Elastic Kubernetes Service (EKS) 增強可觀測性的 Container Insights 提供立即可用的詳細運作狀態和效能指標,其中包括容器層級的 EKS 效能指標、Kube 狀態指標和 EKS 控制平面指標,以便更快速地進行問題隔離和疑難排解。增強的可觀測性可讓客戶以視覺方式深入研究各個容器層,並輕鬆發現個別容器中的記憶體洩漏等問題,從而縮短平均解決時間。透過控制平面指標,客戶現在可以監控自動擴展狀態,並在自動化測試功能中規劃測試叢集生命週期,以提高營運效率。透過增強的可觀測性,客戶現在可以按資源消耗狀況,對叢集、節點和工作負載進行排序並快速識別異常情況、設定自己的警示以密切監控,並在終端使用者體驗受到影響之前主動降低風險。增強的可觀測性是一個選用的功能。沒有增強可觀測性的 Container Insights 可提供叢集和服務層級的彙總指標。

是。您可以針對每個叢集決定要使用具有或沒有增強可觀測性的 Container Insights。您可以在使用叢集資訊檢視中的附加元件標籤建立叢集之後,在叢集中安裝適用於 EKS 的 CloudWatch 可觀測性附加元件,為叢集啟用增強的可觀測性。請參閱 CloudWatch Container Insights 文件,了解如何設定 CloudWatch 代理程式以便為 EKS 啟用增強的可觀測性。

具有增強可觀測性的 Container Insights 支援 Amazon EKS。

只需按幾下,就可以開始從容器和叢集中收集詳細的效能指標、日誌和中繼資料,或者啟用 CloudWatch 可觀測性附加元件以增強可觀測性。要開始使用 Container Insights,請按照 Amazon CloudWatch Container Insights 文件中提供的步驟進行操作。

如需有關 Container Insights 定價的詳細資訊,請參閱 CloudWatch 定價頁面

不,目前支援的指標類型為 Gauge 和 Counters。計劃會在後續的版本支援 Histogram 和 Summary 指標。

Prometheus 是一種熱門的開放原始碼監控專案,隸屬於 Cloud Native Compute Foundation (CNCF)。開放原始碼社群已建立 150 個以上的外掛程式並已定義一個框架,DevOps 團隊可用於公開以提取方式從應用程式收集的自訂指標。DevOps 團隊可以使用這個新功能,為容器化工作負載 (例如 AWS App Mesh、NGINX 及 Java/JMX) 自動探索服務。另外也能公開這些服務的自訂指標,以及將指標導入至 CloudWatch。藉由安排 Prometheus 指標的收集和彙總,CloudWatch 使用者可以更快速地對應用程序效能降低和故障進行監控、疑難排解及警報,同時減少所需的監視工具數量。

Prometheus 指標會自動導入為 CloudWatch 自訂指標。每個指標資料點的保留期間為 15 個月,並自動彙總 (<60 秒的資料點可使用 3 小時、1 分鐘的資料點可使用 15 天、5分鐘的資料點可使用 63 天、1 小時的資料點可使用 15 個月)。如需進一步了解,請參閱有關 CloudWatch 指標保留的文件

是。每個 Kubernetes (k8s) 叢集皆有專屬的事件日誌群組 (例如 /aws/containerinsights//prometheus) 及專屬的可設定保留期間。如需詳細資訊,請參閱有關日誌群組保留的文件

不,所有指標都將導入為 CloudWatch Logs 事件,並可使用 CloudWatch Logs Insights 查詢進行查詢。如需詳細資訊,請參閱有關 CloudWatch Logs Insights 搜尋語言語法的文件

您將支付所使用以下項目的費用:(1) 導入的 CloudWatch Logs (以 GB 為單位)、(2) 儲存的 CloudWatch Logs,以及 (3) CloudWatch 自訂指標。請參閱 CloudWatch 定價頁面以了解您的 AWS 區域的定價詳情。

網路監控

Amazon CloudWatch 網路監視器可協助您持續監控 AWS 託管的應用程式和應用程式最終使用者之間的網際網路可用性和效能指標。使用網路監視器,您可以快速地將問題的影響視覺化,查明受影響的位置和供應商,然後採取措施改善最終使用者的網路體驗。您可以查看流量模式和運作狀態事件的全域檢視,並深入了解不同地理粒度的事件資訊。如果問題由 AWS 網路引起,則您會收到 AWS Health 儀板表通知,告知您 AWS 正在採取的緩解問題的步驟。網路監視器還提供洞察和建議,可協助您改善使用者使用其他 AWS 服務的體驗。

如要使用網路監視器,您需要建立一個監控器並將應用程式的資源、Amazon Virtual Private Cloud (VPC)、CloudFront 分發或 WorkSpaces 目錄與之關聯,以使 Internet Monitor 能夠了解您的應用程式的網際網路流量位置。然後,網路監視器會針對與您的應用程式通訊的位置和網路,提供來自 AWS 的網際網路量測值。

然後,您可以使用 CloudWatch 儀表板了解運作狀態事件、檢視效能和可用性分數、探索不同地理粒度的應用程式歷史資料,並深入了解如何設定應用程式以提高最終使用者的效能。

網路監視器將網際網路量測值發佈到 CloudWatch Logs 和 CloudWatch Metrics,因此您可以輕鬆使用 CloudWatch 工具,更好地了解您的應用程式地理位置和網路中特定應用程式的運作狀態。網路監視器還會將運作狀態事件傳送至 Amazon EventBridge,以便您設定通知。

在探索網路監視器時,熟悉服務中參考的元件和概念會有所幫助。網路監視器使用或參考以下術語:監控器、CloudWatch 日誌、CloudWatch 指標、城市網路、運作狀態事件、自治系統編號 (ASN)、受監控資源、網際網路量測值、往返時間、傳輸的位元組數,以及效能和可用性分數。

閱讀文件中對這些元件的簡要描述。

網路監視器定價包含以下組成部分:每個受監控資源的費用、每個城市網絡的費用,以及發佈到 CloudWatch Logs 的診斷日誌的費用。如需詳細資訊,請參閱 Amazon CloudWatch 網路監視器定價頁面

針對網路監視器,區域支援取決於您新增至監控器的資源類型。針對 Amazon CloudFront 分發和 Amazon WorkSpaces 目錄,網路監視器在所有支援的區域均開放使用。針對 Amazon Virtual Private Clouds (VPC),來自選擇加入區域的 VPC 只能新增至同一區域中建立的監控器。如需有關支援的 AWS 區域完整清單,請參閱 Amazon CloudWatch 網路監視器端點。

Lambda 監控

CloudWatch Lambda Insights 是一項功能,用於監控、疑難排解以及最佳化 Lambda 函數的效能和成本。Lambda Insights 針對影響 Lambda 環境的效能問題提供簡化的隔離和分析。DevOps 和系統工程師可以存取 Amazon CloudWatch 主控台中的自動儀表板,從而為他們提供指標、日誌和追蹤的端對端操作可視性,以總結其 AWS Lambda 函數的效能和運行狀態。

依照 CloudWatch Lambda Insights 文件中的步驟操作,即可開始收集 Lambda 函數的詳細效能指標、日誌和中繼資料。

CloudWatch Lambda Insights 會在以 CloudWatch Logs 形式透過 Lambda 函數擷取的效能事件,自動收集自訂指標。如需有關定價的詳細資訊,請參閱 Amazon CloudWatch 定價頁面

網路監控

網路監視器可讓您查看將 AWS 託管的應用程式連接至內部部署目的地的網路的效能和可見性。網路監視器可讓您快速視覺化混合網路連線的封包遺失和延遲,設定警報和閾值,然後採取措施改善最終使用者的網路體驗。如果您的混合網路連線透過 AWS Direct Connect,網路監視器可讓您在幾分鐘內識別任何網路效能下降的來源。

網路監視器為監視器中設定的每個探針提供往返延遲和封包遺失情況。此外,對於透過 AWS Direct Connect 的混合網路連線,網路監視器為 AWS 網路運作狀態指示器提供指標。這些指標按 VPC 子網路和目標端點進行彙總,並發布至 Amazon CloudWatch。然後,您可以從網路監視器主控台內存取 CloudWatch 儀表板,來檢視這些指標、設定警報並檢視 AWS 網路運作狀態,以了解網路問題影響效能的時間。您也可以透過觀察記錄指標的 30 天歷史記錄來對封包遺失和往返延遲進行基準測試,或設定警報以收到網路事件通知。

網路監視器定價包含以下組成部分:每個受監控資源的費用和發布至 CloudWatch 的指標的費用。如需詳細資訊,請參閱 Amazon CloudWatch 定價,然後導覽至「網路監視器」標籤。

若要使用網路監視器,請建立監視器並將應用程式的資源與其關聯。您可以選擇屬於 Amazon Virtual Private Cloud (VPC) 的來源子網路,然後選擇內部部署網路中的目的地 IP 地址。網路監視器在單一監視器內建立可能的來源和目的地組合的網格,每個組合稱為探針。網路監視器的建立完全由 AWS 管理,您應能夠在設定監視器後幾分鐘內檢視即時指標。網絡監視器會將這些即時指標提供給 CloudWatch 指標,因此您可以輕鬆使用 CloudWatch 工具,來更了解特定於您網路的 AWS 區域中的網路運作狀態。請參考 CloudWatch 文件,以了解詳細的設定指示。

數位體驗監控

Amazon CloudWatch DEM 可讓您監控最終使用者如何體驗您的應用程式 (包括效能、可用性和易用性)。 

發現間歇性問題,即使在沒有使用者流量時也能收到通知,並使用 CloudWatch Synthetic Canary 監控您的端點和 UI。使用 CloudWatch RUM 補充綜合監控,以了解最終使用者的影響,並且更好地洞察您的數位體驗。使用 CloudWatch Evidently,透過實驗和驗證新的設計和功能來改善最終使用者的數位體驗。 

Amazon CloudWatch RUM 是一項真正的使用者監控功能,可讓您了解應用程式的用戶端效能,以協助您縮短平均解決時間 (MTTR)。藉助 CloudWatch RUM,您可以即時收集有關 Web 應用程式效能的用戶端資料,以識別問題並偵錯。它補充了 CloudWatch Synthetics 資料,以便讓您更深入地洞察最終使用者的數位體驗。您可以視覺化效能異常並使用相關偵錯資料 (例如錯誤訊息、堆疊追蹤和使用者工作階段) 來修復效能問題 (例如 JavaScript 錯誤、崩潰和延遲)。您還可以了解最終使用者影響的範圍,包括工作階段數目、地理位置或瀏覽器。CloudWatch RUM 可彙總使用者使用您的應用程式時的資料,這可以協助您確定要啟動哪些功能,以及要確定優先級的錯誤修復。

在 CloudWatch RUM 中建立應用程式監控器,並在應用程式的 HTML 標頭中新增輕量級 Web 用戶端。然後開始使用 CloudWatch RUM 的儀表板,接收來自不同地理位置、裝置、平台和瀏覽器的使用者洞察。 

Amazon CloudWatch Evidently 可讓您在正式推出新功能之前進行實驗,並確定新功能的意外後果,從而降低與新功能推出相關的風險。 Evidently 可讓您在發佈之前驗證整個應用程式堆疊中的新功能,這使得發佈更安全。 在推出新功能後,您可以將其展示給較小的使用者群體,監控頁面載入時間或轉化等關鍵指標,然後增加流量。Evidently 還允許開發人員嘗試不同的設計,收集使用者資料,並在生產中發佈最有效的設計。它可以協助您解釋實驗結果並對其採取行動,而無需進階統計知識。您可以使用 Evidently 統計引擎提供的洞察 (例如任何時間的 p 值和可信度區間),以便在實驗進行期間做出決策。

您可以使用 CloudWatch RUM JavaScript 程式碼片段,來收集用戶端使用者旅程和效能指標。如有需要,您還可以使用 Evidently API 新增轉換等自訂指標。接著,待測的新功能可以使用 CloudWatch Evidently SDK 進行測試,這能夠控制使用者如何接觸新功能。現在,您可以使用 AWS 主控台或 CLI 執行啟動和實驗。 

Amazon CloudWatch Synthetics 可讓您更輕鬆地監控應用程式端點。這能全年無休隨時測試您的端點,並在應用程式端點行為不合預期時立即發出警示。您可自訂這些測試,針對可用性、延遲、交易、連結中斷或失效、逐步任務完成進度、頁面載入錯誤、UI 資產負載延遲、複雜的精靈操作程序,或應用程式中的結帳流程等方面,深入檢查。您也可使用 CloudWatch Synthetics 隔離發出警示的應用程式端點,對應回底層基礎設施問題,縮短解決問題的平均時間。

開始使用 CloudWatch Synthetics 相當簡單。您可以在短短幾分鐘內編寫第一個傳遞 Canary。如要進一步了解,請瀏覽 Amazon CloudWatch Synthetics 說明文件

這兩種服務可以單獨使用,但一起使用效果會更好。

AppConfig 是 AWS Systems Manager 的一項功能,您可以將其用於建立、管理和部署功能標誌和其他應用程式組態。在開發新功能時,您可以使用 AppConfig 將新功能部署至生產中,但會將其隱藏在標誌切換後面。準備啟動後,只需更新組態即可立即或逐步發佈該功能。

對於更進階的功能管理和實驗,您可以使用 Evidently,這是 Amazon CloudWatch 的一項新功能。使用 Evidently,您可以對不同的功能變體進行實驗,並將其與基線作比較,或者按計劃啟動功能變體,同時監控造訪持續時間和營收等業務指標。Evidently 還可與 CloudWatch RUM 整合,可提供用戶端應用程式效能監控,因此可以直接在 Evidently 中使用 RUM 指標。

指標分析

CloudWatch Metrics Insights 是一種高效能查詢引擎,可協助您即時對營運指標進行細分,並使用標準 SQL 查詢動態建立彙總。Metrics Insights 讓您能夠大規模分析指標,從而協助您了解應用程式運作狀態和效能狀態。其可與 CloudWatch 儀表板整合,因此,您可以將查詢儲存至您的運作狀態和效能儀表板中,以主動監控並快速查明問題。

首先,只需按一下 Amazon CloudWatch 主控台上的指標索引標籤,您就會在查詢索引標籤下找到作為內建查詢引擎的 Metrics Insights,無需額外費用。雖然 Metrics Insights 隨附標準 SQL 語言,但您也可以使用視覺化查詢建置器來開始使用 Metrics Insights。若要使用查詢建置器,您可以直覺化地選取相關指標、命名空間和維度,主控台會根據您的選擇自動為您建構 SQL 查詢。您可以隨時使用查詢編輯器輸入原始 SQL 查詢,深入了解並查明問題以獲取更詳細的精細度資訊。Metrics Insights 還隨附一組開箱即用的範例查詢,可協助您立即開始監控和調查應用程式效能。Metrics Insights 還可以透過 CloudFormation、AWS 開發套件和 CLI,以程式設計方式提供。

AWS 資源及自訂指標監控

您可以透過 Amazon CloudWatch 監控 AWS 雲端資源以及在 AWS 執行的應用程式。系統會針對多種 AWS 產品及服務自動提供指標,包括 Amazon EC2 執行個體、EBS 磁碟區、Elastic Load Balancer、Auto Scaling 群組、EMR 任務流程、RDS 資料庫執行個體、DynamoDB 表、ElastiCache 叢集、RedShift 叢集、OpsWorks 堆疊、Route 53 運作狀態檢查、SNS 主題、SQS 佇列、SWF 工作流程以及 Storage Gateway。您還可以監控由自己的應用程式和服務產生的自訂指標。

您能夠以最低 1 秒的解析度發佈和存放自訂指標。指標延長保留已於 2016 年 11 月 1 日推出,所有客戶指標的儲存時間從之前的 14 天延長到 15 個月。CloudWatch 保留指標資料的方式如下:

期間少於 60 秒的資料點可保留 3 小時。這些資料點是高解析度自訂指標。

期間為 60 秒 (1 分鐘) 的資料點可保留 15 天。

期間為 300 秒 (5 分鐘) 的資料點可保留 63 天 

期間為 3600 秒 (1 小時) 的資料點可保留 455 天 (15 個月)

最初以較短期間發佈的資料點會進行彙總以長期儲存。例如,如果您以 1 分鐘的間隔收集資料,該資料會保留 15 天並提供 1 分鐘解析度。15 天之後,這個資料仍然可用,但已彙總且只能使用 5 分鐘解析度擷取該資料。63 天之後會進一步彙總該資料,並提供 1 小時解析度。如果您需要指標的可用性超過這些期間,則可使用 GetMetricStatistics API 擷取離線或不同儲存的資料點。

此功能目前於下列區域提供:美國東部 (維吉尼亞北部)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、歐洲 (愛爾蘭)、歐洲 (法蘭克福)、南美洲 (聖保羅)、亞太區域 (新加坡)、亞太區域 (東京)、亞太區域 (首爾)、亞太區域 (孟買)、亞太區域 (雪梨)、歐洲 (倫敦)、加拿大 (中部)、美國東部 (俄亥俄) 和中國 (北京)。

CloudWatch 支援的最小解析度是 1 秒資料點 (也就是高解析度指標),您也可以用 1 分鐘的精細度存放指標。Cloudwatch 有時會以不同的間隔接收指標,像是 3 分鐘或 5 分鐘間隔。如果您沒有在 PutMetricData API 請求的 StorageResolution 欄位將指標指定為高解析度,則 CloudWatch 預設會彙總這些指標並以 1 分鐘解析度存放。

取決於所請求的資料存留期,系統會依上述保留時間表中定義的解析度保留指標。例如,如果您請求 10 天前某一天的 1 分鐘資料,則會收到 1440 個資料點。然而,如果您請求 5 個月之前的 1 分鐘資料,UI 會自動將精細度變更為 1 小時,而且 GetMetricStatistics API 不會傳回任何輸出結果。

CloudWatch 不支援指標刪除。指標會根據上述的保留時間表而過期。

是,Amazon CloudWatch 支援查詢來自多個來源的資料,從而協助您監控 AWS、內部部署和其他雲端的指標。您現在可以在幾分鐘 (而非數小時) 內排除重大事件的故障,並了解應用程式運作狀態,從而更快地提供洞察,讓操作更順暢。將所有監控工具的查詢、視覺化和警示集中在一個地方。

否。您可以根據上述的保留時間表來擷取任何 Amazon EC2 執行個體的指標資料。然而,CloudWatch 主控台會將指標的搜尋限制在上次導入指標之後的 2 週,以確保您的命名空間中會出現最新的執行個體。

是。Amazon CloudWatch 為已終止的 Amazon EC2 執行個體或已刪除的 Elastic Load Balancer 存放 15 個月的指標資料。

若要開始使用,請瀏覽至 Amazon CloudWatch 主控台中的指標查詢產生器,然後開啟資料來源選取器。選取器可讓您啟動精靈,以新增資料來源進行查詢和警示。您可以選擇要查詢的資料來源,並指定存取詳細資訊,例如 URL 或路徑和憑證。如需更多詳細資訊,請參閲文件

如果以 5 分鐘和 1 分鐘期間查看同一時段,您可能會發現資料點顯示在圖形的不同位置上。對於您在圖形中指定的期間,Amazon CloudWatch 會尋找所有可用的資料點,再計算出單一聚合點來代表整個時段。如果是 5 分鐘期間,該單一資料點會位於 5 分鐘時段的開頭。如果是 1 分鐘期間,該單一資料點會位於 1 分鐘標記上。我們建議使用 1 分鐘期間來進行故障診斷,以及其他需要最精確時段圖形的活動。

您可以使用 Amazon CloudWatch 監控由自有應用程式、指令碼及服務產生的資料。自訂指標是您提供給 Amazon CloudWatch 的任何指標。例如,您可以使用自訂指標來監控載入網頁的時間、請求錯誤率、執行個體的處理程序或執行緒數量,或應用程式執行的工作量。透過 PutMetricData API、適用於 Windows 和 Linux 的範本監控指令碼、CloudWatch collectd 外掛程式,以及 AWS 合作夥伴提供的多種應用程式和工具,即可開始使用自訂指標。

自訂指標可以是下列其中一項:

標準解析度,資料的精細度為一分鐘

高解析度,資料的精細度為一秒

根據預設,會以 1 分鐘解析度將指標存放在 CloudWatch。您可以在 PutMetricData API 請求中將 StorageResolution 參數設為 1,將指標定義為高解析度。如果您沒有設定選用的 StorageResolution 參數,CloudWatch 預設會以 1 分鐘解析度存放指標。

發佈高解析度指標時,CloudWatch 會以 1 秒解析度存放該指標,而您可以用 1 秒、5 秒、10 秒、30 秒或任何 60 秒倍數的間隔讀取並擷取該指標。

自訂指標使用的保留時間表與上述時間表相同。

目前,只有您發佈到 CloudWatch 的自訂指標可設定為高解析度。高解析度自訂指標會以 1 秒解析度存放在 CloudWatch 中。高解析度是由 PutMetricData API 請求的 StorageResolution 參數所定義 (值為 1),且並非必要欄位。如果您沒有在選用的 StorageResolution 欄位指定值,CloudWatch 預設會以 1 分鐘解析度存放自訂指標。

否,高解析度自訂指標的計價方式與標準 1 分鐘自訂指標相同。

您可以使用自訂指標、CloudWatch Logs,或同時使用兩者來監控自己的資料。如果您的資料尚未以日誌格式產生 (例如作業系統處理程序或效能測量),建議使用自訂指標,或自行撰寫或使用 AWS 合作夥伴提供的應用程式或指令碼。如果您想存放並儲存個別測量和更多詳細資訊,則建議使用 CloudWatch Logs。

您可以針對 Amazon CloudWatch 指標的下列統計值擷取、繪製圖表和設定警示:平均值、總和、最小值、最大值和範本計數。統計資料可以針對一分鐘或 60 秒的倍數時間間隔計算。對於高解析度自訂指標,系統可以在 1 秒到 3 小時之間的任意時段計算統計資料。

.NET 和 SQL Server 適用的 Amazon CloudWatch Application Insights 是一種可輕鬆監控 .NET 和 SQL Server 應用程式的功能。它有助於在應用程式資源和技術堆疊(即資料庫、Web (IIS) 和應用程式伺服器、作業系統、負載平衡器、佇列等)中識別和設定關鍵指標和日誌。它會持續監控這些遙測資料,以偵測並關聯異常和錯誤,通知您有關應用程式中的任何問題。為協助進行疑難排解,它建立了自動儀表板針,視覺化呈現偵測到的問題,其中包括指標異常和日誌錯誤,並提供其他見解,指出潛在的根本原因。

自動識別應用程式指標和日誌:掃描應用程式資源,提供一系列要監控的建議指標和日誌,並自動設定,從而讓您更輕鬆地設定應用程式監控。 

智慧問題偵測:使用內嵌規則和機器學習演算法,動態監控和分析應用程式堆疊中的問題症狀,並偵測應用程式問題。它有助於減少處理個別指標尖峰、事件或日誌異常的開銷,而收到有關實際問題的通知,以及這些問題的關聯資訊。

加速疑難排解:對偵測到的問題進行評估,以便為您提供相關見解,如所檢測問題可能的根本原因,以及因問題而受影響的一系列指標和日誌。您可以提供有關所產生洞見的意見反應,使問題偵測引擎特定於您的使用案例。

內建應用程式:透過選擇與其關聯的 AWS 資源群組來指定要監控的應用程式。

識別應用程式元件:分析應用程式資源以識別應用程式元件(獨立資源或相關資源群組,如 Auto Scaling 群組和負載平衡器群組)。您還可以透過對資源進行分組來自訂元件,以獲得更佳洞見、輕鬆上手。

啟用監控:對於應用程式元件,您可以指定技術方案,即 IIS 前端、.NET 工作者方案等。根據您的選擇,提供一組推薦的指標和日誌,並且可根據您的需求自訂。儲存這些「監控器」後,.NET 和 SQL Server 適用的 Application Insights 會設定 CloudWatch 代表您來收集這些內容。

內建後,.NET 和 SQL Server 適用的 Application Insights 會使用預先建構的規則和機器學習模型組合,來開始識別應用程式問題。它在 CloudWatch 上建立自動化儀表板,其中包含偵測到的問題清單、這些問題的詳細視圖,以及相關的異常和錯誤。

CloudWatch 指標串流是一項功能,讓您能夠以最少的設定和組態,將 CloudWatch 指標持續串流至您選擇的目的地。這是一個全受管解決方案,無需您編寫任何程式碼或維護任何基礎架構。只需點按幾下,即可將指標串流設定到 Amazon Simple Storage Service (S3) 之類的目的地。此外,您還可以將指標傳送給選擇的第三方服務供應商,以讓您的操作儀表板保持最新狀態。

指標串流提供從 CloudWatch 獲取指標資料的另一種方式,無需輪詢 API。您只需點按幾下即可建立指標串流,並且您的指標資料將開始流向目的地。您可以輕鬆地將指標定向至 AWS 資料湖,例如 Amazon S3,並開始使用 Amazon Athena 等工具來分析用量或效能。指標串流還讓使用 Amazon Kinesis Data Firehose HTTP 端點,以將 CloudWatch 指標傳送至常用的第三方服務供應商變得更加容易。您可以建立持續、可擴展的串流,其中包括最新的 CloudWatch 指標資料,以為儀表板、警示和其他依賴準確、及時指標資料的工具提供支援。

您可以在 CloudWatch 主控台或以程式設計方式,透過 CloudWatch API、AWS SDK、AWS CLI 或 AWS CloudFormation 建立並管理指標串流,以佈建和設定指標串流。您還可以使用第三方服務供應商提供的 AWS CloudFormation 範本,來設定針對 AWS 外部目的地的指標串流傳遞。如需詳細資訊,請參閱 CloudWatch 指標串流相關文件

是。可以選擇預設傳送所有指標,或建立篩選規則以包含和排除由命名空間定義的指標群組,例如 AWS/EC2。指標串流會自動偵測與篩選規則相符的新指標,並在串流中包含指標更新。資源終止後,指標串流會自動停止傳送非作用中指標的更新。

指標串流能夠以 OpenTelemetry 或 JSON 格式輸出。您可以在建立或管理指標串流時選擇輸出格式。

是。您可以瀏覽指標串流主控台頁面的「監控」部分。您會看到自動儀表板,其中顯示一段時間內指標更新的數量。這些指標在 AWS/CloudWatch 命名空間下也可供使用,並且可用於建立警示以在異常數量激增的情況下傳送通知。

日誌監控

CloudWatch Logs 可讓您透過現有系統、應用程式和自訂日誌檔來監控系統和應用程式,以及進行故障排除。

使用 CloudWatch Logs,您可用幾乎即時的方式監控您日誌上的特定字詞、數值或模式。例如,您可以按系統日誌內發生的錯誤數量設定警示,或從應用程式日誌檢視 Web 請求延遲的圖表。然後您可以檢視原始日誌資料,以查看問題來源。日誌資料可存放於成本低廉、高耐用性的儲存以供存取,且無時間限制,您無須擔心硬碟空間不足。

Amazon CloudWatch 付費記錄是 AWS 服務代表顧客以原生方式發佈的記錄檔。此分級制度上路後,VPC 工作流程記錄會是第一種受惠的付費記錄類型;不過,日後會有更多 AWS 服務的記錄檔類型加入付費記錄類型的優惠陣容。

請參閱區域性產品和服務,了解 CloudWatch Logs 服務在不同區域的可用性詳細資訊。

請參閱定價頁面了解最新資訊。

CloudWatch Logs 能夠監控和存放日誌,協助您更了解系統和應用程式及其運作。當您將 CloudWatch Logs 與日誌搭配使用時,系統會使用現有的日誌資料進行監控,因此不需要變更程式碼。以下是兩個 Amazon CloudWatch 與日誌搭配應用的範例:

即時應用程式和系統監控:您可以透過 CloudWatch Logs,以幾乎即時的方式使用日誌資料來監控應用程式和系統。例如,CloudWatch Logs 可追蹤應用程式日誌內發生的錯誤數量,並在錯誤率超過指定的閾值時傳送通知給您。Amazon CloudWatch 使用您的日誌資料是為了監控,因此不會包含來自您的任何程式碼變更。

長期日誌保留:您可以透過 CloudWatch Logs 將日誌資料存放於成本低廉、高度耐用的儲存,且無時間限制,無須擔心硬碟空間不足。CloudWatch Logs 代理器可讓您輕鬆快速地將輪換和非輪換的日誌檔案從主機移入日誌服務。然後,您可以視需要存取原始日誌事件資料。

您可以設定 EC2Config 服務來傳送多種資料與日誌檔案至 CloudWatch,包括:自訂文字日誌、事件 (應用程式、自訂、安全性、系統) 日誌、事件追蹤 (ETW) 日誌,以及效能計數器 (PCW) 資料。您可在這裡進一步了解 EC2Config 服務的更多資訊。

在預設情況下,CloudWatch Logs 代理器每 5 秒傳送一次日誌資料,使用者可另行設定。

CloudWatch Logs 可導入、彙總及監控任何文字型通用日誌資料或 JSON 格式的日誌。

如果 CloudWatch Logs 代理器已設定為報告非文字日誌資料,它就會記錄一筆錯誤。這筆錯誤會記錄於 /var/logs/awslogs.log。

您可以建立指標篩選條件,在日誌事件傳送至 CloudWatch Logs 的同時進行監控。指標篩選條件會將日誌資料轉為 Amazon CloudWatch 指標,以供製作圖表或設定警示。您可以在主控台或 CLI 建立指標篩選條件。指標篩選條件會在您的日誌事件中搜尋及比對詞彙、字詞或數值。當指標篩選條件在日誌事件中找到其中一個詞彙、字詞或數值時,就會將其計入您選擇的 Amazon CloudWatch 指標。例如,您可以建立指標篩選條件來搜尋並計算「錯誤」這個詞在日誌事件中出現的次數。指標篩選條件還可以從空格分隔的日誌事件中擷取數值,例如 Web 請求的延遲。您也可以使用條件運算子和萬用字元來建立精確比對。Amazon CloudWatch 主控台可協助您在建立指標篩選條件前先測試您的模式。

指標篩選條件模式可包含搜尋詞彙,或通用日誌或 JSON 事件格式的規格。

例如,如果您想搜尋「錯誤」這個詞,指標篩選條件的模式應為「錯誤」這個詞。您也可以加入多個搜尋詞彙以搜尋多個詞彙。例如,如果您想計算包含「錯誤」和「例外」兩個詞的事件,應使用「錯誤例外」這個模式。如果您想精確匹配「錯誤例外」這個詞,則應在搜尋詞彙的前後加上雙引號:"錯誤例外"。您可以視需要指定不限數量的搜尋詞彙。

CloudWatch Logs 還可用來從通用日誌或 JSON 格式的日誌事件中擷取數值。例如,您可以追蹤從 Apache 存取日誌傳出的位元組。您也可以使用條件運算子與萬用字元來比對和擷取感興趣的資料。如果要使用指標篩選條件的擷取功能,則日誌事件必須以空格分隔,並在開頭和結尾加上雙引號 """,或分別加上方括號 "[" 及 "]" 來括住欄位。或者使用 JSON 格式的日誌事件。如需語法與範例的完整詳細資訊,請參閱指標篩選條件開發人員指南

CloudWatch Logs 可讓您在建立指標篩選條件前先測試想要的指標篩選條件模式。您可以針對 CloudWatch Logs 中的現有日誌資料測試模式,也可以自行提供日誌事件進行測試。測試模式可讓您了解哪些日誌事件符合指標篩選條件模式,若有擷取數值的話,還可讓您查看從測試資料中擷取出哪些數值。指標篩選條件測試可在主控台與 CLI 中使用。

Amazon CloudWatch 指標篩選條件不支援規則表達式。若要用規則表達式處理日誌資料,請考慮使用 Amazon Kinesis 並透過規則表達式處理引擎連接串流。

日誌管理

您可以使用 CloudWatch Logs 主控台或透過 CloudWatch Logs CLI 擷取任一筆日誌資料。系統會根據日誌群組、日誌串流,以及與事件相關的時間擷取日誌事件。用來擷取日誌事件的 CloudWatch Logs API 是 GetLogEvents。

您可以使用 CLI 擷取日誌事件,並使用命令列 grep 或類似的搜尋功能對擷取的事件進行搜尋。

您可以將日誌資料存放於 CloudWatch Logs,沒有時間限制。在預設情況下,CloudWatch Logs 會無期限地存放您的日誌資料。您隨時可以變更每個日誌群組的保留時間。

Amazon CloudWatch Logs Standard 是 CloudWatch 提供的兩個日誌類別之一。Logs Standard 針對即時監控和 Live Tail、指標擷取、警示和資料保護等進階分析功能,提供全方位的日誌管理。您可以近乎即時的方式,監控您日誌中的特定字詞、值或模式。例如,您可以按系統日誌內發生的錯誤數量設定警示,或從應用程式日誌檢視 Web 請求延遲的圖表。然後您可以檢視原始日誌資料,以查看問題來源。

Amazon CloudWatch Logs Infrequent Access (Logs-IA) 是 CloudWatch 提供的兩個日誌類別之一。Logs-IA 專門為在 AWS 上以原生方式整合所有日誌而設計。其為 CloudWatch Logs Standard 提供受管擷取、跨帳戶日誌分析和加密功能,且每 GB 的擷取價格較低。CloudWatch Logs-IA 結合客制化功能和低成本的優勢,非常適合臨機操作查詢以及事後鑑識分析。日誌資料可無限期存放於成本低廉、高耐用性的儲存以供存取,您無須擔心硬碟空間不足。

Amazon CloudWatch Logs Infrequent Access (Logs-IA) 在所有可用 CloudWatch Logs 的 AWS 區域都可以使用。您可以在主控台上,或透過 AWS CLI 或 API 以程式設計方式開始使用

日誌分析

要存取 Logs Insights,您的 IAM 政策必須包含日誌權限:DescribeLogGroups 和 logs:FilterLogEvents。

您可以使用 Logs Insights 查詢傳送到 CloudWatch 的所有日誌。Logs Insights 會自動發現來自 AWS 服務 (如 Lambda、CloudTrail、Route53 和 VPC Flow Logs) 的日誌中的日誌欄位;以及以 JSON 格式生成日誌事件的任何應用程式日誌。此外,對於所有日誌類型,它會為傳送到 CloudWatch 的所有日誌生成 3 個系統欄位 @message、@logStream 和 @timestamp。@message 包含原始未解析的日誌事件,@logStream 包含生成日誌事件的源的名稱,@timestamp 包含將日誌事件新增到 CloudWatch 的時間。

Logs Insights 為日誌處理引入了一種新的專用查詢語言。查詢語言支援一些簡單但功能強大的查詢命令。您可以撰寫命令來擷取一個或多個日誌欄位,查找與一個或多個搜尋條件匹配的日誌事件,彙總日誌資料以及從以文本為基礎的日誌中提取暫時性欄位。查詢語言易於學習,Logs Insights 透過範例查詢、命令描述和查詢自動完成,提供產品內幫助,以幫助您入門。您可以在此處找到有關查詢語言的其他詳細資訊。

服務限制記錄在此處

Logs Insights 目前在美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、歐洲 (倫敦)、歐洲 (巴黎)、歐洲 (愛爾蘭)、歐洲 (法蘭克福)、加拿大 (中部)、亞太區域 (孟買)、亞太區域 (首爾)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京) 及南美洲 (聖保羅) 區域皆可使用。

您可以撰寫包含彙總、篩選條件、規則表達式和文本搜尋的查詢。您還可以從日誌事件中提取資料以建立暫時性欄位,這些欄位可以透過查詢語言進一步處理,以幫助您存取所需的信息。查詢語言支援字串、數字和數學函數,例如 concat、strlen、trim、log 和 sqrt 等。您還可以使用布林值和邏輯運算式以及彙總函數,如 min、max、sum、average 和 percentile 等。您可以在此處找到有關查詢語言和支援的函式的其他詳細資訊。

您可以在此處找到查詢命令清單。您可以在此處找到支援的功能清單。

您可以使用視覺效果來識別日誌中隨時間發生的趨勢和模式。Logs Insights 支援使用折線圖和堆疊區域圖視覺化資料。它為包含一個或多個彙總函數的所有查詢產生視覺效果,其中資料在使用 bin() 函數指定的時間間隔內進行分組。您可以在此處找到有關視覺化時間序列資料的其他詳細資訊。

您可以將 Java 樣式的規則表達式用於 Logs Insights。規則表達式可以在 filter 命令中使用。您可以使用產品內幫助或在此處找到包含規則表達式的查詢範例。

您可以使用反引號來逸出特殊字元。包含除英數字元、@ 和 . 之外的字元的日誌欄位名稱需要使用反引號進行逸出。

Logs Insights 生成的系統欄位以 @ 開頭。Logs Insights 當前生成 3 個系統欄位:@message,其中包含傳送到 CloudWatch 的原始未解析日誌事件;@logStream,其中包含生成日誌事件的源的名稱;以及@timestamp,其中包含日誌事件新增到 CloudWatch 的時間。

Logs Insights 讓您可以查詢在 2018 年 11 月 5 日或之後新增到 CloudWatch Logs 的日誌資料。

您可以透過向日誌查詢新增查詢命令篩選條件 @logStream = "log_stream_name",從特定日誌串流搜尋日誌事件。

CloudWatch Logs 已經支援與其他 AWS 服務的整合選項,如 Amazon Kinesis、Amazon Kinesis Data Firehose、Amazon Elasticsearch 和 AWS 合作夥伴 ISV 解決方案 (如 Splunk、Sumo Logic 和 DataDog 等),為您提供跨所有環境的選擇和靈活性,用於自訂日誌處理、豐富、分析和視覺化需求。此外,CloudWatch Logs Insights 的查詢功能可透過 AWS SDK 以程式設計的方式存取,以便 AWS ISV 合作夥伴在 CloudWatch Logs Insights 之上建立更深入的整合、進階分析和附加價值。

ISV 合作夥伴與 CloudWatch Logs Insights 的整合讓您能夠將日誌資料集中到一個位置,並能夠以高效能、經濟實惠的方式使用您選擇的工具和框架進行分析,而無需移動大量資料。其還可避免相關的資料傳輸延遲,為您提供更快的日誌存取,並消除了設定和維護某些資料傳輸的操作複雜性。

日誌異常偵測

Amazon CloudWatch Logs Anomaly Detection 採用 AI/ML 技術,是一項自動化日誌分析功能,可協助您群集相關的日誌以加快日誌調查速度、比較一段時間內的日誌以顯示關鍵見解,以及監控日誌並在發生異常行為時通知您,以便更快地修復。CloudWatch 可以使用進階演算法,自動偵測應用程式日誌中的異常模式和變更,提醒您可能發生的問題。您不再需要在每次日誌變更時更新查詢或篩選條件。您可以使用 Logs Anomaly Detection,在日誌訊息影響您之前儘早發現新出現的錯誤和尖峰、無需提前了解具體情況即可識別新問題、無需設定參數即可收到異常活動警示,並持續監控您最重要的日誌。CloudWatch Logs Anomaly Detection 可主動發現潛在問題,協助您提前解決問題並提供可靠的效能。
 

Amazon CloudWatch Logs Anomaly Detection 有助於自動偵測應用程式日誌中的異常行為。雖然指標篩選條件等工具可讓您監控特定的已知變數,但異常偵測可以識別先前未知的情況,例如日誌中新發生的錯誤代碼或特定日誌訊息突然增加。Logs Anomaly Detection 會隨著您的應用程式日誌的演變而靈活調整,而且不需要您定義複雜的組態參數,例如查詢或篩選條件語法。Logs Anomaly Detection 可為您最關鍵的應用程式日誌群組提供額外的保證。

Amazon CloudWatch Logs Anomaly Detection 不需要特定格式的日誌就可以運作。此功能使用機器學習靈活地剖析日誌。CloudWatch Logs Anomaly Detection 最適合應用程式日誌,例如在 EC2、EKS、ECS、Lambda 中執行的應用程式碼以及用於執行應用程式碼的其他資源所產生的日誌。

Amazon DevOps Guru 提供專門針對特定應用程式來源 (例如 Lambda) 設計的異常偵測功能。Amazon CloudWatch Logs Anomaly Detection 是一種解決方案,可搭配任何應用程式日誌使用。CloudWatch Logs Anomaly Detection 可在 CloudWatch 主控台中使用。

Logs Live Tail

Amazon CloudWatch Logs Live Tail 是一項全新的互動式分析功能,可讓您即時檢視傳入日誌。使用 Live Tail,您可以快速排解問題:開發人員可善用日誌的串流檢視對其程式碼進行偵錯,而 IT 工程師則能夠可靠地監控其部署狀態。Live Tail 提供相關事件內容中日誌的即時互動式檢視,以協助縮短平均偵測時間,進而減少平均解決時間。

您應使用互動式 CloudWatch Live Tail 功能,在原生 AWS 可觀察性工具中,立即偵測應用程式或部署問題。Live Tail 可讓 DevOps 團隊無需在多個工具之間切換,即可深入了解您的關鍵應用程式日誌,並在您的開發環境中對程式碼偵錯。IT 工程師、營運支援和中央安全團隊可以使用 Live Tail 來監控部署的狀態和運作狀態,有效地監控其服務和應用程式,以加速根本原因分析並縮短平均解決時間。

除了在自訂應用程式日誌上提供 Live Tail 功能外,Live Tail 還可協助客戶深入了解 AWS 服務的日誌,包括 Amazon Virtual Private Cloud、Amazon Route53、AWS Lambda、Amazon Elastic Kubernetes Service、Amazon Elastic Container Service 等等。 使用 Live Tail 小工具,AWS 服務可將相同的互動式即時追蹤體驗內嵌至您的主控台中。此外,直接整合也可由其他服務 (例如 Amazon Managed Grafana、AWS Thinkbox) 實作,透過您自己的主控台和產生日誌事件的任何應用程式日誌來提供相同的深入分析功能。

若要讓此功能如預期運作,使用者應允許下列作業。啟動 Live Tail 工作階段時,如果您未包含在管理員角色中,或具有包含日誌的政策:*,請務必將下列動作新增至您的政策陳述式:logs:StartLiveTail and logs:StopLiveTail。

進一步了解 Live Tail 服務限制

Live Tail 現已在以下區域提供:美國東部 (俄亥俄)、美國東部 (維吉尼亞北部)、美國西部 (加利佛尼亞北部)、美國西部 (奧勒岡)、亞太區域 (孟買)、亞太區域 (首爾)、亞太區域 (新加坡)、亞太區域 (雪梨)、亞太區域 (東京)、加拿大 (中部)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (巴黎) 及南美洲 (聖保羅)。

您可以根據日誌群組、日誌串流進行篩選,並依關鍵字進行篩選。在監控帳戶中時,日誌群組選項支援跨多個帳戶的多重選擇 (跨帳戶可觀察性)。日誌串流選擇支援根據名稱或前置詞進行多種選擇。依關鍵字篩選區分大小寫。您可以輸入一個或多個關鍵字 (例如錯誤、例外狀況或故障),以進一步縮小搜尋範圍。您可以輸入關鍵字,或從「資訊」面板提供的範例中複製並貼上關鍵字。進一步了解篩選模式。

否,Live Tail 提供 CloudWatch 收集的日誌資料的即時檢視。如需歷史記錄,請參閱 Logs Insights 和 Log Groups 功能。

日誌資料保護

資料保護是 Amazon CloudWatch Logs 中的一項功能,可讓您定義自己的規則和政策,以自動偵測和屏蔽從您的系統和應用程式收集的日誌中的敏感資料。這是使用機器學習 (ML) 和模式比對完成的。可以使用提升的 Identity and Access Management (IAM) 權限來檢閱未屏蔽的資料。

為了防止記錄敏感資料,客戶有時依賴於手動調查或透過設定簡短的日誌保留政策來刪除日誌,這存在遺失有價值操作日誌的風險。Amazon CloudWatch Logs 資料保護使用模式比對和 ML,來自動識別和屏蔽日誌中的敏感資訊,而無需任何人存取這些資訊。對於需要確保不得存放任何個人資訊的嚴格監管產業,此功能非常有用。此外,客戶若建置需要大量個人和敏感資訊的支付或身分驗證服務,可以使用此新功能來降低不必要資訊存放在其日誌中的可能性。

在 Amazon CloudWatch Logs 中建立資料保護政策時,您可以指定要保護的資料。有許多資料識別符可供您選擇,例如電子郵件地址、許多國家/地區的駕照、信用卡號碼、地址等等。多種多樣的目標資料識別符可靈活地選擇您的應用程式使用哪些敏感資料,並屏蔽不需要輕鬆存取的敏感資料。重要的是您要決定哪些資訊對您的應用程式敏感,並為您的使用案例選取相關的識別符。

警示

您可以建立警示來監控帳戶內任一個 Amazon CloudWatch 指標。例如,您可以針對 Amazon EC2 執行個體的 CPU 使用率、Amazon ELB 請求延遲、Amazon DynamoDB 表輸送量、Amazon SQS 佇列長度,或甚至是 AWS 帳單的費用建立警示。

您也可以建立自訂應用程式或基礎設施專屬的自訂指標警示。如果自訂指標是高解析度指標,您可以選擇建立最快在 10 秒或 30 秒期間發出提醒的高解析度警示。

藉助複合警示,您可將多個警示結合到警示階層。這些階層僅在多個警示同時響起時觸發一次,從而降低警示噪音。您可提供一組資源的整體狀態,例如應用程式、AWS 區域或可用區域。

若要進一步了解,請參考 CloudWatch 定價頁面

您可以在建立警示時進行設定,讓它在您選擇的監控指標超過定義的閾值時,執行一或多個自動化的動作。例如,您可以設定警示來傳送電子郵件給您、發佈到 SQS 佇列、停止或終止 Amazon EC2 執行個體,或執行 Auto Scaling 政策。Amazon CloudWatch 警示已與 Amazon Simple Notification Service 整合,因此您也可以使用任一種 SNS 支援的通知類型。 當警示進入 ALARM 狀態時,您可以使用 AWS Systems Manager OpsCenter 操作自動建立 OpsItem。這有助於從單一主控台快速診斷和補救 AWS 資源問題。

當您建立警示時,必須先選擇要監控的 Amazon CloudWatch 指標。接著選擇評估期間 (例如 5 分鐘或 1 小時) 和要測量的統計值 (例如平均值或最大值)。若要設定閾值,請先設定目標數值,並選擇要在數值大於 (>)、大於或等於 (>=)、小於 (<),或是小於或等於 (<=) 該目標數值的情況下觸發警示。

警示即使已經觸發,也會持續針對選擇的閾值評估指標。這可讓您隨時查看目前最新的狀態。您可能會發現其中一個警示長時間處於 ALARM 狀態。如果指標數值依然超出閾值,則警示將保持在 ALARM 狀態,直到數值低於閾值。這是正常的現象。如果您不想讓警示對此新層級發出警示,則可以據此調整警示閾值。

警示歷史記錄的使用期限為 14 天。如果要查看警示歷史記錄,請登入 AWS 管理主控台的 CloudWatch,在左側功能表選擇 Alarms,選取您的警示,再按一下面板下方的 History 標籤。您將在這裡找到所有警示狀態變更,以及所有警示設定修改的歷史記錄。

儀表板

Amazon CloudWatch 儀表板可讓您建立、自訂及儲存 AWS 資源的圖表和自訂指標,並與之進行互動。

若要開始使用,請前往 Amazon CloudWatch 主控台並選取 "Dashboards"。按一下 "Create Dashboard" 按鈕。 您還可以透過按一下 Options -> “Add to Dashboard” 從自動儀表板複製所需的檢視。

自動儀表板依 AWS 服務建議的最佳實務預先建置,不但保有資源感知能力,還能動態更新以反映重要效能指標的最新狀態。您現在可以篩選特定的檢視並進行故障排除,無須新增額外的程式碼以反映 AWS 資源的最新狀態。找出效能問題的根本原因之後,就能直接前往 AWS 資源快速採取行動。

是。儀表板將在開啟時自動重新整理。

是,只要擁有儀表板的適當帳戶許可,即可使用該儀表板。

活動

Amazon CloudWatch Events (CWE) 是描述 AWS 資源變更的系統事件串流。事件串流強化了現有的 CloudWatch Metrics 和 Logs 串流,為應用程式的運作狀況和狀態提供更完整的藍圖。您編寫宣告式規則,將感興趣的事件與要採取的自動化動作建立關聯。

目前支援 Amazon EC2、Auto Scaling 和 AWS CloudTrail。透過 AWS CloudTrail,CloudWatch Events 中可以看到所有服務上變化的 API 呼叫 (也就是除了 Describe*、List* 和 Get* 以外的所有呼叫)。

當事件符合您在系統中建立的規則,您可以自動叫用 AWS Lambda 函數、將事件轉送到 Amazon Kinesis 串流、通知 Amazon SNS 主題或叫用內建工作流程。

是。您的應用程式可以使用 PutEvents API 發出自訂事件,包含唯一適合您需求的工作負載。

CloudWatch Events 能夠使用熱門的 Unix Cron 語法,按您設定的排程產生事件。透過監控這些事件,您可以實作已排程的應用程式。

CloudWatch Events 是描述 AWS 資源變更的近乎即時系統事件串流。您可以使用 CloudWatch Events 定義規則來監控特定事件以及執行自動化動作。AWS CloudTrail 是記錄 AWS 帳戶 API 呼叫的服務,可以傳送包含 API 呼叫的日誌檔到 Amazon S3 儲存貯體或 CloudWatch Logs 日誌群組。您可以使用 AWS CloudTrail 查詢與 AWS 資源建立、刪除和修改相關的 API 活動歷史記錄,也可以對操作或安全問題進行故障診斷。

AWS Config 是全受管的服務,為您提供 AWS 資源清單、組態歷史記錄和組態變更通知,以啟用安全性和方便管理。Config 規則協助您判斷組態變更是否合規。CloudWatch Events 可以近乎即時地對資源狀態變更做出反應。它不會判定變更是否符合政策規範,也不會像 Config/Config Rules 一樣提供詳細歷史記錄。它是一般用途的事件串流。