本發(fā)明涉及計算機資源管理,尤其涉及一種基于云原生的資源監(jiān)視告警系統(tǒng)。
背景技術:
1、在傳統(tǒng)的監(jiān)視告警系統(tǒng)中,通常會使用獨立的監(jiān)視工具和告警工具,以實現(xiàn)系統(tǒng)的監(jiān)視和告警功能。這些工具可能包括:nagios、zabbix、prometheus等。然而,傳統(tǒng)的監(jiān)視告警系統(tǒng)通常具有復雜的配置和維護、缺乏可擴展性、集中化管理困難和用戶體驗不佳的缺點,導致監(jiān)視告警系統(tǒng)難以提供高效可靠的監(jiān)視告警功能。
2、因此,如何使得監(jiān)視告警系統(tǒng)能夠提供高效可靠的監(jiān)視告警功能,成為本領域技術人員急需解決的技術問題。
技術實現(xiàn)思路
1、鑒于上述問題,本發(fā)明提供一種克服上述問題或者至少部分地解決上述問題的一種基于云原生的資源監(jiān)視告警系統(tǒng),技術方案如下:
2、一種基于云原生的資源監(jiān)視告警系統(tǒng),包括:集群管理模塊、主機管理模塊、容器管理模塊、監(jiān)視面板模塊和告警模塊,
3、所述集群管理模塊,用于對納管的集群進行第一管理操作,并自動更新集群監(jiān)視資源,利用prometheus工具獲取集群指標的第一指標數(shù)據(jù),其中,所述第一管理操作包括對所述集群的添加、編輯和移除;
4、所述主機管理模塊,用于對納管的主機進行第二管理操作,并自動更新主機監(jiān)視資源,利用所述prometheus工具獲取主機指標的第二指標數(shù)據(jù),其中,所述第二管理操作包括對所述主機的添加、移除、集群關系綁定與解綁;
5、所述容器管理模塊,用于監(jiān)視容器pod,利用所述prometheus工具自動采集部署在kubernetes集群上的容器pod指標的第三指標數(shù)據(jù);
6、所述監(jiān)視面板模塊,用于對所述第一指標數(shù)據(jù)、所述第二指標數(shù)據(jù)和所述第三指標數(shù)據(jù)進行可視化展示;
7、所述告警模塊,用于對所述集群指標、所述主機指標和所述容器pod指標中的預設關鍵指標進行告警通知。
8、可選的,所述集群管理模塊,還用于通過集群列表查看所述集群的集群信息,其中,所述集群信息包括集群名稱、集群類型、關聯(lián)的節(jié)點列表以及集群各組件運行狀態(tài)。
9、可選的,所述主機管理模塊,還用于通過主機列表查看所述主機的主機信息,其中,所述主機信息包括主機ip、主機名、運行狀態(tài)、操作系統(tǒng)、cpu、內存、磁盤使用率和所屬集群。
10、可選的,所述容器管理模塊,還用于通過容器pod列表查看所述容器pod的容器信息,其中,所述容器信息包括所述容器pod的英文名稱、中文名稱、標簽、項目名稱、運行狀態(tài)、重啟次數(shù)、所調度主機ip、創(chuàng)建時間、cpu和內存的上限值、分配量和使用量。
11、可選的,所述監(jiān)視面板模塊,具體用于將所述第一指標數(shù)據(jù)、所述第二指標數(shù)據(jù)和所述第三指標數(shù)據(jù)通過包括圖標、儀表盤和折線圖在內的任一種形式進行可視化展示。
12、可選的,所述監(jiān)視面板模塊,還用于提供集群類監(jiān)視面板模板、主機類監(jiān)視面板模板和容器pod類監(jiān)視面板模板,以使用戶通過指定頁面鏈接免密訪問相應的監(jiān)視面板。
13、可選的,所述告警模塊,還用于提供告警規(guī)則管理頁面,所述告警規(guī)則管理頁面用于創(chuàng)建所述集群、所述主機和所述容器pod的告警規(guī)則,并配置告警級別和告警間隔,在所述預設關鍵指標的指標值滿足預設告警閾值時發(fā)送告警通知。
14、可選的,所述預設關鍵指標包括集群運行狀態(tài)、主機運行狀態(tài)、主機cpu使用率、主機內存使用率、主機磁盤使用率、tcp連接數(shù)、inode使用率、容器運行狀態(tài)、容器cpu使用率和容器內存使用率。
15、可選的,所述集群包括kubernetes集群、hadoop集群、cassandra集群、elasticsearch集群、kafka集群、redis集群、mysql集群、harbor集群和glusterfs集群。
16、可選的,所述集群運行狀態(tài)包括:
17、所述kubernetes集群的apiserver組件運行狀態(tài)、controller-manager組件運行狀態(tài)、etcd組件運行狀態(tài)、kubelet組件運行狀態(tài)和scheduler組件運行狀態(tài);
18、所述hadoop集群的hdfs組件狀態(tài)、hbase組件狀態(tài)、yarn組件狀態(tài)和zookeeper組件狀態(tài);
19、所述cassandra集群的運行狀態(tài);
20、所述elasticsearch集群的運行狀態(tài)和集群狀態(tài);
21、所述kafka集群的運行狀態(tài)、生產數(shù)據(jù)速率和消費組可消費消息數(shù);
22、所述redis集群的運行狀態(tài);
23、所述mysql集群的運行狀態(tài)和當前連接數(shù);
24、所述harbor集群的運行狀態(tài);
25、所述glusterfs集群的運行狀態(tài)、存儲卷狀態(tài)和存儲卷使用率。
26、借由上述技術方案,本發(fā)明提供的一種基于云原生的資源監(jiān)視告警系統(tǒng),包括:集群管理模塊、主機管理模塊、容器管理模塊、監(jiān)視面板模塊和告警模塊。所述集群管理模塊,用于對納管的集群進行第一管理操作,并自動更新集群監(jiān)視資源,利用prometheus工具獲取集群指標的第一指標數(shù)據(jù),其中,所述第一管理操作包括對所述集群的添加、編輯和移除;所述主機管理模塊,用于對納管的主機進行第二管理操作,并自動更新主機監(jiān)視資源,利用所述prometheus工具獲取主機指標的第二指標數(shù)據(jù),其中,所述第二管理操作包括對所述主機的添加、移除、集群關系綁定與解綁;所述容器管理模塊,用于監(jiān)視容器pod,利用所述prometheus工具自動采集部署在kubernetes集群上的容器pod指標的第三指標數(shù)據(jù);所述監(jiān)視面板模塊,用于對所述第一指標數(shù)據(jù)、所述第二指標數(shù)據(jù)和所述第三指標數(shù)據(jù)進行可視化展示;所述告警模塊,用于對所述集群指標、所述主機指標和所述容器pod指標中的預設關鍵指標進行告警通知。本發(fā)明通過集群管理模塊、主機管理模塊、容器管理模塊、監(jiān)視面板模塊和告警模塊的協(xié)同工作,實現(xiàn)了對系統(tǒng)資源的全面監(jiān)控和及時告警,大大提高了系統(tǒng)的可靠性和運維效率,使得監(jiān)視告警系統(tǒng)能夠提供高效可靠的監(jiān)視告警功能。
27、上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
1.一種基于云原生的資源監(jiān)視告警系統(tǒng),其特征在于,包括:集群管理模塊、主機管理模塊、容器管理模塊、監(jiān)視面板模塊和告警模塊,
2.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述集群管理模塊,還用于通過集群列表查看所述集群的集群信息,其中,所述集群信息包括集群名稱、集群類型、關聯(lián)的節(jié)點列表以及集群各組件運行狀態(tài)。
3.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述主機管理模塊,還用于通過主機列表查看所述主機的主機信息,其中,所述主機信息包括主機ip、主機名、運行狀態(tài)、操作系統(tǒng)、cpu、內存、磁盤使用率和所屬集群。
4.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述容器管理模塊,還用于通過容器pod列表查看所述容器pod的容器信息,其中,所述容器信息包括所述容器pod的英文名稱、中文名稱、標簽、項目名稱、運行狀態(tài)、重啟次數(shù)、所調度主機ip、創(chuàng)建時間、cpu和內存的上限值、分配量和使用量。
5.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述監(jiān)視面板模塊,具體用于將所述第一指標數(shù)據(jù)、所述第二指標數(shù)據(jù)和所述第三指標數(shù)據(jù)通過包括圖標、儀表盤和折線圖在內的任一種形式進行可視化展示。
6.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述監(jiān)視面板模塊,還用于提供集群類監(jiān)視面板模板、主機類監(jiān)視面板模板和容器pod類監(jiān)視面板模板,以使用戶通過指定頁面鏈接免密訪問相應的監(jiān)視面板。
7.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述告警模塊,還用于提供告警規(guī)則管理頁面,所述告警規(guī)則管理頁面用于創(chuàng)建所述集群、所述主機和所述容器pod的告警規(guī)則,并配置告警級別和告警間隔,在所述預設關鍵指標的指標值滿足預設告警閾值時發(fā)送告警通知。
8.根據(jù)權利要求7所述的系統(tǒng),其特征在于,所述預設關鍵指標包括集群運行狀態(tài)、主機運行狀態(tài)、主機cpu使用率、主機內存使用率、主機磁盤使用率、tcp連接數(shù)、inode使用率、容器運行狀態(tài)、容器cpu使用率和容器內存使用率。
9.根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述集群包括kubernetes集群、hadoop集群、cassandra集群、elasticsearch集群、kafka集群、redis集群、mysql集群、harbor集群和glusterfs集群。
10.根據(jù)權利要求9所述的系統(tǒng),其特征在于,所述集群運行狀態(tài)包括: