十四五規(guī)劃和十九屆五中全會提出:
1、加強關鍵數(shù)字技術創(chuàng)新應用 用聚焦芯片、操作系統(tǒng)、人工智能關鍵算法、傳感 器等關鍵領域,加快推進基礎理論、基礎算法、裝備 材料等研發(fā)突破與迭代應用。加強通用處理器、 云計算系統(tǒng)和軟件技術一體化研發(fā)。
2、加快推動數(shù)字產(chǎn)業(yè)化 培育壯大人工智能、大數(shù)據(jù)、區(qū)塊鏈、云計算、網(wǎng)絡 安全等新興數(shù)字產(chǎn)業(yè),提升通信設備、關鍵電 子元器件、關鍵軟件等產(chǎn)業(yè)水平。
3、科技自強 ,科技自立 堅持創(chuàng)新在我國現(xiàn)代化建設全局中的重要地位,把 科技自立自強作為國家發(fā)展的戰(zhàn)略支撐。
Argus運維監(jiān)控系統(tǒng)在信息技術創(chuàng)新應用的大背景下應運而生。 對于運維監(jiān)控的告警信息,應該如何分析,或者說應該從哪些方向去分析呢?產(chǎn)品運維監(jiān)控共同合作
Prometheus指標采集和查詢存儲方案-2020年
我們分一級監(jiān)控平臺和二級集群Prometheus監(jiān)控采集組件。一級提供kafka集群和Prometheus聚合組件,二級各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠程送數(shù)據(jù)到一級的kafka集群。
該方案優(yōu)點:
1.業(yè)務系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級監(jiān)控平臺上只要有足夠的cpu、存儲資源,理論上可以水平擴展接入更多集群。2020年底采集的指標量每天3194億的量級,吞吐量達370萬/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時序數(shù)據(jù)庫influxdb中,可以保存一個月數(shù)據(jù)量甚至更多。
該方案沒做到什么:
1.采集端Prometheus擴容問題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級監(jiān)控平臺上時序數(shù)據(jù)庫influxdb有單點問題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 產(chǎn)品運維監(jiān)控共同合作Argus運維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計結果一覽無余。
面向IT資源200+以上的各類型單位,產(chǎn)品提供一體化運維監(jiān)控功能,以幫助信息部門員高效管理IT運行環(huán)境、IT資產(chǎn),通過運維工具的自動化,提升單位IT服務質量,提高運維效率,降低運維成本,減輕運維人員工作壓力。
Argus實時運維監(jiān)控分析系統(tǒng)是基于全球負有盛名的IT基礎監(jiān)控平臺Zabbix深度二次開發(fā)的運維監(jiān)控軟件,面向私有化及混合云數(shù)據(jù)中心提供多角度多層次的統(tǒng)一監(jiān)控和運維管理。幫助用戶實時對各類IT資源(網(wǎng)絡設備、服務器、存儲、數(shù)據(jù)庫、中間件等)執(zhí)行性能指標監(jiān)控,實現(xiàn)事前運維。
遇到多集群場景問題
多達上百個集群數(shù),而有些業(yè)務系統(tǒng)擁有多個集群,其多集群場景特點有:
服務發(fā)現(xiàn)隔離:Prometheus的服務發(fā)現(xiàn)機制無法發(fā)現(xiàn)多個集群的被監(jiān)控對象;
網(wǎng)絡隔離:跨集群可能存在連通性問題;
業(yè)務需求:業(yè)務系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機部署,沒有自帶支持集群部署,對于集群化和水平擴展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲空間也受限于單機磁盤容量,磁盤容量決定了單個Prometheus所能存儲的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務的指標數(shù)量、服務數(shù)量、采集速率以及數(shù)據(jù)過期時間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標、降低采集速率、設置較短的數(shù)據(jù)過期時間等。 Argus運維監(jiān)控從聚合事件快速下探到具體事件, 并直觀呈現(xiàn)相關事件的發(fā)生趨勢。
2020年12月13日,據(jù)海外媒體報道,一個名為APT的網(wǎng)絡入侵組織把世界出名網(wǎng)管軟件廠商SolarWinds作為入侵目標。這次APT攻擊首先是對SolarWinds旗下的Orion網(wǎng)絡監(jiān)控軟件更新服務器進行入侵,并在軟件更新(Orion)中植入了惡意代碼。透露大約有1.8萬客戶在其系統(tǒng)上部署了該更新,且對美國財政部高層領導使用的電子郵件系統(tǒng)也造成了影響。
SolarWinds的系統(tǒng)被攻擊之后,已導致全球許多組織的網(wǎng)絡遭到破壞,涉及的供應鏈范圍極為廣大,被稱為2020年美國極大網(wǎng)絡安全事件。
“太陽風”(SolarWinds) 是一家專職提供IT監(jiān)控和運維解決方案的商業(yè)公司。其產(chǎn)品SolarWinds Orion Network Performance Monitor(NPM)是集網(wǎng)絡監(jiān)測、設備性能維護管理、故障監(jiān)控、網(wǎng)絡實時流量監(jiān)控和歷史數(shù)據(jù)統(tǒng)計、匯總和歷史數(shù)據(jù)分析、虛擬數(shù)據(jù)中心監(jiān)控、網(wǎng)絡拓撲監(jiān)控等功能于一體的網(wǎng)絡管理系統(tǒng)。該軟件主要是用于企業(yè)內部網(wǎng)絡管理,目前全球客戶超過32萬家。SolarWinds作為一個齊全的IT管理系統(tǒng)還有一些功能的欠缺,而且中文支持也是一個國內推廣的難題。像同一類型的軟件Hostmonitor、CA Unicenter也是存在同樣的問題。 運維監(jiān)控體系一般來說包括數(shù)據(jù)采集、數(shù)據(jù)檢測、告警管理、故障管理、視圖管理和監(jiān)控管理6大模塊。產(chǎn)品運維監(jiān)控共同合作
運維監(jiān)控中收到了故障報警,我們怎么處理呢?有什么更高效的處理流程嗎?產(chǎn)品運維監(jiān)控共同合作
運維監(jiān)控數(shù)據(jù)治理:
1、分析決策層:基于公共維度層封裝具體的分析決策場景;結合低代碼和看 板,形成運維BI分析平臺。可由專業(yè)團隊和工具團隊共同建 設。實現(xiàn)真正的以數(shù)據(jù)驅動作業(yè)。
2、公共維度層:建立數(shù)據(jù)資產(chǎn)清單,加工后的元數(shù)據(jù)進行數(shù)據(jù)的生命周期管 理、數(shù)據(jù)血緣分析、完整性監(jiān)控、綜合指標管理。此層數(shù)據(jù) 由工具研發(fā)團隊實現(xiàn)。
3、元 數(shù) 據(jù) 層:基于現(xiàn)有自動化、監(jiān)控、日志、C M D B、云管、云平臺等常 用系統(tǒng)封裝插件式的數(shù)據(jù)處理工具,做到數(shù)據(jù)按需所取,標 準接入。按需索取,不做全量的數(shù)倉平臺。 產(chǎn)品運維監(jiān)控共同合作
上海觀縱科技有限公司致力于傳媒、廣電,以科技創(chuàng)新實現(xiàn)高質量管理的追求。觀縱科技深耕行業(yè)多年,始終以客戶的需求為向導,為客戶提供高質量的webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應用性能監(jiān)控,Argus-IT運維監(jiān)控。觀縱科技不斷開拓創(chuàng)新,追求出色,以技術為先導,以產(chǎn)品為平臺,以應用為重點,以服務為保證,不斷為客戶創(chuàng)造更高價值,提供更優(yōu)服務。觀縱科技始終關注自身,在風云變化的時代,對自身的建設毫不懈怠,高度的專注與執(zhí)著使觀縱科技在行業(yè)的從容而自信。