數(shù)據(jù)準(zhǔn)入:所有數(shù)據(jù)對(duì)象化,定義固定字段、對(duì)象描述字段、對(duì)象具體數(shù)值三類(lèi),便于后續(xù)管理。數(shù)據(jù)血緣:數(shù)據(jù)采集階段記錄數(shù)據(jù)依賴(lài)關(guān)系,明確展示數(shù)據(jù)血緣,避免數(shù)據(jù)關(guān)聯(lián)錯(cuò)誤同時(shí)可比較大化減少數(shù)據(jù)冗余。數(shù)據(jù)生命周期:嚴(yán)格控制數(shù)據(jù)存儲(chǔ)生命周期,定時(shí)對(duì)冗余數(shù)據(jù)進(jìn)行清洗校驗(yàn),確保整體性能。數(shù)據(jù)完整性:基于數(shù)據(jù)血緣,對(duì)所有數(shù)據(jù)的完整性進(jìn)行校驗(yàn),不僅對(duì)單條數(shù)據(jù)本身同時(shí)需要對(duì)上下關(guān)聯(lián)數(shù)據(jù)進(jìn)行校驗(yàn)。數(shù)據(jù)責(zé)任制:將各類(lèi)數(shù)據(jù)的正確性和關(guān)聯(lián)性責(zé)任到各個(gè)專(zhuān)業(yè)團(tuán)隊(duì),從源頭控制數(shù)據(jù)質(zhì)量。Argus運(yùn)維監(jiān)控大數(shù)據(jù)的提取與分析。福建運(yùn)維監(jiān)控包括什么
Argus運(yùn)維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能,有效整合PROMETHEUS。
環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機(jī),又有 Kubernets 集群
監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項(xiàng)及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨(dú)的技術(shù)棧,維護(hù)成本高
無(wú)統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置
數(shù)據(jù)采集 : Prometheus 負(fù)責(zé)Exporter及 Kubernets集群的 監(jiān)控項(xiàng)采集,并單獨(dú)于Kubernets集群外部署 § Zabbix負(fù)責(zé)虛擬主機(jī)監(jiān)控項(xiàng)的采集
事件處理 : Zabbix 通過(guò)HTTP agent 方式查詢(xún)不同的 prometheus 采集節(jié)點(diǎn),并通過(guò)監(jiān)控項(xiàng)模板中監(jiān)控項(xiàng) 的預(yù)處理及自動(dòng)發(fā)現(xiàn)功能自動(dòng)創(chuàng)建不同應(yīng)用名稱(chēng)的監(jiān) 控項(xiàng)及監(jiān)控項(xiàng)閾值 § Zabbix 通過(guò)不同監(jiān)控項(xiàng)的當(dāng)前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級(jí)別下相應(yīng)的動(dòng)作 § 各閾值動(dòng)作通過(guò)應(yīng)用名關(guān)聯(lián)不同的用戶(hù)組,觸發(fā) 釘釘通知到對(duì)應(yīng)的研發(fā)團(tuán)隊(duì) 方案運(yùn)維監(jiān)控24Argus運(yùn)維監(jiān)控從聚合事件快速下探到具體事件, 并直觀呈現(xiàn)相關(guān)事件的發(fā)生趨勢(shì)。
對(duì)于網(wǎng)絡(luò)出口與網(wǎng)絡(luò)專(zhuān)線(xiàn)的有效監(jiān)控與分析,既能協(xié)助業(yè)務(wù)運(yùn)維同學(xué)有效地定位業(yè)務(wù)異常、評(píng)估業(yè)務(wù)服務(wù)質(zhì)量等,也能有效地度量業(yè)務(wù)整體運(yùn)營(yíng)成本,畢竟現(xiàn)在帶寬的使用成本在整體運(yùn)營(yíng)成本中也是占比越來(lái)越大。相信運(yùn)維同學(xué)多少都會(huì)遇到下面等較高頻的使用場(chǎng)景:
這條專(zhuān)線(xiàn)當(dāng)前利用率多少?
在已經(jīng)使用的流量中,某個(gè)IP使用了多少流量?這些所產(chǎn)生的流量是基于什么協(xié)議與方向?
專(zhuān)線(xiàn)與網(wǎng)絡(luò)出口的丟包率與時(shí)延是怎么樣的?
每條專(zhuān)線(xiàn)中主要是哪些務(wù)在用?哪個(gè)是“地主客戶(hù)”?對(duì)
于網(wǎng)絡(luò)流量的監(jiān)控來(lái)說(shuō),其實(shí)中心是一個(gè)分析平臺(tái),通過(guò)把采集到的各種流量包抓取過(guò)來(lái),然后再把相應(yīng)的流量送入分析集群。
Prometheus指標(biāo)采集和查詢(xún)存儲(chǔ)方案-2020年
我們分一級(jí)監(jiān)控平臺(tái)和二級(jí)集群Prometheus監(jiān)控采集組件。一級(jí)提供kafka集群和Prometheus聚合組件,二級(jí)各集群部署Prometheus和Prometheus-kafka-adapter組件,采集和遠(yuǎn)程送數(shù)據(jù)到一級(jí)的kafka集群。
該方案優(yōu)點(diǎn):
1.業(yè)務(wù)系統(tǒng)可以跨集群聚合數(shù)據(jù),如圖k8s集群-1和k8s集群-2數(shù)據(jù)聚合到Top-1的Prometheus上。
2.一級(jí)監(jiān)控平臺(tái)上只要有足夠的cpu、存儲(chǔ)資源,理論上可以水平擴(kuò)展接入更多集群。2020年底采集的指標(biāo)量每天3194億的量級(jí),吞吐量達(dá)370萬(wàn)/s。
3.采集端Prometheus可以保留極少數(shù)據(jù),比如6小時(shí)的數(shù)據(jù),減少資源消耗。而上層Prometheus由于落數(shù)據(jù)到時(shí)序數(shù)據(jù)庫(kù)influxdb中,可以保存一個(gè)月數(shù)據(jù)量甚至更多。
該方案沒(méi)做到什么:
1.采集端Prometheus擴(kuò)容問(wèn)題,單集群中數(shù)據(jù)規(guī)模受Prometheus原生的限制。
2.一級(jí)監(jiān)控平臺(tái)上時(shí)序數(shù)據(jù)庫(kù)influxdb有單點(diǎn)問(wèn)題,數(shù)據(jù)規(guī)模和數(shù)據(jù)安全性受其影響。 自研ArgusNMS,增強(qiáng)網(wǎng)關(guān)功能,實(shí)現(xiàn)高效且準(zhǔn)確的網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)等功能。
整個(gè)餓了么監(jiān)控系統(tǒng)在演進(jìn)過(guò)程中主要分為如下3個(gè)階段:
第一階段:主要由Statsd/Graphite/Grafana負(fù)責(zé)業(yè)務(wù)層的監(jiān)控,ETrace負(fù)責(zé)全鏈路監(jiān)控,Zabbix負(fù)責(zé)服務(wù)器層面的監(jiān)控,ELog負(fù)責(zé)分布式日志搜索;
第二階段:整個(gè)餓了么也從單IDC演進(jìn)成異地多活架構(gòu),所以對(duì)監(jiān)控也提出了更高的要求,基于這個(gè)我們也自研LinDB,以支持多活架構(gòu)下的監(jiān)控,Zabbix慢慢被ESM/InfluxDB/Grafana所替換,使用ELK替換原來(lái)的日志方案;
第三階段:主要做一個(gè)減法,即把原來(lái)StatsD/Graphite/ETrace/ESM/InfluxDB統(tǒng)一到了EMonitor+LinDB這樣的平臺(tái),以提供給用戶(hù)一套統(tǒng)一的監(jiān)控平臺(tái),日志開(kāi)始使用阿里云的SLS。 想要做好運(yùn)維監(jiān)控,這個(gè)命題很大,可想而知不是只要做好一件兩件的事就能實(shí)現(xiàn),必定是成體系、成規(guī)范。內(nèi)蒙古運(yùn)維監(jiān)控怎么樣
Argus V3.4 重磅發(fā)布,打造完整的Iaas&Paas兼容感知,解耦Zabbix版本限制,生態(tài)無(wú)縫兼容。福建運(yùn)維監(jiān)控包括什么
基于Zabbix來(lái)構(gòu)建整個(gè)監(jiān)控體系生態(tài)圈。下面我們就來(lái)監(jiān)控系統(tǒng)的整個(gè)流程:數(shù)據(jù)采集:Zabbix通過(guò)SNMP、Agent、ICMP、SSH、IPMI等對(duì)系統(tǒng)進(jìn)行數(shù)據(jù)采集;數(shù)據(jù)存儲(chǔ):Zabbix存儲(chǔ)在MySQL上,也可以存儲(chǔ)在其他數(shù)據(jù)庫(kù)服務(wù);使用數(shù)據(jù)庫(kù)是必備技能。數(shù)據(jù)分析:當(dāng)我們事后需要復(fù)盤(pán)分析故障時(shí),Zabbix能給我們提供圖形以及時(shí)間等相關(guān)信息,方面我們確定故障所在;數(shù)據(jù)展示:Web界面展示、(移動(dòng)APP、java_php開(kāi)發(fā)一個(gè)Web界面也可以);監(jiān)控報(bào)警:電話(huà)報(bào)警、郵件報(bào)警、微信報(bào)警、短信報(bào)警、報(bào)警升級(jí)機(jī)制等(無(wú)論什么報(bào)警都可以);報(bào)警處理:當(dāng)接收到報(bào)警,我們需要根據(jù)故障的級(jí)別進(jìn)行處理,比如:重要緊急、重要不緊急,等。根據(jù)故障的級(jí)別,配合相關(guān)的人員進(jìn)行快速處理。福建運(yùn)維監(jiān)控包括什么
上海觀縱科技有限公司公司是一家專(zhuān)門(mén)從事webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控產(chǎn)品的生產(chǎn)和銷(xiāo)售,是一家服務(wù)型企業(yè),公司成立于2022-11-14,位于上海市奉賢區(qū)望園南路1288弄80號(hào)1904、1909室。多年來(lái)為國(guó)內(nèi)各行業(yè)用戶(hù)提供各種產(chǎn)品支持。公司主要經(jīng)營(yíng)webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控等產(chǎn)品,產(chǎn)品質(zhì)量可靠,均通過(guò)傳媒、廣電行業(yè)檢測(cè),嚴(yán)格按照行業(yè)標(biāo)準(zhǔn)執(zhí)行。目前產(chǎn)品已經(jīng)應(yīng)用與全國(guó)30多個(gè)省、市、自治區(qū)。上海觀縱科技有限公司研發(fā)團(tuán)隊(duì)不斷緊跟webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控行業(yè)發(fā)展趨勢(shì),研發(fā)與改進(jìn)新的產(chǎn)品,從而保證公司在新技術(shù)研發(fā)方面不斷提升,確保公司產(chǎn)品符合行業(yè)標(biāo)準(zhǔn)和要求。webfunny前端監(jiān)控,webfunny前端埋點(diǎn),全鏈路應(yīng)用性能監(jiān)控,Argus-IT運(yùn)維監(jiān)控產(chǎn)品滿(mǎn)足客戶(hù)多方面的使用要求,讓客戶(hù)買(mǎi)的放心,用的稱(chēng)心,產(chǎn)品定位以經(jīng)濟(jì)實(shí)用為重心,公司真誠(chéng)期待與您合作,相信有了您的支持我們會(huì)以昂揚(yáng)的姿態(tài)不斷前進(jìn)、進(jìn)步。