宋奇
Aquila Insight是星環(huán)科技推出的一款多模數(shù)據(jù)平臺監(jiān)控軟件,為企業(yè)運維團隊提供了一套統(tǒng)一、完整、便捷的智能化運維解決方案。通過豐富的儀表盤管理、告警與通知管理、實時和歷史查詢語句運行分析、計算和存儲引擎的統(tǒng)一監(jiān)控、完整的日志收集過濾與檢索等功能,實現(xiàn)高效智能運維的目標,充分保證集群穩(wěn)定高效的運作。
企業(yè)在應對業(yè)務部門的擴張以及數(shù)據(jù)融合創(chuàng)新時,通常會針對不同的項目場景引入不同的數(shù)據(jù)模型以及大數(shù)據(jù)產品。這些產品和模型為企業(yè)解決了海量多源異構數(shù)據(jù)的存儲管理難題,但與此同時,產品服務的可靠性問題也為企業(yè)帶來了挑戰(zhàn)。服務需要持續(xù)高效、穩(wěn)定、可靠的運作,對于企業(yè)運維團隊來說需要做到有問題及時發(fā)現(xiàn),資源不夠及時擴容,出現(xiàn)故障迅速修復,以防止出現(xiàn)服務器長時間宕機、業(yè)務長時間中斷、數(shù)據(jù)丟失等問題。
企業(yè)如果采用了大量分布式架構的大數(shù)據(jù)組件,那么運維人員需要掌握每一款大數(shù)據(jù)產品的相關知識,極大地增加了企業(yè)的運維成本以及運維人員的學習成本。并且由于缺乏統(tǒng)一的運維入口,傳統(tǒng)的查詢運維難以完成指標數(shù)據(jù)的可視化,極易缺乏或遺漏關鍵監(jiān)測指標。在數(shù)據(jù)碎片化、監(jiān)控對象粒度龐大的情況下,自動化監(jiān)控難以實現(xiàn),無法保障企業(yè)及時發(fā)現(xiàn)故障異常并進一步排除業(yè)務隱患。
基于多年以來在大數(shù)據(jù)運維方面積累的豐富經(jīng)驗,星環(huán)科技推出的Aquila Insight多模數(shù)據(jù)平臺監(jiān)控軟件,具備高安全性、高易用性的特點,可以及時幫助企業(yè)發(fā)現(xiàn)問題并解決問題,為用戶提供平臺級大數(shù)據(jù)系統(tǒng)的交互式運維解決方案,保障產品可靠穩(wěn)定的高性能運轉。
Aquila Insight將星環(huán)全線產品的運維數(shù)據(jù)集成起來,打通跨產品、跨服務、跨集群的運維窗口,提供一站式自動化的運維分析、完備的功能配置,滿足不同的運維場景需求。通過可視化的系統(tǒng)監(jiān)控平臺,運維人員可以對系統(tǒng)負載,平臺運行狀況等指標進行統(tǒng)一管理與監(jiān)控。多方面多維度的集群監(jiān)控、預警、分析以及狀態(tài)檢查機制,充分賦予了運維人員解決系統(tǒng)異常的能力,對于潛在的嚴重問題,Aquila Insight預置的告警通知設置能夠及時預警,實現(xiàn)事前預警、事中告警、事后分析的全階段運維。
Aquila Insight預置了大量的運維規(guī)則,提供54個預置儀表盤,124條告警規(guī)則,用戶可以根據(jù)自身運維場景來設置不同的運維模塊組合,對產品的可用性、性能、業(yè)務負載等進行全方位監(jiān)控。
Aquila Insight基于指標和日志數(shù)據(jù)進行實時運算,幫助用戶及時感知平臺健康狀態(tài),搭配豐富的告警規(guī)則可以滿足用戶大量場景化的告警預警。
審計告警:支持監(jiān)測安全侵害事件,如越權操作、非法入侵;
狀態(tài)告警:支持對用戶活動帶來的異常狀態(tài)告警,如慢查詢過多、在線事務過多、連接數(shù)過多等,支持對數(shù)據(jù)庫異常狀態(tài)告警,如鎖超時、相關服務不可用等;
資源預警:支持對資源情況預警,通過摘要模板,精確顯示具體的告警對象,如某服務內存不足、某中間件CPU占用過高等;
用戶可以在告警查詢頁面中方便地管理告警信息,進行故障排查。系統(tǒng)提供基于告警規(guī)則,歷史告警記錄的查詢,用戶可以更高效的追溯歷史事件,進行問題回顧。同時,系統(tǒng)匯集了不同系統(tǒng)來源的告警,將基于不同告警規(guī)則生成的告警通知以郵件或者Webhook的形式分派給對應的運維人員,進一步提升告警功能的易用性與告警處理效率。此外,Aquila Insight也支持告警分組、靜默、告警抑制等功能,可有效避免告警風暴,凸顯關鍵告警。
Aquila Insight預置了平臺以及租戶級別的日志搜索規(guī)則,開箱即用。為了幫助用戶更高效的追溯故障發(fā)生的上下文并迅速定位故障原因,Aquila Insight支持星環(huán)大數(shù)據(jù)產品的日志收集、導入導出、查詢,為用戶提供了豐富的篩選條件,如:關鍵詞、參數(shù)、上下文等查詢方式。并且系統(tǒng)支持審計日志的檢索與報表展示,可以使用日志搜索檢測安全侵害事件、操作不合規(guī)行為以及其他與數(shù)據(jù)庫或SQL相關的問題。平臺預置了搜索過濾器,用戶可以選擇保存搜索條件,便于后續(xù)復用搜索。為了提高告警效率,平臺還支持一鍵告警,通過與告警功能聯(lián)動,用戶可以直接根據(jù)日志搜索結果進行告警設置。
Insight Server的可視化頁面支持用戶查看server以及executor的健康狀態(tài)以及指標信息,如CPU、內存、GC等情況。除此之外,用戶也可以查看實時、歷史、每天/每小時的TOP SQL查詢,以及根據(jù)查詢的特征進行實時告警,告警歷史查詢等等。
運維人員在SQL運行效率慢或卡住的情況時,通常需要通過查看計算引擎的server、executor的jstack來排查此時引擎正在執(zhí)行什么任務,卡在了哪行代碼,定位線程長時間停頓的原因。雖然有一些性能分析工具可以幫助運維人員去排查問題,但是這類工具通常會給用戶展示大量的細節(jié)信息和數(shù)據(jù),需要花費大量時間跟精力來優(yōu)化可能并不重要的地方。
Insight Server引入了火焰圖(Flame Graphs),火焰圖以一個全局的視野列出所有可能導致性能瓶頸的調用棧,可以快速幫助運維人員查看函數(shù)執(zhí)行的頻繁程度、哪些函數(shù)經(jīng)常阻塞以及分析程序的性能瓶頸等。
Aquila Insight支持用戶查看當前集群中有哪些類型的數(shù)據(jù)庫和表,更直觀的為用戶實時展示當前數(shù)據(jù)庫與指定表的統(tǒng)計信息。并且針對部分組件(如ArgoDB,Slipstream、Time Lyre),Aquila Insight提供完備的監(jiān)控信息展示與統(tǒng)計,如支持流任務狀態(tài)查看和管理、任務指標查看、庫表信息查看、存儲健康狀態(tài)、讀寫情況展示、事務與鎖的情況等。當多個事務都需要對某一資源進行鎖定時,默認情況下會發(fā)生阻塞。被阻塞的請求會一直等待,直到原來的事務釋放相關的鎖。因此,監(jiān)控SQL事務至關重要,通過精準定位到導致阻塞的SQL任務,用戶可以有針對性地對其進行監(jiān)控,從而解決阻塞問題。
Aquila Insight提供給了用戶一個可視化的事務監(jiān)控圖,每個方塊代表一個PLSQL,其中a指向b,則表示SQL a涉及的事務在等待SQL b的事務。橙色的節(jié)點表示導致整個SQL事務等待的關鍵SQL,由于耗時較久因此后面的事務被阻塞,用戶僅需針對這個SQL進行優(yōu)化,即可解決其他事務阻塞的問題。
在多集群的場景下,如多云,數(shù)據(jù)庫兩地三中心,Aquila Insight支持用戶對多個集群進行統(tǒng)一監(jiān)控運維。通過對接多個數(shù)據(jù)源,系統(tǒng)能夠將多個集群的運維數(shù)據(jù)匯總到一起,然后進行統(tǒng)一存儲,統(tǒng)一分析以及統(tǒng)一展示。
此外,近期推出的Aquila Insight 9.1版本做了全新優(yōu)化,并新增了許多用戶友好的新功能,例如事件自動處理機制,規(guī)則與事件頁面支持10+規(guī)則觸發(fā)事件,系統(tǒng)自動執(zhí)行指定動作例如alarm,kill等,歡迎上手操作體驗。