程幸生
(中國移動(dòng)通信集團(tuán)湖北有限公司,湖北武漢,430023)
據(jù)統(tǒng)計(jì),移動(dòng)運(yùn)營商大部分的投訴問題都跟終端有關(guān),或者說,終端的質(zhì)量問題在整個(gè)用戶投訴中占了很大的比列,終端的質(zhì)量直接影響了用戶感知。很多投訴場(chǎng)景復(fù)雜,問題描述不清,各廠商終端日志抓取方法封閉,終端工作正在面臨著問題分析難度大的嚴(yán)峻問題。隨著5G 網(wǎng)絡(luò)的商用,通信行業(yè)正式進(jìn)入了5G+AICDE 的移動(dòng)互聯(lián)網(wǎng)時(shí)代,新時(shí)代對(duì)網(wǎng)絡(luò)的維護(hù)與優(yōu)化工作提出了更為嚴(yán)苛的要求。
用戶感知和服務(wù)品質(zhì)需求伴隨著市場(chǎng)開發(fā)度增強(qiáng)不斷地提升,手機(jī)作為用戶與移動(dòng)互聯(lián)網(wǎng)交互的重要門戶,終端質(zhì)量保障將承擔(dān)更大的責(zé)任和壓力,終端工作也將逐漸的實(shí)現(xiàn)前端高質(zhì)量測(cè)試與后端終端問題高效分析的有機(jī)結(jié)合,因此,急需開發(fā)一種基于通用終端使用的手機(jī)側(cè)抓包軟件,確保終端質(zhì)量和網(wǎng)絡(luò)演進(jìn)平滑進(jìn)行。
當(dāng)前手機(jī)終端與無線網(wǎng)絡(luò)的問題,由于整個(gè)通信過程涉及的網(wǎng)元、影響因素和變量非常多,技術(shù)原理和觸發(fā)機(jī)制非常復(fù)雜。在事后分析問題時(shí),想要復(fù)現(xiàn)問題有時(shí)首先就非常困難,經(jīng)常測(cè)試數(shù)個(gè)小時(shí)都無法復(fù)現(xiàn);再者復(fù)現(xiàn)問題后,分析過程非繁瑣,需要用排除法逐項(xiàng)的排除那些可能因素,才能如剝繭抽絲般定位到真正的原因?;诖?,在多年終端問題分析的基礎(chǔ)上,本文提出了一種基于通用終端使用的手機(jī)側(cè)抓包軟件。為了解決這兩個(gè)問題,該軟件在用戶終端上隨時(shí)記錄分析問題必需的終端側(cè)日志,并同時(shí)記錄下用戶的操作過程和終端的網(wǎng)絡(luò)環(huán)境、軟件環(huán)境等信息。用戶在出現(xiàn)問題后只需要將發(fā)生問題時(shí)段的日志數(shù)據(jù)本地解析或者上傳到云服務(wù)器,分析專家就可以根據(jù)這些日志數(shù)據(jù)進(jìn)行詳細(xì)的分析,從而準(zhǔn)確的定位問題發(fā)生的原因,不再需要費(fèi)時(shí)費(fèi)力的復(fù)現(xiàn)問題。
終端問題分析,遵照“初步評(píng)估->問題信息獲取->分析定位”的大流程,問題信息獲取、分析定位是目前的短板,基于通用終端使用的手機(jī)側(cè)抓包軟件致力于解決該短板。手機(jī)測(cè)抓包分析軟件的系統(tǒng)架構(gòu)采用了最流行的手機(jī)端/云端服務(wù)器的結(jié)構(gòu),運(yùn)行在普通用戶手機(jī)上的軟件在后臺(tái)記錄包括基帶日志、數(shù)據(jù)日志、用戶操作日志、終端性能日志等數(shù)據(jù),并上傳到軟件的云端服務(wù)器。問題分析專家通過在云端服務(wù)器或者手機(jī)終端本地上使用各種日志分析工具和手段來找到定位問題原因的證據(jù)。
圖1 基于通用終端使用的手機(jī)側(cè)抓包分析軟件的邏輯架構(gòu)
基于通用終端使用的手機(jī)側(cè)抓包分析軟件采用當(dāng)前最先進(jìn)的云技術(shù)架構(gòu)、用戶行為分析理念、終端基帶信令分析技術(shù)和IP 通信包分析技術(shù),對(duì)終端在用戶日常使用中出現(xiàn)的問題進(jìn)行定位和分析。因此終端側(cè)的日志抓取技術(shù),云端服務(wù)器的日志定位、分析輔助技術(shù)是本軟件的核心。在綜合考慮了系統(tǒng)的可實(shí)現(xiàn)性、未來的可擴(kuò)展性和系統(tǒng)成本的基礎(chǔ)上,基于通用終端使用的手機(jī)側(cè)抓包分析軟件選擇了基于PHP+MySQL 的標(biāo)準(zhǔn)化輕量級(jí)架構(gòu):
(1)技術(shù)平臺(tái):PHP Yii Framework,3 層框架結(jié)構(gòu);
(2)技術(shù)框架:輕量級(jí)高性能的Spring 框架;
(3)數(shù)據(jù)層:除了MySQL,數(shù)據(jù)層還支持多種主流數(shù)據(jù)庫;
(4)運(yùn)行模式:純B/S 模式;
(5)擴(kuò)展接口:基于Web Service 的服務(wù)接口,采用XML 的數(shù)據(jù)傳輸格式。
基于通用終端使用的手機(jī)側(cè)抓包分析軟件,其手機(jī)終端側(cè)應(yīng)用APP 具有如下特征:
(1)實(shí)時(shí)記錄多種終端日志:可記錄的日志包括:基帶日志,IP 通信日志、系統(tǒng)通用日志、用戶操作日志、終端網(wǎng)絡(luò)狀態(tài)、終端性能日志。
(2)開機(jī)自啟動(dòng):APP 一經(jīng)安裝,用戶終端每次開機(jī)重啟都會(huì)自動(dòng)在后臺(tái)啟動(dòng)和運(yùn)行,無需用戶操作。
(3)后臺(tái)靜默運(yùn)行:APP 在后臺(tái)運(yùn)行時(shí),不會(huì)對(duì)用戶的前臺(tái)操作產(chǎn)生任何影響,對(duì)用戶來說是透明的。
(4)無需數(shù)據(jù)消耗流量:APP 在WIFI 網(wǎng)絡(luò)的狀態(tài)下自動(dòng)上傳日志數(shù)據(jù),而在數(shù)據(jù)網(wǎng)絡(luò)狀態(tài)下不會(huì)自動(dòng)上傳,除非手動(dòng)操作。
(5)自動(dòng)提示版本升級(jí):在有新版本APP 客戶端時(shí),會(huì)自動(dòng)彈出窗口提升下載和升級(jí)。
(6)本機(jī)基帶日志查看:可以在本機(jī)解析和查看基帶日志,方便手工測(cè)試和即時(shí)排障。
在后臺(tái)的云端管理平臺(tái),具有如下特征:
(1)無特定平臺(tái)和軟件依賴:支持MySQL、Oracle、SQL Server,支持Windows、Linux 操作系統(tǒng),支持Unix操作系統(tǒng)(需要手動(dòng)安裝配置)。
(2)使用開發(fā)和標(biāo)準(zhǔn)化的技術(shù):與操作系統(tǒng)環(huán)境無關(guān)的純PHP 結(jié)構(gòu)支持,通過Hibernate 支持多種數(shù)據(jù)庫,針對(duì)不同的數(shù)據(jù)庫和Web 環(huán)境進(jìn)行了專門的調(diào)試和優(yōu)化。
(3)超強(qiáng)并發(fā)能力:支持200 終端在線、后續(xù)調(diào)優(yōu)支持300-500 終端在線;從數(shù)據(jù)庫架構(gòu)、系統(tǒng)分布式架構(gòu)的多級(jí)緩存和分離優(yōu)化技術(shù),實(shí)現(xiàn)性能設(shè)計(jì)的長期可增長;可以充分利用多核和多CPU、高內(nèi)存的應(yīng)用,支持高性能的大量信息處理和網(wǎng)絡(luò)接入;支持64 位版本的Windows 和Linux 等操作系統(tǒng),可以支持多達(dá)500 終端同時(shí)在線的性能需求,且可以隨著硬件技術(shù)的發(fā)展而增長。
(4)業(yè)務(wù)價(jià)值:統(tǒng)一的終端和日志管理平臺(tái),實(shí)現(xiàn)高效的終端檢索和日志查看功能;多種報(bào)表和視圖便于定位終端問題。
接下來,以一起小米用戶的投訴為例,來說明手機(jī)側(cè)抓包分析軟件的工作原理。來自EOMS 平臺(tái)的用戶投訴顯示,用戶的終端型號(hào)為紅米1S,問題描述為:使用紅米1S 通過4G 網(wǎng)絡(luò)訪問百度首頁www.baidu.com,偶爾出現(xiàn)打開網(wǎng)頁時(shí)延較長的情況?;诖耍S護(hù)人員的測(cè)試結(jié)果如圖2所示,用戶終端故障的分析流程圖如圖3 所述。
圖2 使用用戶手機(jī)訪問百度的測(cè)試結(jié)果
圖3 用戶終端故障的分析流程
根據(jù)測(cè)試經(jīng)驗(yàn),可能導(dǎo)致訪問百度首頁時(shí)延較長問題的原因包括:(1)網(wǎng)絡(luò)問題(網(wǎng)絡(luò)信號(hào)弱,網(wǎng)絡(luò)負(fù)載大,小區(qū)切換延遲);(2)終端問題(終端性能不足);(3)百度服務(wù)器問題(訪問量負(fù)載過大)。
結(jié)合測(cè)試環(huán)境進(jìn)行分析,可以排除上面一些不太可能原因:
(1)小區(qū)切換延遲(排除)-測(cè)試時(shí)在辦公環(huán)境處于靜止?fàn)顟B(tài),小區(qū)不會(huì)無故切換。
(2)終端性能不足(排除)-測(cè)試終端當(dāng)時(shí)只開啟了系統(tǒng)自帶瀏覽器,沒有打開任何后臺(tái)應(yīng)用,所以不會(huì)受到后臺(tái)應(yīng)用干涉,而造成瞬時(shí)性能的瓶頸。
(3)百度服務(wù)器問訪問量負(fù)載過大(排除)-測(cè)試時(shí)間為周五15:48 分,此時(shí)段為工作時(shí)間,在一天的訪問量曲線中,屬于中等偏低的時(shí)段,所以服務(wù)器負(fù)載不會(huì)過大。
(4)通過對(duì)已安裝軟件的用戶行為記錄工具的測(cè)試手機(jī)進(jìn)行信令追蹤。
抓取的基帶日志記錄進(jìn)行查看,發(fā)現(xiàn)與測(cè)試訪問百度首頁的時(shí)間所對(duì)應(yīng)的日志記錄時(shí)間點(diǎn)有明確的數(shù)據(jù)層數(shù)據(jù)阻塞的警告記錄,對(duì)比記錄吻合,這就表明終端訪問百度首頁時(shí)延過長的原因是由于當(dāng)時(shí)用戶傳輸數(shù)據(jù)量較大或網(wǎng)絡(luò)傳輸帶寬資源不足引起數(shù)據(jù)阻塞而造成的問題。同時(shí)信號(hào)強(qiáng)度信息顯示34(rssi),58(ber),其中換rssi 值可以換算為-45dbm,信號(hào)極好,從而排除了信號(hào)弱的可能性。
基于上述分析,最終的解決方案為:目前互聯(lián)網(wǎng)時(shí)代正處于高速發(fā)展階段,用戶量及業(yè)務(wù)需求量正在大幅增加,原有網(wǎng)絡(luò)傳輸通道或資源在高用戶集聚區(qū)或高業(yè)務(wù)需求區(qū)會(huì)出現(xiàn)如本案例一樣的資源不足造成數(shù)據(jù)阻塞或其它類似的問題,我們需要對(duì)現(xiàn)有網(wǎng)絡(luò)傳輸架構(gòu)及設(shè)計(jì)在容量方面進(jìn)行提升,以便更好的業(yè)務(wù)服務(wù)質(zhì)量,提升用戶感知及對(duì)品牌的認(rèn)可度。
基于各廠家終端抓包手段及通用抓包的遍歷性中總結(jié)、提煉,本文開發(fā)出了一套用戶行為日志管理系統(tǒng),從“用戶行為記錄”、“基帶、IP 日志抓取”,到“終端行為日志管理”,可以幫助各移動(dòng)運(yùn)營商在錯(cuò)綜復(fù)雜的終端問題分析中,高效率開展終端端到端問題分析管理工作。該軟件已進(jìn)行應(yīng)用落地,試運(yùn)行基于通用終端的手機(jī)抓包軟件工具并實(shí)施日志管理,為提升終端質(zhì)量提供新的視角和抓手。傳統(tǒng)的分析方法和數(shù)據(jù)源無法有效識(shí)別潛在終端問題、終端環(huán)境的關(guān)聯(lián)因子、無法定位信令層問題原因。而借助通用終端日志抓包工具,湖北公司構(gòu)建了系統(tǒng)性的終端用戶行為分析管理辦法,高效地捕捉終端問題的行為因素、日志詳情,從而有效識(shí)別潛在的問題關(guān)鍵因子,提升針對(duì)終端問題的分析解決效率。在問題定位率從不到20%提升至60%左右,定位率提升2倍以上。