亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)分析服務平臺實踐

        2015-03-16 11:10:48丁賢
        電腦知識與技術 2015年1期
        關鍵詞:易用性數(shù)據(jù)分析

        丁賢

        摘要:近年來,在傳統(tǒng)銀行業(yè)務增長乏力及互聯(lián)網金融沖擊等多重壓力下,中國銀行業(yè)積極向智能化轉型的趨勢日漸明顯。銀行業(yè)務服務理念也正逐漸從“服務為王”向“體驗為王”轉變。作為智能化轉型的一個重要環(huán)節(jié) , 大數(shù)據(jù)分析通過對海量數(shù)據(jù)的挖掘提煉出有價值的信息,從而幫助銀行做出有競爭性的決策。但是,數(shù)據(jù)分析的過程具有很強的專業(yè)性,對使用人員的技能要求較高。如何將專業(yè)性很強的數(shù)據(jù)分析和易用性結合,讓各級用戶都能分享到大數(shù)據(jù)建設的成果是一個業(yè)內都在研究的課題。該文以”體驗好、操作易、可用性高和服務復用”的設計理念為切入點,結合雙數(shù)據(jù)源架構設計、異步查詢框架、參數(shù)化界面配置和聯(lián)機構件等技術手段的支撐,闡述了基于服務的數(shù)據(jù)分析平臺的構建思路。

        關鍵詞: 數(shù)據(jù)分析;易用性;基于服務;可定制;大數(shù)據(jù)可視化

        中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)01-0001-04

        The Practice of the Big Data Analysis Service Platform

        DING Xian

        (Software Development Center, Industrial Commercial Bank of China Ltd, Shanghai 201206,China)

        Abstract: In recent years, under the multiple pressure of the weak growth in the traditional banking business and the Internet financial impact, the trend that the service of Chinese banking is actively updated to the intelligent level is increasingly obvious. The concept of the Banking service is gradually changing from "service is the god" to "the experience is the god" . As an important part of intelligent transformation, the analysis of large data can extract valuable information by mining among the massive data, which can help the bank to make competitive decisions. However, the process of the data analysis is very professional and requires higher skills. How to combine the highly professional data analysis and the ease of use in order to share the achievements of the large data construction among the users is a widely studied topic. This paper takes the design concept of " good experience , ease of operation, high availability and the resue of service" as the starting point, combining some key technical measures which include the design of dual data souce and the framework of the asynchronous query ,etc, parameterized interface configuration and the on-line component techniques, expounds the idea of constructing the service-based platform of the data analysis.

        Key words: data analysis; usability; service-based; customization; large data visualization

        大數(shù)據(jù)作為一種重要企業(yè)資產,其重要性已深入人心。隨之涌現(xiàn)了大批挖掘平臺和工具,幫助業(yè)務部門挖掘大數(shù)據(jù)的潛在業(yè)務價值。由于數(shù)據(jù)挖掘工作本身有很強的專業(yè)性,對分析人員技能要求比較高,且存在重算法而輕交互的情況,一定程度上制約了大數(shù)據(jù)分析的推廣?!叭绾谓档褪褂瞄T檻,使更多業(yè)務人員都能分享到大數(shù)據(jù)建設成果并應用到實際業(yè)務中”是大數(shù)據(jù)建設過程中所面臨的一個重要課題。

        作為以上問題的一種解決對策,該文敘述了一個基于服務的數(shù)據(jù)分析平臺的構建思路。以”易“為切入,結合”提升用戶體驗”、“整合資源”、“系統(tǒng)靈活可訂制”這3個主要著眼點展開平臺的設計和構建工作,綜合運用了消息隊列、多級緩存、數(shù)據(jù)可視化、批量聯(lián)機和負載均衡等技術手段。

        1 總體框架

        整個框架根據(jù)數(shù)據(jù)的流轉進行了分層,具體包括資源層、核心功能層,基礎服務層,服務構件層和應用領域層(如圖1所示)。

        各層的定位和技術實現(xiàn)如下:

        資源層:數(shù)據(jù)分析平臺的資源包括2大類,一類是數(shù)據(jù)資源,包括數(shù)據(jù)倉庫、hadoop等,平臺對于這類資源訪問的技術手段以“數(shù)據(jù)是否落地”為標準分為2種,1種是通過消息隊列的異步聯(lián)機查詢,另1種是通過下數(shù)加載的方式實現(xiàn)本地庫的訪問; 平臺訪問的另一類資源是系統(tǒng)資源,比如:SAS EG 等分析工具,對于該類資源的訪問采用門戶的方式進行集成,提供入口鏈接或基于服務的調用方式進行整合。

        基礎服務層:作為平臺的服務基礎,圍繞著“提高聯(lián)機響應、簡化用戶操作、確保系統(tǒng)穩(wěn)定、降低維護成本和監(jiān)控”等設計原則,綜合運行了各類技術和算法為核心功能層提供保障。具體技術方式包括:基于雙數(shù)源的消息隊列、基于內存混存和文件緩存的多級緩存、基于雙線程的預約定制功能、實現(xiàn)批量和聯(lián)機資源動態(tài)調優(yōu)的作業(yè)調度以及為減少維護成本而基于監(jiān)聽器的日志統(tǒng)計功能。

        核心功能層:本層提供了與用戶存在交互的聯(lián)機功能。功能的設置貼近數(shù)據(jù)分析工作,以簡潔的操作為設計目標。具體技術方面,包括跨hadoop&TD數(shù)據(jù)庫的向導式功能、可靈活在線定制的模型、集成挖掘工具的分析工具集等。

        服務構件層:數(shù)據(jù)分析平臺對服務展現(xiàn)方式和服務提供方式也進行了構件化。具體技術包括:基于會話同步的界面嵌入、基于接口調用的異步查詢以及基于echarts的大數(shù)據(jù)可視化構件應用。

        應用領域層:分析平臺的服務對象,可以是各業(yè)務領域的業(yè)務人員,也可以是相關業(yè)務領域的其它應用。

        2 技術實現(xiàn)

        2.1 綜述

        數(shù)據(jù)分析平臺力求將高深的大數(shù)據(jù)挖掘以一種更加簡潔的方式提供給廣大用戶并提供門戶式的訪問路徑,使更多基層用戶能分享到大數(shù)據(jù)建設的成果并應用到工作中。圖2列出了本文的總體業(yè)務價值和技術體系,接下來將圍繞著“提升用戶體驗”、“整合資源”、”系統(tǒng)靈活可訂制”這3個方面深入進行探討。

        2.2提升數(shù)據(jù)分析用戶體驗方面的技術實現(xiàn)

        2.2.1 基于OLAP+OLTP的雙數(shù)據(jù)源消息隊列設計助力數(shù)據(jù)分析

        數(shù)據(jù)服務平臺是基于OLAP系統(tǒng)開展數(shù)據(jù)分析工作。相較OLTP系統(tǒng),OLAP的特點是存放海量數(shù)據(jù),但聯(lián)機響應效率相對較慢。為了確保數(shù)據(jù)分析平臺有良好的用戶體驗,綜合OLAP+OLTP的特點,構建了基于雙數(shù)據(jù)源的消息隊列處理機制。

        該處理機制的核心思想是, 利用oracle數(shù)據(jù)庫聯(lián)機響應能力強的特點,將模型管理、查詢隊列等涉及聯(lián)機交互的操作數(shù)據(jù)部署在oracle上,海量的業(yè)務數(shù)據(jù)仍保留在數(shù)據(jù)數(shù)據(jù)庫上。通過ETL調度+消息隊列的方式,將oracle的“快”數(shù)據(jù)以及數(shù)據(jù)倉庫的”海量“數(shù)據(jù)粘合起來。

        具體流程是: 用戶通過前臺提交查詢請求,該查詢請求存放在oracle數(shù)據(jù)庫中;在ETL 調度服務器起服務,每間隔一段時間(可參數(shù)配置)掃描oracle的隊列表,若發(fā)現(xiàn)待處理的請求,則根據(jù)優(yōu)先級和并發(fā)數(shù)抓取一定數(shù)量的請求進行查詢;ETL服務器上查詢完成后,生成文件放到外置存儲,同時更新oracle上消息隊列表中的執(zhí)行狀態(tài),供前臺聯(lián)機訪問。

        2.2.2 通過多級緩存設計提高數(shù)據(jù)分析采樣訪問效率

        在數(shù)據(jù)分析的實際操作時,為確保樣本數(shù)據(jù)的代表性,采樣結果集往往非常大,如何對結果集進行有效管理,提高類似查詢的效率也是平臺在建設過程中需要解決的問題。

        為實現(xiàn)結果的復用,提高業(yè)務數(shù)據(jù)的訪問效率,數(shù)據(jù)分析平臺對緩存進行了分層設計和實現(xiàn)。

        根據(jù)使用特點,分為以下3個層次。

        1) 本地緩存:定位為用于保存一些靜態(tài)的參數(shù),比如:字典類參數(shù)。在應用服務器啟服務時讀取oracle參數(shù)表的數(shù)值加載到本地內存中,供聯(lián)機訪問。

        2) 分布式緩存:定位為存放一些動態(tài)變化且訪問頻次較高的數(shù)據(jù)。比如:用戶最關心的模型信息,考慮到該信息訪問頻繁且由于用戶可以實時部署模型存在動態(tài)變化的特點,為此在向數(shù)據(jù)庫新增模型數(shù)據(jù)的同時向分布式緩存中寫入模型信息,既提高了訪問效率同時也減輕了數(shù)據(jù)庫的壓力。

        3) 文件緩存:定位用于保存每次模型的查詢結果。為提高查詢結果的復用性,數(shù)據(jù)分析平臺采用文本的方式保留查詢結果。后續(xù)再次查詢歷史結果則可直接訪問文件緩存即可,減少了再次查詢的開銷,提高了查詢效率。

        2.2.3 通過大數(shù)據(jù)可視化技術直觀展現(xiàn)數(shù)據(jù)的內在聯(lián)系

        對于大數(shù)據(jù)分析而言,傳統(tǒng)的表格形式無法直觀的發(fā)現(xiàn)隱藏在復雜、多維數(shù)據(jù)后的規(guī)律,需要有一種直覺的、可交互的可視化環(huán)境來幫助深度挖掘數(shù)據(jù)價值。

        大數(shù)據(jù)可視化的工作分為2個層面:靜態(tài)展示和交互性。

        其中,靜態(tài)展示的實踐可按照以下3個場景有針對性的開展:

        1) 將數(shù)值圖形化:當1個指標時,將數(shù)據(jù)的大小以圖形的方式表現(xiàn)

        2) 指標關系圖形化:當存在多個指標時,挖掘指標之間的關系并將其圖形化,可提升圖表的可視化深度。

        3) 按空間可視化:當圖表數(shù)據(jù)存在地域信息并需要突出表現(xiàn)時,可用地圖將空間可視化。

        2.3 系統(tǒng)靈活可定制方面的技術實現(xiàn)

        2.3.1 基于”雙線程調度+用戶在線定制“的數(shù)據(jù)分析預約采樣功能

        預約采樣功能提供給分析人員在將來某個時間點或某段時間內周期性運行取數(shù)模型的功能。主要解決數(shù)據(jù)分析過程中2個業(yè)務問題:

        1) 需定期獲取采樣數(shù)據(jù)的任務,免除了用戶反復提交的重復勞動。

        2) 充分利用計算資源空閑的特點,實現(xiàn)”晚上定時預約,白天看數(shù)”的工作模式,提高工作效率。

        預約采樣功能的具體技術實現(xiàn)由3部分組成:基于雙線程的調度框架、 時間頻度表達式和預定義時間變量和解析。

        2.3.1.1 雙線程調度框架

        應用服務器上啟動兩個線程ScheduleCheck和ScheduleScan。 其中,線程 ScheduleCheck屬于守護線程,負責監(jiān)控線程ScheduleScan是否處于活動狀態(tài),若發(fā)現(xiàn)未啟動則會通過new ScheduleScan().start() 自動啟動ScheduleScan線程。線程ScheduleScan是工作線程,作為定時任務掃描預約規(guī)則表,根據(jù)時間頻度表達式的計算,將達到執(zhí)行周期的查詢記錄添加到查詢隊列中。該工作線程的掃描頻度目前為10分鐘,通過配置文件靈活配置。

        2.3.1.2 時間頻度表達式和解析

        參照Quartz的Cron 表達式對頻度定義的格式,通過自定義程序進行解析。

        具體實現(xiàn)步驟如下:

        ①定義頻度格式:在預約功能使用到了以下表的6個域,粒度到分鐘

        例如 每月15號的 10:15 AM 表示 0 15 10 15 * ?

        ②解析表達式,計算下次預約時間點:對于周期性運行的預約,將解析表達式后得到的頻度與最后一次運行時間結合計算出下次預約的具體時間點。

        ③對滿足時間窗口的預約觸發(fā)查詢:將前一步計算出的下次預約的具體時間點和當前掃描時間進行比較,若誤差在10分鐘以內,則認為達到預約窗口(考慮到輪詢存在時間間隔),則將其對應的預約的查詢任務添加到查詢隊列中并執(zhí)行。

        2.3.1.3 預先定義時間變量和解析

        為解決周期性執(zhí)行腳本中只是時間變量在變化的特點,預先定義了一批日期變量并應用到模型腳本中。當預約時間點到達并執(zhí)行時,系統(tǒng)解析腳本中的時間變量替換成實際的日期后完成查詢。例如:當系統(tǒng)讀取到變量${TX_MONTH_END}時,系統(tǒng)用日期函數(shù)Calendar的getActualMaximum方法得到當前月份的最大日期,拼接當前年份和月份后組成當前月末的時間格式(yyyy-MM-dd),之后用這個時間替換掉查詢腳本中的${TX_MONTH_END},然后執(zhí)行。

        2.4 整合第三方數(shù)據(jù)分析資源的技術實現(xiàn)

        分析工具集實現(xiàn)了對各類第三方分析工具的資源整合,以門戶的方式作為工具訪問的統(tǒng)一入口。

        根據(jù)工具的特點不同,資源整合可分以下幾種:

        1) 若工具本身是WEB應用,則通過URL進行調用。比如:配置聯(lián)接"location.href=http://IP:6401/AnalyticsPlatform/Status"來訪問SAS EM

        2) 若工具本身是C/S軟件,則在頁面上通過windows的shell命令來調用客戶端

        var fso = new ActiveXObject("Scripting.FileSystemObject");

        ...

        if (fso.FileExists(egPath)) {

        var objShell = new ActiveXObject("Wscript.Shell");

        objShell.exec(egPath);}

        3) 若涉及其他類型的異構資源,則通過基于SOA的Webservice來進行異構系統(tǒng)的服務集成.具體方式是: 相關資源封裝為webserivce,通過UDDI進行服務的發(fā)布(同步發(fā)布 WSDL web服務描述), 數(shù)據(jù)分析平臺通過http協(xié)議檢索WSDL獲取對應的web service信息,然后通過SOAP協(xié)議進行遠程調用;將調用結果在數(shù)據(jù)分析平臺側進行頁面整合,然后提供給用戶訪問.

        3 結束語

        數(shù)據(jù)分析平臺的業(yè)務價值是解決大數(shù)據(jù)分析過程中使用”易”的問題。數(shù)據(jù)分析平臺力求將高深的大數(shù)據(jù)挖掘以一種更加簡潔的方式提供給廣大用戶并提供門戶式的訪問路徑,使更多基層用戶能分享到我大數(shù)據(jù)的成果并應用到工作中。走出一條有特色的大數(shù)據(jù)分析業(yè)務推廣之路:即因“使用易”到“受眾廣”,繼而到大數(shù)據(jù)分析“應用深”的升華。

        參考文獻:

        [1] 張良均,陳俊德,劉名軍,陳榮.數(shù)據(jù)挖掘:實用案例分析[M].北京:機械工業(yè)出版社,2013.

        [2] 陳哲.數(shù)據(jù)分析:企業(yè)的賢內助[M].北京:機械工業(yè)出版社,2013.

        [3] 彭淵.大規(guī)模分布式系統(tǒng)架構與設計實戰(zhàn)[M].北京:機械工業(yè)出版社,2014.

        [4] IT架構設計研究組.大數(shù)據(jù)時代的IT架構設計[M].北京:電子工業(yè)出版社,2014.

        [5] 陳康賢.大型分布式網站架構設計與實踐[M].北京:電子工業(yè)出版社,2014.

        [6] 李智慧.大型網站技術架構:核心原理與案例分析[M].北京:電子工業(yè)出版社,2013.

        [7] 趙勇等.大數(shù)據(jù)革命——理論、模式與技術創(chuàng)新[M].北京:電子工業(yè)出版社,2014.

        [8] 涂子沛.數(shù)據(jù)之巔:大數(shù)據(jù)革命,歷史、現(xiàn)實與未來[M].北京:中信出版社,2014.

        猜你喜歡
        易用性數(shù)據(jù)分析
        考慮易用性和可解釋性的自組織映射-即時學習風險預測框架
        政務軟件易用性評測探究
        電子測試(2022年8期)2022-05-30 07:44:22
        中國國際人才交流大會網站易用性評價調查問卷
        我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
        體育時空(2016年8期)2016-10-25 18:02:39
        Excel電子表格在財務日常工作中的應用
        淺析大數(shù)據(jù)時代背景下的市場營銷策略
        新常態(tài)下集團公司內部審計工作研究
        中國市場(2016年36期)2016-10-19 04:31:23
        淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
        基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務優(yōu)化建議
        科技視界(2016年22期)2016-10-18 14:37:36
        移動應用界面動效易用性研究
        国产在线观看91一区二区三区 | 日本阿v片在线播放免费| 精品久久久久久777米琪桃花| 天天草夜夜草| 亚洲国产人成自精在线尤物| 天堂一区二区三区在线观看视频| 欧美人和黑人牲交网站上线| 永久国产盗摄一区二区色欲| 久久夜色精品国产亚洲av老牛| 日韩精品熟女中文字幕| 中国丰满熟妇xxxx性| 欧美一级人与嘼视频免费播放| 蜜桃在线观看视频在线观看| 久久精品国产亚洲av天| 高清破外女出血av毛片| 大陆国产乱人伦| 伊人久久亚洲综合av影院| 激情内射亚洲一区二区三区| 性色av 一区二区三区| 免费视频成人 国产精品网站| 国产成人精品一区二区不卡| 伊人久久大香线蕉av色| 中文字幕av在线一二三区| 久久激情人妻中文字幕| 美丽的小蜜桃在线观看| 亚洲精品无码久久久久牙蜜区| 久久久精品国产亚洲AV蜜| 女同另类专区精品女同| 日日噜噜夜夜狠狠va视频v| 国产肉体ⅹxxx137大胆| 中文字幕第一页在线无码一区二区| 日韩精品一二三区乱码| 美女把尿囗扒开让男人添| 日韩在线观看你懂的| 伊人久久综合狼伊人久久| 日韩欧美在线综合网另类| 无码人妻精品一区二区三区在线| 久久久久亚洲AV无码去区首| 男女av免费视频网站| 久久久日韩精品一区二区三区| 国产在线一区二区三区av|