亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談基于大數(shù)據(jù)處理及文本相似度判斷的信息服務(wù)工單分析工具

        2018-11-20 09:28:56屈子夢(mèng)
        機(jī)電信息 2018年33期
        關(guān)鍵詞:工單余弦相似性

        屈子夢(mèng)

        (廣東電網(wǎng)有限責(zé)任公司江門供電局,廣東江門529000)

        0 引言

        基于文本挖掘技術(shù)的信息服務(wù)工單分析工具,解決了當(dāng)前系統(tǒng)運(yùn)維工作中定位根因繁瑣、解決問題耗時(shí)等難題。同時(shí),業(yè)界較為成熟的文本挖掘算法以及大數(shù)據(jù)處理引擎Spark也為該工具的可行性提供了有力的保障。本文將以信息工單數(shù)據(jù)的流向?yàn)橐罁?jù),介紹服務(wù)工單分析工具中的主要模塊,包括:Spark處理數(shù)據(jù)獲取系統(tǒng)中的重要問題,文本相似度算法計(jì)算問題的相似度,生成知識(shí)庫(kù)。在這當(dāng)中,問題相似度判斷的準(zhǔn)確性將會(huì)是實(shí)現(xiàn)該工具的難點(diǎn),同時(shí)也是其可用性的重要依據(jù),較高的準(zhǔn)確性將會(huì)很大程度上提高運(yùn)維工作的效率。

        1 生成系統(tǒng)重要問題

        信息系統(tǒng)中包含大量的工單數(shù)據(jù),也意味著這些數(shù)據(jù)中包含大量有價(jià)值的信息。使用Spark數(shù)據(jù)處理引擎可以有效且快速地對(duì)工單進(jìn)行匯總、分類等各項(xiàng)操作。生成重要問題的數(shù)據(jù)處理流程如圖1所示。

        圖1 工單數(shù)據(jù)處理流程

        在展開數(shù)據(jù)處理的流程之前,先對(duì)Spark作簡(jiǎn)單的介紹:Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,Spark是UC Berkeley AMP Lab(加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開源的類Hadoop MapReduce的通用并行框架,Spark擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。其中,該計(jì)算框架最重要的抽象概念就是RDD(Resilient Distributed Dataset),彈性分布式數(shù)據(jù)集,即圖1中的淺灰色部分。對(duì)RDD的操作共分為兩大類:transformation(轉(zhuǎn)換)和action(動(dòng)作),本篇論文所討論的數(shù)據(jù)操作過程也都是這兩大類的子集。這其中蘊(yùn)含的一個(gè)基本概念是,Spark的操作是延遲(lazy)的,即只有action才能真正觸發(fā)數(shù)據(jù)處理流程。

        具體地,工單數(shù)據(jù)的處理流程主要涉及Oracle和Spark兩個(gè)組件。

        (1)周期性(每月)地從Oracle讀取系統(tǒng)工單數(shù)據(jù)生成RDD。

        (2)對(duì)讀取的工單數(shù)據(jù)做分組,將同類型的系統(tǒng)數(shù)據(jù)分為一組。在這個(gè)過程中涉及的轉(zhuǎn)換操作是groupBy,一個(gè)簡(jiǎn)單的方法調(diào)用就能將大量的數(shù)據(jù)分組,這也正是Spark強(qiáng)大的地方。

        (3)在這一步中,需要將(2)中的結(jié)果進(jìn)行計(jì)數(shù),即計(jì)算每個(gè)分組中包括的系統(tǒng)個(gè)數(shù),需要用到RDD的一種動(dòng)作count。

        (4)對(duì)分組系統(tǒng)進(jìn)行過濾,例如人們只關(guān)心當(dāng)月被用戶提的工單數(shù)大于1 000的系統(tǒng)有哪些,該過濾需要用到一種轉(zhuǎn)換操作filter。到此,就生成了該月的重點(diǎn)系統(tǒng)。

        對(duì)于每個(gè)重點(diǎn)系統(tǒng)中的重點(diǎn)問題,只需要重復(fù)上述的(2)(3)(4)三個(gè)過程就可以得到結(jié)果。讀者這時(shí)可能會(huì)問,如果現(xiàn)在我關(guān)注的重點(diǎn)系統(tǒng)有50個(gè),那上述(2)(3)(4)過程豈不是要執(zhí)行50次?完全正確!但是,這又是強(qiáng)大的Spark發(fā)揮作用的時(shí)候,雖然要得到結(jié)果確實(shí)需要再執(zhí)行50遍,但這50次執(zhí)行過程是并發(fā)運(yùn)行的,在資源充足的理想狀態(tài)下,我們可以認(rèn)為執(zhí)行50次任務(wù)的時(shí)間和執(zhí)行一次的時(shí)間相等!

        Spark處理大數(shù)據(jù)量的高性能已經(jīng)被大量的工業(yè)以及學(xué)術(shù)界實(shí)踐所證明。針對(duì)每月信息系統(tǒng)中大概萬級(jí)的工單條數(shù),用三臺(tái)虛擬機(jī)部署一個(gè)Spark環(huán)境就足以用分鐘級(jí)的耗時(shí)將數(shù)據(jù)處理完畢。相比于人工逐條處理或是單純地在Oracle中使用sql語句處理,效率和準(zhǔn)確率都提升得非常明顯!

        2 挖掘工單的相似性

        原始的工單數(shù)據(jù)在經(jīng)過Spark的處理后具備了一定的類別性和規(guī)范性,但生成的重要問題中仍然存在很多重復(fù)的內(nèi)容。雖然有些工單問題從標(biāo)題上看并沒有關(guān)聯(lián),然而通過將其內(nèi)容進(jìn)行比對(duì)后就不難發(fā)現(xiàn)往往一些工單所反映的是同一個(gè)或者同一類問題,這就導(dǎo)致了運(yùn)維人員還是無法精準(zhǔn)且快速地根據(jù)這些重要問題制定相應(yīng)的解決方案。由此就引出了這篇論文所涉及的一個(gè)技術(shù)關(guān)鍵點(diǎn):計(jì)算文本相似度。

        2.1 文本相似度的概念

        顧名思義,文本相似度就是表示兩段文字相似的程度,是屬于自然語言處理的一個(gè)重要的課題。實(shí)際上我們不難發(fā)現(xiàn),人通過閱讀會(huì)很容易發(fā)現(xiàn)兩段文字分別表達(dá)的是什么內(nèi)容,也就順理成章地會(huì)給出一個(gè)相似度的高低。但這件事如果讓機(jī)器自動(dòng)化地去做的話就沒有那么容易了。另外一個(gè)相似的例子是,人可以很容易地分辨出一只貓和一只狗,然而機(jī)器識(shí)別起來依舊很困難?;氐轿谋鞠嗨贫鹊膯栴}上來,文本是一種高維的語義空間,如何對(duì)其進(jìn)行抽象分解,從而能夠站在數(shù)學(xué)角度去量化其相似性?下面主要對(duì)信息服務(wù)工單分析工具中使用到的兩種度量方法進(jìn)行說明。

        2.2 杰卡德(Jaccard)相似系數(shù)

        這種相似度計(jì)算方式相對(duì)簡(jiǎn)單,原理也易于理解,就是計(jì)算單詞集合之間的交集和并集大小的比例,該值越大,表示兩個(gè)文本越相似。在涉及大規(guī)模并行計(jì)算時(shí),該方法在效率上有一定的優(yōu)勢(shì)。Jaccard相似度公式如下:

        舉例:

        句子A:“我喜歡看電視,不喜歡看電影?!?/p>

        句子B:“我不喜歡看電視,也不喜歡看電影。”

        分詞去噪后:A=(我,喜歡,看,電視,電影,不);B=(我,喜歡,看,電視,電影,也,不)。

        那么根據(jù)公式可得:J(A,B)=(我,喜歡,看,電視,電影,不)/(我,喜歡,看,電視,電影,也,不)=6/7=0.86。

        2.3 余弦相似性

        余弦相似度即計(jì)算兩個(gè)向量之間的夾角,夾角越小相似度越高。其公式為:

        假定A和B是兩個(gè)n維向量,A是[A1,A2,…,An],B是[B1,B2,…,Bn],則根據(jù)公式可以計(jì)算A與B的夾角余弦。沿用2.2中的例子,計(jì)算詞頻如下:

        句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。

        句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。

        生成詞頻向量:句子A為[1,2,2,1,1,1,0],句子B為[1,2,2,1,1,2,1]。使用上述公式,我們便可得到句子A與句子B的夾角余弦,即兩句話的文本相似度可以根據(jù)余弦的值去度量。

        2.4 文本相似性度量的成果

        信息工單數(shù)據(jù)在經(jīng)過相似性度量的算法處理后,才能得到真正意義上的重要問題庫(kù),運(yùn)維人員可以根據(jù)這份覆蓋整個(gè)信息系統(tǒng)但又精簡(jiǎn)、精確的問題庫(kù)生成相應(yīng)的知識(shí)庫(kù)。為避免重復(fù)計(jì)算,文本相似性的判斷只是針對(duì)問題的主體,并沒有對(duì)問題標(biāo)題作相似性度量??梢哉f,文本相似性算法的運(yùn)用是整個(gè)信息服務(wù)工單分析工具的核心價(jià)值。

        3 結(jié)語

        良好的信息系統(tǒng)建設(shè),可以支撐電網(wǎng)企業(yè)業(yè)務(wù)發(fā)展。通過大數(shù)據(jù)分析與文本相似性算法,掌握信息系統(tǒng)功能缺陷與用戶需求,可以更快、更好地改善系統(tǒng)可靠性、實(shí)用性,讓電網(wǎng)企業(yè)信息系統(tǒng)運(yùn)作更加高效,服務(wù)用戶。

        猜你喜歡
        工單余弦相似性
        一類上三角算子矩陣的相似性與酉相似性
        基于量化考核的基層班組管理系統(tǒng)的設(shè)計(jì)與應(yīng)用
        基于transformer的工單智能判責(zé)方法研究
        淺析當(dāng)代中西方繪畫的相似性
        基于HANA的工單備件采購(gòu)聯(lián)合報(bào)表的研究與實(shí)現(xiàn)
        兩個(gè)含余弦函數(shù)的三角母不等式及其推論
        低滲透黏土中氯離子彌散作用離心模擬相似性
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        電力95598熱線全業(yè)務(wù)集中后的工單預(yù)警機(jī)制
        乱码精品一区二区三区| 亚洲一区二区免费在线观看视频| 成人久久久精品乱码一区二区三区 | 久久久国产精品免费a片3d| 亚洲国产高清在线观看视频| 国产亚洲欧美另类久久久| 99久久精品人妻一区二区三区| 最近免费中文字幕中文高清6| 国产午夜福利片| 在线欧美精品二区三区| 视频一区二区不中文字幕| 极品尤物人妻堕落沉沦| 无码一区二区三区在线| 激情人妻在线视频| 日韩午夜三级在线视频| 欧美乱妇高清无乱码免费| 国产日韩精品中文字无码| 国产亚洲高清不卡在线观看| 男女性生活视频免费网站| 亚洲国产精品久久久久久无码| www国产无套内射com| 国产国拍亚洲精品永久69| 日本午夜艺术一区二区| 国产伦精品免编号公布| 福利一区视频| 一区二区中文字幕蜜桃| 国产精品亚洲一区二区三区| 日本欧美视频在线观看| 国产精品久久久久久久y| 一区二区在线观看日本视频| 国产成人综合亚洲看片| 99久久免费国产精品2017| 国产精品亚洲在钱视频| 五月色丁香婷婷网蜜臀av| 国产精品福利自产拍久久| 高潮社区51视频在线观看| 国产女主播一区二区久久| 亚洲 另类 日韩 制服 无码| 免费国产黄线在线播放| 久久精品亚洲一区二区三区画质| 香港aa三级久久三级|