亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢方法

        2023-11-09 10:50:38楊維張浩張才俊曹璐曾月陽(yáng)徐強(qiáng)
        微型電腦應(yīng)用 2023年10期
        關(guān)鍵詞:特征文本信息

        楊維, 張浩, 張才俊, 曹璐, 曾月陽(yáng), 徐強(qiáng)

        (1.國(guó)家電網(wǎng)有限公司客戶服務(wù)中心,天津 300300;2.北京中電普華信息技術(shù)有限公司,北京 100085)

        0 引言

        隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,現(xiàn)代企業(yè)逐漸受到時(shí)代變化的影響,電網(wǎng)企業(yè)是電力業(yè)務(wù)發(fā)展的首要單位,對(duì)電網(wǎng)企業(yè)數(shù)據(jù)進(jìn)行合理管理[1-3],能夠有效約束企業(yè)的風(fēng)險(xiǎn)影響。由于互聯(lián)網(wǎng)技術(shù)的廣泛傳播,電網(wǎng)公司的運(yùn)營(yíng)逐漸信息化,當(dāng)客戶工單的不斷增多[4],電網(wǎng)系統(tǒng)中的信息也呈海量增長(zhǎng)?,F(xiàn)階段我國(guó)電網(wǎng)公司的客戶工單信息報(bào)送部分還在使用人工的形式[5],這使得電網(wǎng)公司對(duì)信息的管理以及查詢存在缺失,導(dǎo)致電力客戶工單信息維護(hù)困難,出現(xiàn)質(zhì)量差錯(cuò)[6]。

        許多學(xué)者對(duì)電力信息的查詢問(wèn)題進(jìn)行研究,如楊捷等[7]研究面向電力工單文本的服務(wù)失誤識(shí)別,具體應(yīng)用時(shí)存在查詢及時(shí)性較差問(wèn)題;邵冠宇等[8]研究基于依存句法分析的電力設(shè)備缺陷文本信息精確辨識(shí)方法,但面對(duì)海量的電力工單信息時(shí),仍然存在信息難以精準(zhǔn)分類(lèi),特征提取關(guān)聯(lián)度低等問(wèn)題。

        桌面云坐席系統(tǒng)是電網(wǎng)企業(yè)中所采用的有效的管理系統(tǒng),能夠使用戶隨時(shí)隨地對(duì)個(gè)人桌面進(jìn)行查看,具有使用方便等特點(diǎn),還能夠整合客戶端技術(shù)、虛擬桌面以及遠(yuǎn)程桌面訪問(wèn)技術(shù),能夠有效改善電力公司的統(tǒng)一信息操作過(guò)程,因此,本文提出了桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢方法,并對(duì)其性能進(jìn)行了分析。

        1 桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢方法

        1.1 文本分詞

        通過(guò)塑造文本表示模型實(shí)現(xiàn)自動(dòng)分詞。由于中文句子存在特殊性,各個(gè)詞語(yǔ)所組成的句子當(dāng)中,并不會(huì)存在分隔符或者英文空格符[9-10],所以若想實(shí)現(xiàn)中文文本挖掘,必須實(shí)現(xiàn)自動(dòng)分詞。現(xiàn)階段存在較多的分詞算法,如HMM算法、CRF算法等,其中本文采用條件隨機(jī)場(chǎng)CRF(Conditional random field)分詞算法實(shí)現(xiàn)自動(dòng)分詞,該算法是一種標(biāo)注算法,并且依據(jù)概率圖模型設(shè)計(jì),現(xiàn)階段較為成熟,且精準(zhǔn)度較高,還擁有更好的適用效果[11],是馬爾科夫隨機(jī)場(chǎng)的條件概率約束的一種特殊狀態(tài)。設(shè)隨機(jī)變量X、Y,并設(shè)計(jì)無(wú)向圖G=(R,Q),該無(wú)向圖由Y組成,并采用公式(1)描述馬爾科夫隨機(jī)場(chǎng)。

        P(YR|X,YW,γ)=P(YR|X,YW,ω-γ)

        (1)

        式(1)中,YR、YW表示節(jié)點(diǎn)r、w相應(yīng)的隨機(jī)變量,點(diǎn)ω-γ表示在圖G=(R,Q)中,全部節(jié)點(diǎn)剔除掉節(jié)點(diǎn)r之后,所剩下的節(jié)。

        馬爾科夫隨機(jī)場(chǎng)中所存在的某種特殊情況,即是該分詞算法中所使用的條件,由一致圖形態(tài)的線性鏈條件隨機(jī)場(chǎng)構(gòu)成,該條件被X、Y擁有。設(shè)計(jì)隨機(jī)變量的序列,并共同存在于線性鏈表示中,由X={X1,X2,X3,…,Xn}、Y={Y1,Y2,Y3,…,Yn}描述,當(dāng)隨機(jī)變量序列X的約束已經(jīng)確認(rèn)時(shí),隨機(jī)場(chǎng)由序列Y的條件概率P(Y|X)組成,n表示序列的長(zhǎng)度,序列位置由i描述,通過(guò)公式(2)描述該過(guò)程:

        P(Yi|X,Y1,Yi-1,Yi+1…Yn)=P(Yi|X,Y1,Yi-1,Yi+1)

        (2)

        進(jìn)行標(biāo)注調(diào)整中文分詞過(guò)程中,X表示等待調(diào)整的添加序列,Y表示發(fā)送的標(biāo)記序列。進(jìn)行文本訓(xùn)練過(guò)程的學(xué)習(xí),可以獲取分詞過(guò)程中隨機(jī)場(chǎng)模型的參數(shù),最終實(shí)現(xiàn)電力客戶工單信息文本分詞[12]。

        1.2 特征選擇

        在文本分詞的基礎(chǔ)上,通過(guò)特征選擇算法選擇特征,為下一步工單信息分類(lèi)實(shí)現(xiàn)精準(zhǔn)查詢做好基礎(chǔ)工作。常見(jiàn)的特征選擇算法有卡方特征選擇(CHI)、信息增益(IG)等算法,本文采用改進(jìn)CHI特征選擇算法,以使特征項(xiàng)中負(fù)相關(guān)的問(wèn)題削弱或剔除,通過(guò)式(3)描述該算法改進(jìn)后:

        (3)

        對(duì)該算法的改進(jìn)過(guò)程,是將因子A/(A+C)乘以未改進(jìn)的算法,主要目的是,每類(lèi)的χ2(w,c)在被特征項(xiàng)預(yù)計(jì)時(shí),不研究本類(lèi)別中不存在的特征詞,即A為0,依據(jù)公式(3)最終獲知χ2(w,c)=0。若A/(A+C)略小,即該類(lèi)別文本中,存在頻率并不大的詞,其χ2(w,c)同時(shí)變小,當(dāng)A/(A+C)較大,即頻率較大的詞存在時(shí),χ2(w,c)一并變大。

        通常特征項(xiàng)的CHI值,是其全部類(lèi)別的CHI最大或平均值,而本文所改進(jìn)之后,全部類(lèi)別的CHI最大值來(lái)描述CHI值。

        1.3 文本向量化

        通過(guò)VSM方法進(jìn)行文本表示,對(duì)于VSM列矩陣變量,采用上述特征選擇后的特征項(xiàng)。依據(jù)TF-IDF算法,計(jì)算特征向量的權(quán)重,具體為

        wik=tfik×idfik

        (4)

        式(4)中,tfik表示文本di內(nèi)存在已獲取特征項(xiàng)tk的頻率,idfik表示特征項(xiàng)tk的逆向工單頻率,該公式的含義是該特征項(xiàng)的重要性隨著特征項(xiàng)tk存在于文本集中的區(qū)域決定,存在的區(qū)域越大,特征項(xiàng)的重要度即越低,計(jì)算過(guò)程如式(5):

        (5)

        式(5)中,N表示全部文本數(shù)量,表示nk涵蓋特征項(xiàng)tk的全部文本數(shù)量,α=0.01。

        由于特征項(xiàng)權(quán)重值會(huì)因?yàn)槲谋敬笮“l(fā)生改變,因此,歸一化調(diào)整權(quán)重,通過(guò)式(6)描述:

        (6)

        1.4 樸素貝葉斯分類(lèi)算法

        基于上述獲取的特征項(xiàng)重要度,利用樸素貝葉斯分類(lèi)器,依據(jù)特征選定給定的輸入值內(nèi)需要?jiǎng)澐值臉?biāo)簽。分類(lèi)器首先對(duì)標(biāo)簽的先驗(yàn)概率進(jìn)行計(jì)算,以實(shí)現(xiàn)標(biāo)簽向輸入值提供的過(guò)程,計(jì)算形式依據(jù)訓(xùn)練集中標(biāo)簽頻率的驗(yàn)證結(jié)果獲知。并且整合特征的先驗(yàn)概率與重要度,能夠?qū)?biāo)簽的似然分?jǐn)?shù)進(jìn)行獲取,輸入值中會(huì)保存似然估計(jì)分?jǐn)?shù)最大的標(biāo)簽,并且最終得分可以用作表示被取出值的概率估計(jì)。Label表示發(fā)送標(biāo)簽由,features表示添加的n個(gè)特征值,該算法通過(guò)以下步驟進(jìn)行計(jì)算:

        (1) 計(jì)算過(guò)程如式(7):

        P(features)=∑label∈labelsP(features,label)

        (7)

        (2) 所給出標(biāo)簽特征的概率乘以標(biāo)簽的概率,可以描述似然標(biāo)簽,當(dāng)特征不依賴于其他條件時(shí),計(jì)算過(guò)程如式(8):

        P(features,label)=P(label)×P(features|label)=P(label)×∏f∈featuresP(f|label)

        (8)

        式(8)中,P(label)表示標(biāo)簽的先驗(yàn)概率,其含義是標(biāo)簽可能性中,每個(gè)特征的貢獻(xiàn),是訓(xùn)練所給出標(biāo)簽與所給出特征的比例,通過(guò)如式(9):

        P(f|label)=count(f|label)/count(label)

        (9)

        (3) 若所給標(biāo)簽與特征未同時(shí)存在過(guò),并且該特征出現(xiàn)在訓(xùn)練集中,P(f|label),使得標(biāo)簽疑似為0,導(dǎo)致該標(biāo)簽中不會(huì)出現(xiàn)所添加的值,最終使分類(lèi)效果變差,準(zhǔn)確度不高。采用“拉歐拉斯修正”,在預(yù)算概率值時(shí)進(jìn)行剔除修正,以防止訓(xùn)練集內(nèi)隱藏的屬性值剔除各式屬性帶領(lǐng)的信息。

        設(shè)訓(xùn)練集D內(nèi)疑似的類(lèi)型數(shù)由M表示,Mi表示第i個(gè)屬性疑似取值,Dc表示D中第c類(lèi)樣本構(gòu)成的集合,Dc中第i個(gè)屬性上,當(dāng)樣本值為xi,所構(gòu)成的集合通過(guò)Dcixi描述,具體計(jì)算公式為

        (10)

        (11)

        (4) 計(jì)算P(label|features),對(duì)于新添加特征值的標(biāo)簽成果,采用與最大概率相應(yīng)的標(biāo)簽。

        通過(guò)上述過(guò)程完成電力客戶工單信息錄入后的自動(dòng)分類(lèi),實(shí)現(xiàn)精準(zhǔn)查詢。

        2 實(shí)驗(yàn)結(jié)果與分析

        將本文方法應(yīng)用至某電網(wǎng)企業(yè)的桌面云坐席系統(tǒng)中,以該電網(wǎng)企業(yè)3月份收集的53 692條電力客戶工單信息為數(shù)據(jù)樣本。為分析本文方法的桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢能力,選取文獻(xiàn)[7]面向電力工單文本的服務(wù)失誤識(shí)別方法與文獻(xiàn)[8]基于依存句法分析的電力設(shè)備缺陷文本信息精確辨識(shí)方法作為本文的對(duì)比方法,進(jìn)行分類(lèi)訓(xùn)練。

        2.1 特征提取能力

        分析3種方法訓(xùn)練后的信息特征選擇關(guān)聯(lián)度,分析結(jié)果如表1所示。根據(jù)表1可知,經(jīng)訓(xùn)練后,3種方法的特征詞匯關(guān)聯(lián)度有所不同,文獻(xiàn)[7]方法關(guān)聯(lián)度最高的詞匯為“損壞”,達(dá)到0.52,而文獻(xiàn)[8]方法的關(guān)聯(lián)詞匯關(guān)聯(lián)度最高的是“登記”,關(guān)聯(lián)度為0.54,本文方法在所選關(guān)聯(lián)詞匯中關(guān)聯(lián)度均要高于其他2種方法,且最高達(dá)到0.78,因此本文方法的具有較高的信息特征選擇關(guān)聯(lián)度。

        表1 特征詞匯及其關(guān)聯(lián)度

        分析不同方法的特征選擇能力,選取上述8個(gè)特征的12 000個(gè)特征樣本進(jìn)行訓(xùn)練,隨著特征數(shù)量的不斷提升,不同方法的F1值,分析結(jié)果如圖1所示。根據(jù)圖1、圖2可知,隨著訓(xùn)練特征樣本數(shù)的不斷上升,不同方法的F1值也隨之上升。當(dāng)特征樣本數(shù)為2000時(shí),文獻(xiàn)[7]方法的宏平均F1值與微平均F1值分別為65%與74%,低于文獻(xiàn)[8]方法與本文方法,且文獻(xiàn)[8]方法的F1值同時(shí)也低于本文方法,在特征樣本數(shù)達(dá)到12 000時(shí),本文方法的宏平均F1值為97%,微平均F1值為96%,在特征樣本數(shù)不斷變化下一直高于其他兩種方法,由此可知,當(dāng)特征樣本數(shù)量相同的情況下,本文方法所選擇特征包含較多信息,可為工單信息精準(zhǔn)查詢提供強(qiáng)有力數(shù)據(jù)支撐。

        圖1 不同方法宏平均F1值對(duì)比

        2.2 精準(zhǔn)查詢能力

        分別對(duì)比3種方法查詢結(jié)果的準(zhǔn)確率、精度以及召回率,并通過(guò)以下方式進(jìn)行計(jì)算,分析結(jié)果如表2所示。根據(jù)表2可知,從準(zhǔn)確率來(lái)看3種方法都在85%以上,都有較高的準(zhǔn)確率,但文獻(xiàn)[7]方法與文獻(xiàn)[8]方法的準(zhǔn)確率低于本文方法,且本文方法的查詢準(zhǔn)確率達(dá)到95%,因此本文方法具有較高的查詢準(zhǔn)確率。本文方法的查詢召回率、精度都要高于另外兩種方法,因此本文方法能夠明顯提高查詢能力。

        表2 不同方法的查詢結(jié)果

        選取電力客戶5類(lèi)工單,分析本文方法對(duì)電力客戶工單信息精準(zhǔn)查詢的支持度,分析結(jié)果如圖3所示。根據(jù)圖3可知,不同方法對(duì)每種工單類(lèi)別的查詢支持度有所不同,其中文獻(xiàn)[7]方法在工單關(guān)鍵詞為“停送電”的支持度最高,與其他工單關(guān)鍵詞支持度存在較大差距,而文獻(xiàn)[8]方法不同工單關(guān)鍵詞支持度較為相似,但一直保持較低水平,本文方法同樣存在較為穩(wěn)定的精準(zhǔn)查詢類(lèi)工單關(guān)鍵詞支持度,并且一直保持高于文獻(xiàn)[7]方法與文獻(xiàn)[8]方法,因此本文方法具有較高的工單信息精準(zhǔn)查詢支持度。

        圖3 不同查詢方法支持度

        分析不同方法對(duì)5種工單類(lèi)別的120個(gè)工單信息的查詢遺漏率,分析結(jié)果如圖4所示。根據(jù)圖4可知,隨著工單信息的增加,3種方法的查詢遺漏率有所下降,其中文本方法與文獻(xiàn)[7]方法一直保持隨著工單信息的增加逐漸下降的趨勢(shì),而文獻(xiàn)[8]方法在工單信息數(shù)量40~60時(shí)突然出現(xiàn)下降,出現(xiàn)波折趨勢(shì),查詢遺漏情況不穩(wěn)定,本文方法的查詢遺漏率最高達(dá)到7.1%,最低只有5.2%,一直保持在最低狀態(tài),因此本文方法不會(huì)出現(xiàn)較大的查詢遺漏問(wèn)題。

        圖4 不同方法查詢遺漏率

        分析不同方法在精準(zhǔn)查詢時(shí)的加速比,分析結(jié)果如圖5所示。根據(jù)圖5所示,特征樣本數(shù)量的提升影響了不同方法的總處理時(shí)間,但本文方法的處理時(shí)間雖然受到特征樣本數(shù)量的影響,但時(shí)間增加較為緩慢,并且保持始終低于另外2種方法,因此本文方法擁有較好的加速比。

        圖5 不同方法查詢加速比

        選取固定信噪比,分析不同方法隨著信噪比變化的工單信息精確查詢程度,分析結(jié)果如圖6所示。根據(jù)圖6可知,當(dāng)信噪比由10 dB逐漸下降到-6 dB時(shí),3種方法的查詢準(zhǔn)確率逐漸變低,尤其是在信噪比下降到0 dB后,文獻(xiàn)[7]方法與文獻(xiàn)[8]方法的準(zhǔn)確率逐漸下降到65%以下,本文方法在信噪比為0 dB時(shí)信噪比未低于78%,并且在0 dB以下依舊保持著70%以上的信噪比,因此,本文方法具有較強(qiáng)的抗噪性能,且信息精準(zhǔn)查詢準(zhǔn)確率較高。

        圖6 不同方法的信息精準(zhǔn)查詢結(jié)果

        3 總結(jié)

        本文提出了桌面云坐席系統(tǒng)電力客戶工單信息精準(zhǔn)查詢方法,通過(guò)條件隨機(jī)場(chǎng)分詞算法進(jìn)行文本分詞,通過(guò)改進(jìn)CHI特征選擇算法,進(jìn)行電力客戶工單信息特征選擇,依據(jù)文本向量化過(guò)程,最終采用樸素貝葉斯算法實(shí)現(xiàn)特征分類(lèi),最終完成工單信息精準(zhǔn)查詢。未來(lái)階段可繼續(xù)加深研究,在桌面云坐席系統(tǒng)中實(shí)現(xiàn)更精準(zhǔn)的電力客戶工單信息查詢。

        猜你喜歡
        特征文本信息
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        在线精品无码一区二区三区| 永久免费av无码入口国语片| 黑人玩弄极品人妻系列视频| av日韩高清一区二区| 人妻久久久一区二区三区蜜臀 | 五月天综合社区| 久久久久久国产福利网站| 免费在线av一区二区| 国产av一区二区日夜精品剧情| 成人av毛片免费大全| 超碰国产精品久久国产精品99| 亚洲男人av天堂午夜在| 2019最新国产不卡a| 久久久精品3d动漫一区二区三区| 亚洲精品成人av一区二区| 国产一级做a爱视频在线| 亚洲av日韩av天堂久久不卡| 论理视频二区三区四区在线观看| 国产自拍高清在线观看| 放荡的少妇2欧美版| 中文字幕+乱码+中文字幕一区| 欧美国产日韩a在线视频| 亚洲色大成在线观看| 日本视频一区二区这里只有精品| 校园春色日韩高清一区二区| 欧美肥妇毛多水多bbxx水蜜桃| 粗大猛烈进出高潮视频| 吃奶还摸下面动态图gif| 亚洲AV成人无码久久精品四虎| 厕所极品偷拍一区二区三区视频 | 国产人成精品免费视频| 亚州毛色毛片免费观看| 一区二区三区精品偷拍| 免费国产一区二区视频| 美丽人妻在夫前被黑人| 国产精品va在线观看无码| 91久久久久无码精品露脸| 国产一区二区在线观看我不卡| 国产女同va一区二区三区| 国产精品爽爽久久久久久竹菊| 野花社区视频www官网|