亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于規(guī)則置信度調(diào)整的知識挖掘及在煙草科技管理中的應(yīng)用

        2016-09-26 07:19:59王乙民
        計算機應(yīng)用與軟件 2016年3期
        關(guān)鍵詞:分類

        王 塑 張 萍 周 新 王乙民

        (陜西省煙草公司西安市公司 陜西 西安 710061)

        ?

        基于規(guī)則置信度調(diào)整的知識挖掘及在煙草科技管理中的應(yīng)用

        王塑張萍周新王乙民

        (陜西省煙草公司西安市公司陜西 西安 710061)

        介紹信息管理領(lǐng)域中的一個熱門研究主題——知識挖掘。知識挖掘旨在從結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)中挖掘信息。例如從電子文檔、不完備的歷史數(shù)據(jù)中搜索穩(wěn)定的模式或模型,分析挖掘數(shù)據(jù)間的交互特征和規(guī)律,以輔助管理人員制定、調(diào)整規(guī)范與標準,構(gòu)建專家?guī)旌椭R庫。提出知識挖掘的一種改進方法,通過動態(tài)規(guī)則置信度生成算法提高所獲得規(guī)則的準確性與適應(yīng)性,并結(jié)合煙草企業(yè)科技項目智能輔助管理中的實際應(yīng)用進行了驗證,取得了一定的成效。

        知識挖掘規(guī)則置信度信息管理

        0 引 言

        根據(jù)思科公司的調(diào)查顯示,全球數(shù)字化信息的年度總量從09年的0.79ZB已經(jīng)上升到13年的3.3ZB。隨著信息設(shè)備、互聯(lián)設(shè)備、存儲技術(shù)的快速發(fā)展,面向大規(guī)模數(shù)據(jù)的深度挖掘、知識挖掘、關(guān)聯(lián)關(guān)系分析的智能系統(tǒng)被廣泛部署,并逐步成為大型企業(yè)的核心價值和必須的組成部分[1]。在2013年Nazlioglu等人經(jīng)過研究石油與農(nóng)產(chǎn)品之間的微妙溢價關(guān)系而獲得了巨大的市場成功后,更多的數(shù)據(jù)科學(xué)家和企業(yè)管理者將深度數(shù)據(jù)分析與知識挖掘作為其研究的重要方向[2]。

        知識挖掘的核心是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于專業(yè)領(lǐng)域,從中獲得可以在一定程度上和一定時間范圍內(nèi)實現(xiàn)預(yù)測和評估的技術(shù)與方法。人類在數(shù)據(jù)密集型的應(yīng)用中發(fā)揮著關(guān)鍵作用:不僅是被動的知識消費者,同時也是活躍的數(shù)據(jù)產(chǎn)生者和數(shù)據(jù)的采集者,而信息技術(shù)需要協(xié)助人們解決內(nèi)在的大規(guī)模數(shù)據(jù)關(guān)聯(lián)分析和知識獲取的難題[3]。因此,知識挖掘需要解決的問題包括:

        (1)ETL(ExtractionTransformLoading):數(shù)據(jù)提取、轉(zhuǎn)換和加載。現(xiàn)實中的數(shù)據(jù)通常由多個不同的數(shù)據(jù)源整合而來,數(shù)據(jù)冗余與數(shù)據(jù)沖突成為常態(tài)。將數(shù)據(jù)轉(zhuǎn)換為信息的技術(shù)統(tǒng)一稱之為ETL。

        (2)MKS(multidimensionalknowledgestorage)高維知識的存儲:知識之間的復(fù)雜關(guān)系已經(jīng)難以二維化了,根據(jù)歐拉公式的推廣,只有在知識之間的關(guān)聯(lián)小于9條時,才可以用一張不相交的二維圖形表示,復(fù)雜知識給我們帶來的是牽一發(fā)而動全身的無力感。因此亟需面向高維知識的處理方法。

        (3) 關(guān)聯(lián)關(guān)系分析:知識本質(zhì)上是不同信息之間的關(guān)聯(lián)關(guān)系模型,因此只有深入分析信息之間的關(guān)系才可以獲得有實用價值的預(yù)測模型。因此,關(guān)聯(lián)關(guān)系分析方法可以說是知識挖掘的核心部分所在。

        如圖1所示。知識挖掘主要有基于概率和基于距離的兩類方法?;诟怕实姆椒ㄒ载惾~斯后驗概率為理論依據(jù),用概率分布情況描述知識模型,可以實現(xiàn)規(guī)則之間互相重疊的冗余知識庫生成;其主要的不足是當(dāng)特征空間維度增加時所生成的知識重疊率過高以致效率低下?;诰嚯x的方法以特征向量表示基礎(chǔ)數(shù)據(jù),將基礎(chǔ)數(shù)據(jù)看作向量空間中的一個點,通過計算點之間的距離實現(xiàn)聚類,所構(gòu)建的知識可以實現(xiàn)特征空間的劃分,不存在知識模型之間的相互重疊,其主要算法有k-means算法、瑞士卷算法等;其主要的不足是當(dāng)特征空間維度較高時算法性能下降顯著。

        圖1 知識挖掘的三個主要環(huán)節(jié)

        本文的應(yīng)用背景是嘗試解決煙草企業(yè)科技項目管理平臺中的自動化輔助管理問題。在項目類型多樣化、數(shù)量巨大化的情況下,如何通過知識挖掘技術(shù)實現(xiàn)文檔的關(guān)鍵詞提取與自動主題分類將直接影響科技項目的申報周期。在科研管理申報過程中有兩個重要的概念:主題、關(guān)鍵詞。其中主題是在項目申請指南中由科研管理人員根據(jù)年度科研規(guī)劃會議確定的,那么各個單位根據(jù)自己的情況提交申請,申請書常常跨越不同的專業(yè)領(lǐng)域,在以往的工作中只能由科研管理人員主觀判斷,對于交叉學(xué)科常常造成專家選擇不準確的情況,影響了申請書評審的及時性和準確性。而由申請書作者填寫的關(guān)鍵詞也不能完全保證其選取的有效性與作者個人的主觀判斷,采用自動方式從申請書中提取關(guān)鍵詞與作者設(shè)定的關(guān)鍵詞綜合考慮,依據(jù)主題進行分類,將大大降低科研管理人員的工作量,同時提高交叉領(lǐng)域申請書申報的準確性和有效性。本文研究的重點是從結(jié)構(gòu)化和半結(jié)構(gòu)化的電子文檔中提取核心知識,分析主題與文檔之間的關(guān)聯(lián)度,以便對文檔進行有效分析與分類推薦,實現(xiàn)煙草企業(yè)科技項目管理平臺實際效率的提升。

        1 基于文檔主題關(guān)聯(lián)度的知識挖掘

        1.1電子文檔的結(jié)構(gòu)化、半結(jié)構(gòu)化表示

        電子文檔是一種結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),電子文檔中的每一項內(nèi)容均可以與數(shù)據(jù)庫中的特定字段相對應(yīng)。內(nèi)容明確的字段被認為是結(jié)構(gòu)化數(shù)據(jù),例如日期、姓名、編號等;內(nèi)容寬泛的字段被認為是半結(jié)構(gòu)化數(shù)據(jù),例如標題、摘要、關(guān)鍵詞、文檔正文等。結(jié)構(gòu)化數(shù)據(jù)的意義明確,分類、聚類過程相對簡單;而半結(jié)構(gòu)化電子文檔的特征分類是本文研究的重點內(nèi)容。

        1.2關(guān)鍵詞與主題特征向量

        針對結(jié)構(gòu)化文檔數(shù)據(jù),可以采用向量空間模型表示每一個主題,并根據(jù)主題特征向量和結(jié)構(gòu)化文檔數(shù)據(jù)內(nèi)容生成主題向量,在計算特定文檔不同主題向量之間的關(guān)聯(lián)度比較,創(chuàng)建結(jié)構(gòu)化文檔數(shù)據(jù)與主題之間的關(guān)聯(lián)矩陣,再通過歸一化和標準化實現(xiàn)關(guān)聯(lián)矩陣的可比性[4]。其主題特征向量的形式化表述如下:

        Topici=[(keyi,1,weighti,1),(keyi,2,weighti,2),…,

        (keyi,j,weighti,j),…,(keyi,n,weighti,n)]

        (1)

        根據(jù)上述特征向量的定義可知,由于結(jié)構(gòu)化文檔數(shù)據(jù)其搜索過程可以通過SQL查詢語句獲得,只需要生成其不同關(guān)鍵詞(在數(shù)據(jù)庫中各個意義明確的字段)的權(quán)重即可完成基本知識挖掘建模過程。

        1.3文檔與主題的關(guān)聯(lián)度評估

        文檔與主題的關(guān)聯(lián)度表示結(jié)構(gòu)化或半結(jié)構(gòu)化電子文檔數(shù)據(jù)與特定主題之間的關(guān)聯(lián)程度[5]。因此,文檔Dock與主題Topici之間的關(guān)聯(lián)度與關(guān)鍵詞所占比重與出現(xiàn)次數(shù)有關(guān)。即使在結(jié)構(gòu)化文檔中,除關(guān)鍵字段外,其他數(shù)據(jù)也有缺少的可能,在半結(jié)構(gòu)化文檔數(shù)據(jù)中,關(guān)鍵詞的出現(xiàn)次數(shù)需要對文檔進行掃描統(tǒng)計得出。因此可以構(gòu)建文檔Dock與主題Topici之間的關(guān)聯(lián)矩陣如下:

        (2)

        其中,n表示主題數(shù),m表示文檔數(shù),ηik表示Dock與主題Topici的關(guān)聯(lián)度。ηik的計算過程如下:

        (3)

        其中,i表示主題Topici中的關(guān)鍵詞個數(shù),而‖Dock‖×weighti,j表示文檔Dock中關(guān)鍵詞keyi,j的加權(quán)出現(xiàn)率。

        通過計算文檔與主題之間的關(guān)聯(lián)度,構(gòu)建了文檔與主題之間的關(guān)聯(lián)矩陣,下一節(jié)中將在結(jié)構(gòu)化文檔與主題的關(guān)聯(lián)度生成算法的基礎(chǔ)上構(gòu)建基于規(guī)則置信度的關(guān)聯(lián)度生成算法。

        2 基于規(guī)則置信度調(diào)整的知識挖掘算法

        上一節(jié)中說明了關(guān)鍵詞、主題、文檔之間關(guān)聯(lián)度的基本計算方法,而從一篇文檔中獲取關(guān)鍵詞主流的方式是使用最大熵模型以Chi-square統(tǒng)計量的方法進行判定,已經(jīng)形成了完整的算法庫,在此不再贅述。本節(jié)主要介紹的內(nèi)容是在獲取文檔關(guān)鍵詞后,如何對科技項目申請指南中的不同主題進行對應(yīng)與分類。

        提取關(guān)鍵詞完成后,需要將關(guān)鍵詞與不同的主題相對應(yīng),而關(guān)鍵詞又需要與文檔相對應(yīng),其關(guān)系如圖2所示。從申請書中可以獲得多個關(guān)鍵詞,這些關(guān)鍵詞一部分來自作者的設(shè)定,另一部分來自從電子文檔中的自動提取,每一份申請書所包含的關(guān)鍵詞組成關(guān)鍵詞向量,所有的申請書所對應(yīng)的關(guān)鍵詞向量組成關(guān)鍵詞矩陣。關(guān)鍵詞矩陣與申請指南中的主題形成的主題向量一起,通過標準化和歸一化過程,可以計算得出關(guān)鍵詞矩陣與主題向量之間的特征向量ηik,ηik表示了每個關(guān)鍵詞與各個主題之間的相對抽象距離,那么我們可以通過ηik計算申請書與每項主題直接的抽象距離,結(jié)合關(guān)鍵詞加權(quán)出現(xiàn)率‖Dock‖×weighti,j可以得出申請書與主題之間的相對距離,從而完成應(yīng)該歸于哪一類或者哪幾類中的問題,進而指導(dǎo)科研管理人員對申請書進行快速分類與評審專家組選擇。

        在獲得相對距離后,分類算法方面目前絕大多數(shù)系統(tǒng)采用的是k-means算法,k-means算法以二維空間距離表征相對距離,算法簡潔,但不適合交叉領(lǐng)域情況,也就是說k-means算法只能將一份申請書分配到一個主題下,而目前的科研項目交叉領(lǐng)域的申請成為多數(shù)情況,因此k-means算法所帶來的問題在其他的科研管理平臺中已經(jīng)日益凸顯[6-8]。為了解決交叉領(lǐng)域匹配問題,本文提出了基于規(guī)則置信度調(diào)整的知識挖掘算法CKMA(basedofconfidenceknowledgeminingalgorithm)。如圖2所示。

        圖2 申請書關(guān)鍵詞提取與主題間的關(guān)系

        CKMA算法的核心思想是關(guān)鍵詞被越多的申請書所采用意味著該關(guān)鍵詞的熵越小,其對分類的指導(dǎo)度也越低;同時根據(jù)關(guān)鍵詞與主題的關(guān)聯(lián)度進行綜合計算,得出申請書的主題序列,即交叉領(lǐng)域的申請書也需要確定所涉及的多個主題之間的主次順序。

        (1) 針對關(guān)鍵詞keyi,j在所有申請書中出現(xiàn)的頻次,對比在特定申請書Dock中出現(xiàn)的頻次確定keyi,j對申請書Dock的辨識貢獻度,計算其熵值;

        (2) 根據(jù)第一步計算所得熵值,所得申請書Dock對關(guān)鍵詞keyi,j的置信度,在獲得申請書Dock所有的關(guān)鍵詞置信度后進行置信度層次化排列;

        根據(jù)1.3節(jié)的說明,在分析文檔與主題的關(guān)聯(lián)度時將‖Dock‖×weighti,j(文檔Dock中關(guān)鍵詞keyi,j的加權(quán)出現(xiàn)率)作為關(guān)鍵詞與主題之間關(guān)聯(lián)度評估的重要參數(shù)。根據(jù)CKMA算法中再次以‖Dock‖×weighti,j為基礎(chǔ),綜合評估獲得申請書Dock對主題Topici的基于置信度的關(guān)聯(lián)度時,整個計算過程將申請書與研究主題之間完整連接,從而實現(xiàn)申請書的有效分類。

        3 實驗分析

        實驗部分采用的樣本數(shù)據(jù)包括兩個集合:其中一個是擁有2584份文檔的兩主題數(shù)據(jù)集;另一個是擁有45 781份文檔、31個主題的數(shù)據(jù)集。顯然,4萬余條數(shù)據(jù)31個主題的數(shù)據(jù)集是科研管理平臺所需要承擔(dān)的任務(wù)。我們將CKMA算法與基于相對距離的k-means算法進行比對。

        3.1實驗步驟

        根據(jù)第2節(jié)的說明,實驗中采用的測試文檔經(jīng)過三個步驟的計算:

        (1) 計算關(guān)鍵字熵值:兩個數(shù)據(jù)集分別包括2584份文檔和45 781文檔,每份文檔有3至5個關(guān)鍵詞,根據(jù)每個關(guān)鍵詞在所屬文檔中的出現(xiàn)頻率和文檔總詞數(shù)計算其熵值。在該步驟中,CKMA算法與傳統(tǒng)的k-means算法沒有差別。

        (2) 根據(jù)文檔Dock與主題Topici之間的關(guān)聯(lián)矩陣,每個關(guān)鍵詞與所屬文檔的熵值將根據(jù)重復(fù)關(guān)鍵詞和重復(fù)主題之間進行交叉計算,每個關(guān)鍵詞的熵值將不僅與所屬文檔相關(guān),與同主題的所有文檔均呈現(xiàn)相關(guān)性,這是CKMA算法與k-means算法的主要差別,該步驟在文檔數(shù)較少的測試集合由于同主題的關(guān)鍵詞較少,因此計算結(jié)果變化不明顯;而文檔數(shù)據(jù)增加后關(guān)鍵詞的熵值代表意義明顯增強,對第三步驟的分類提供了強有力的支持。

        對第二步驟的關(guān)鍵詞熵值,分析文檔與主題的關(guān)聯(lián)度,由于已經(jīng)CKMA算法的關(guān)鍵詞熵值在全局具有代表性,因此作為穩(wěn)定分類依據(jù)所產(chǎn)生的提升效果明顯。

        3.2實驗結(jié)果對比

        表1 k-means算法在2584數(shù)據(jù)集中的處理結(jié)果

        表2 CKMA算法在2584數(shù)據(jù)集中的處理結(jié)果

        表3 k-means算法在45781數(shù)據(jù)集中的處理結(jié)果

        表4 CKMA算法在45781數(shù)據(jù)集中的處理結(jié)果

        圖3 兩種算法在兩個數(shù)據(jù)集中的準確性比較

        3.3實驗結(jié)果分析

        當(dāng)文檔主題限制為兩類時,新的CKMA算法較傳統(tǒng)的

        k-means算法提高了約4個百分點,在實際應(yīng)用中效果不明顯,分析時間均在1秒鐘以內(nèi);而當(dāng)主題多達31項,且一個文檔可能與多個主題相關(guān)時,CKMA算法仍保持了60%以上的準確性,而k-means算法下降到僅為6%,完全失去了指導(dǎo)科研人員進行分類的可能性。

        4 結(jié) 語

        本文通過全面分析主題、文檔與關(guān)鍵詞之間的基于置信分析的關(guān)聯(lián)度評估,實現(xiàn)CKMA算法,針對多主題文檔分類問題進行了嘗試,并在煙草企業(yè)科技項目申報管理平臺中進行了試用,解決了傳統(tǒng)方法無法實現(xiàn)的多主題分類指導(dǎo)。但目前,針對復(fù)雜文檔的多目標分類仍是研究的難點,其準確性有待提高,而主要的技術(shù)難點在于大量文檔的存儲與并行算法框架兩方面,這將是我們下一步研究工作的重點內(nèi)容。

        [1]ChenH,ChiangRHL,StoreyVC.BusinessIntelligenceandAnalytics:FromBigDatatoBigImpact[J].MISQuarterly,2012,36(4):1165-1188.

        [2]ChauM,XuJ.Businessintelligenceinblogs:UnderstandingConsumerInteractionsandCommunities[J].MISQuarterly,2012,36(4):1189-1216.

        [3]DuanL,DaXuL.BusinessIntelligenceforEnterpriseSystems:ASurvey[J].IndustrialInformatics,IEEETransactionson,2012,8(3):679-687.

        [4]MoraesR,ValiatiJF,Gavi?ONetoWP.Document-levelSentimentClassification:AnEmpiricalComparisonBetweenSVMandANN[J].ExpertSystemswithApplications,2013,40(2):621-633.

        [5]GordoA,PerronninF,ValvenyE.Large-scaleDocumentImageRetrievalandClassificationwithRunlengthHistogramsandBinaryEmbeddings[J].PatternRecognition,2013,46(7):1898-1905.

        [6]SahuN,ThakurRS,ThakurGS.Hesitantk-NearestNeighbor(HK-nn)ClassifierforDocumentClassificationandNumericalResultAnalysis[C]//ProceedingsoftheSecondInternationalConferenceonSoftComputingforProblemSolving(SocProS2012),December28-30,2012.SpringerIndia,2014:631-638.

        [7]DattolaRT.AFastAlgorithmforAutomaticClassification[J].InformationTechnologyandLibraries,2013,2(1):31-48.

        [8]CulottaAron.LightweightMethodstoEstimateInfluenzaRatesandAlcoholSalesVolumefromTwitterMessages[J].Languageresourcesandevaluation,2013,47(1):217-238.

        KNOWLEDGEMININGBASEDONRULESCONFIDENCEADJUSTMENTANDITSAPPLICATIONINTOBACCOS&TMANAGEMENT

        WangSuZhangPingZhouXinWangYimin

        (Xi’an Company of Shaanxi Provincial Tobacco Company,Xi’an 710061,Shaanxi,China)

        Thispaperintroducesapopularresearchtopicinthefieldofinformationmanagement,knowledgemining.Itaimsatminingtheinformationfromstructuredandsemi-structureddata,forexample,searchingthestablepatternormodelfromelectronicdocumentsandtheincompletehistoricaldata,analysingandminingtheinteractivefeaturesandrulesbetweendata,soastoassistthemanagerstoformulateandadjustthenormsandstandards,constructtheexpertdatabaseandknowledgebase.Inthispaper,wediscussanimprovedmethodforknowledgemining,throughdynamicruleconfidencegenerationalgorithmitimprovestheaccuracyandadaptabilityoftheobtainedrules.Wealsoverifiedthemethodcombiningtheactualapplicationinintelligentauxiliarymanagementoftobaccoindustryproject,andachievedsomeeffect.

        KnowledgeminingRulesofconfidenceInformationmanagement

        2014-06-05。國家自然科學(xué)基金項目(61373120);陜西省市科技項目(KJ-2013-06)。王塑,高級經(jīng)濟師,主研領(lǐng)域:經(jīng)濟管理,科技管理。張萍,高級經(jīng)濟師。周新,碩士。王乙民,學(xué)士。

        TP311.13

        ADOI:10.3969/j.issn.1000-386x.2016.03.019

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準備好了嗎
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        91露脸半推半就老熟妇| 久久久久国色av免费观看性色| 国产精品99久久久久久猫咪| 人妻人人澡人人添人人爽人人玩| 亚洲色四在线视频观看| 91精品国产高清久久福利| 成人国产一区二区三区| 老子影院午夜精品无码| 久久久精品电影| 一区二区三区一片黄理论片| 欧洲成人一区二区三区| 黑人玩弄人妻中文在线| 粗了大了 整进去好爽视频| 成人精品免费av不卡在线观看| 精品人妻av中文字幕乱| 一本久道综合色婷婷五月 | 全亚洲高清视频在线观看| 亚洲va韩国va欧美va| 婷婷丁香五月中文字幕| 亚洲午夜无码视频在线播放| 国产人妖在线观看一区二区三区| 国产精品毛片va一区二区三区| 亚洲永久无码7777kkk| 无码国产精品色午夜| 久久久熟女一区二区三区| 99国产精品自在自在久久| 三级网址在线| 三级黄色片一区二区三区| 日本一区二区三区视频免费观看| 国产一区二区女内射| 在线视频这里只有精品| 日本免费一区精品推荐| 岛国熟女精品一区二区三区| 另类老妇奶性生bbwbbw| 久久国产欧美日韩高清专区| 又色又爽又黄的视频网站| 你懂的视频网站亚洲视频| 午夜无遮挡男女啪啪免费软件| 日本a在线看| 国产激情在线观看视频网址| av无码电影一区二区三区|