亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非結(jié)構(gòu)化生產(chǎn)信息的向量表示提取方法

        2018-01-18 10:06:24蘇興華
        中國管理信息化 2018年23期
        關(guān)鍵詞:檢索向量數(shù)據(jù)庫

        蘇興華

        [摘 要] 對(duì)于組織較隨意、內(nèi)容也不盡相同的生產(chǎn)信息,處理方式不同于數(shù)據(jù)庫中定義明確的結(jié)構(gòu)化數(shù)據(jù),所以引入人工智能和模式識(shí)別領(lǐng)域中的向量表示法用于描述非結(jié)構(gòu)化數(shù)據(jù);采用基于TF-IWF的關(guān)鍵詞提取算法,將每個(gè)短信用向量的形式描述出來,以此來實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)的語義檢索。該文創(chuàng)造了一種基于語義相似度的信息檢索算法,用以解決非結(jié)構(gòu)化文本信息無法直接采用傳統(tǒng)的SQL語句進(jìn)行檢索的問題,實(shí)踐應(yīng)用表明該方法具有較高的準(zhǔn)確性。

        [關(guān)鍵詞] 非結(jié)構(gòu)化;向量;數(shù)據(jù)庫;檢索

        doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 23. 067

        [中圖分類號(hào)] G203 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2018)23- 0159- 03

        0 前 言

        川慶鉆探長慶鉆井總公司的鉆井隊(duì)大多地處偏遠(yuǎn),通過電腦及時(shí)上傳井隊(duì)工況比較困難,常用手段是鉆井隊(duì)長或信息員通過短信方式向主管領(lǐng)導(dǎo)匯報(bào)井隊(duì)工況,領(lǐng)導(dǎo)再通過短信或電話方式對(duì)井隊(duì)的問題進(jìn)行具體批示。只要鉆井隊(duì)所處地區(qū)有手機(jī)信號(hào)即可,實(shí)用性較強(qiáng),但面臨的主要問題是短信內(nèi)容的非結(jié)構(gòu)化特性,短信內(nèi)容發(fā)送后只能保存在發(fā)送者和接收者的手機(jī)中,不利于信息共享及日后的檢索和查證。當(dāng)前信息化發(fā)展進(jìn)入大數(shù)據(jù)時(shí)代,大量企業(yè)知識(shí)和成功案例蘊(yùn)含在井隊(duì)用戶的匯報(bào)和領(lǐng)導(dǎo)批示的交流短信中,因此很有必要將這些短信內(nèi)容收集起來,整理入庫,實(shí)現(xiàn)規(guī)范化管理,便于信息共享、信息檢索、數(shù)據(jù)溯源,更進(jìn)一步可以進(jìn)行數(shù)據(jù)深度挖掘,總結(jié)和發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的知識(shí),固化已有的工作經(jīng)驗(yàn),為以后的工作提供參考和指導(dǎo),從而真正形成有效的企業(yè)數(shù)據(jù)資產(chǎn)。

        通過搭建短信應(yīng)用服務(wù)平臺(tái),匯集現(xiàn)場工況短信信息;對(duì)于短信的非結(jié)構(gòu)化特性,可以采用增強(qiáng)型樸素貝葉斯網(wǎng)絡(luò)算法,對(duì)垃圾、騷擾短信自動(dòng)屏蔽;通過先進(jìn)的語義分類技術(shù)對(duì)短信內(nèi)容進(jìn)行處理,用搜索技術(shù)實(shí)現(xiàn)了對(duì)非結(jié)構(gòu)化短信數(shù)據(jù)的語義檢索;通過結(jié)合本領(lǐng)域的專業(yè)術(shù)語詞典,提出了改進(jìn)的KNN分類算法;根據(jù)人工審核的結(jié)果進(jìn)行機(jī)器學(xué)習(xí),自適應(yīng)的升級(jí)更新,改良分類效果。最后把正常的短信自動(dòng)推送到相關(guān)領(lǐng)導(dǎo)的移動(dòng)終端上,便于領(lǐng)導(dǎo)做出準(zhǔn)確的判斷和科學(xué)的決策。

        1 語義向量模型

        傳統(tǒng)的向量空間模型(VSM)基本原理是在構(gòu)造文檔向量和查詢向量的基礎(chǔ)上,利用匹配函數(shù)計(jì)算它們之間的相關(guān)程度即相似度。研究中借鑒傳統(tǒng)VSM的思想,根據(jù)本體自身特性,把文檔向量和查詢向量轉(zhuǎn)換成由本體概念和屬性組成的語義向量,并分別計(jì)算概念相似度和屬性相似度,在此基礎(chǔ)上實(shí)現(xiàn)語義相似度的檢索算法。

        由于短信數(shù)據(jù)庫中存儲(chǔ)的是短信/彩信等非結(jié)構(gòu)化數(shù)據(jù),這在檢索時(shí)面臨的問題與以往關(guān)系型數(shù)據(jù)庫里存放的結(jié)構(gòu)化數(shù)據(jù)檢索存在很大的區(qū)別,如果不能從語義的角度來表述和搜索文檔內(nèi)容,單純簡單的采用SQL語句的實(shí)現(xiàn)方法則難以為用戶提供滿意的檢索結(jié)果。本文采用了一種基于語義相似度的信息檢索方法,在語義向量中考慮概念的屬性等信息,分別計(jì)算語義向量的概念和屬性相似度并進(jìn)行綜合處理,以獲得向量間的語義相似度。實(shí)際應(yīng)用結(jié)果表明此方法具有較理想的效果。

        1.1 語義向量的查詢

        常規(guī)檢索過程中, 搜索引擎對(duì)用戶輸入的查詢采用基于同義詞、近義詞以及用戶日志等方法進(jìn)行擴(kuò)展,在一定程度上能有效幫助檢索系統(tǒng)進(jìn)一步定位用戶的查詢意圖,為檢索提供更多輔助信息。

        用戶輸入的查詢一般包括多個(gè)關(guān)鍵字,它們是對(duì)用戶查詢意圖的描述,通常包含被檢索對(duì)象的關(guān)鍵字、關(guān)鍵屬性及其取值。例如用戶在查找時(shí)輸入“長慶鉆井總公司”,在抽取查詢語義向量時(shí),提取用戶輸入的關(guān)鍵字, 對(duì)應(yīng)到本體中的概念及屬性, 如“長慶鉆井”為本體概念“總公司”的屬性的取值。對(duì)用戶的查詢進(jìn)行分析和語義擴(kuò)展后,系統(tǒng)提供友好界面以交互的方式進(jìn)一步協(xié)助用戶確定其查詢的明確語義, 這種方式可以縮短檢索時(shí)間,并提高檢索效率。用戶查詢擴(kuò)展的語義向量如圖1所示。

        2 短信語義處理

        經(jīng)典向量空間模型對(duì)文檔進(jìn)行預(yù)處理時(shí)用多個(gè)索引詞組成的向量表示文檔對(duì)象。為提高檢索準(zhǔn)確率,在此基礎(chǔ)上對(duì)數(shù)據(jù)庫中的短信進(jìn)行語義預(yù)處理,包括提取每篇短信的語義特征向量、對(duì)短信進(jìn)行語義分類以及建立語義索引。

        2.1 短信語義特征向量抽取

        對(duì)短信進(jìn)行預(yù)處理時(shí), 借鑒經(jīng)典向量空間模型的思想,使用本體庫替代包含關(guān)鍵詞條的字典,利用文檔描述的概念及其屬性組成的語義向量替代文檔,對(duì)短信內(nèi)容進(jìn)行抽取和語義化。與用戶查詢的處理方法類似,每篇短信都有特定的內(nèi)容,短信的每一部分也對(duì)某一概念實(shí)例進(jìn)行描述,結(jié)合統(tǒng)計(jì)和語義分析的方法提取關(guān)鍵詞,使用本體中的概念及屬性進(jìn)行抽象和概括。對(duì)每個(gè)概念實(shí)例而言,從短信中提取其屬性及屬性值,組成刻畫和描述短信內(nèi)容的語義向量。

        2.2 短信語義分類和索引

        為了提高檢索效率, 對(duì)短信進(jìn)行語義分類,以提供有效的短信組織和管理手段。在短信語義特征向量抽取結(jié)果的基礎(chǔ)上,以本體的層次概念樹為分類依據(jù), 對(duì)已抽取語義特征向量的短信進(jìn)行分類, 如圖2 所示。通常情況下每篇短信的語義特征向量都包含多個(gè)本體概念及其屬性,在每個(gè)概念對(duì)應(yīng)的類中建立該短信的映射, 從邏輯上為短信庫建立與本體對(duì)應(yīng)的層次管理結(jié)構(gòu),為短信語義索引提供依據(jù)。

        為了便于檢索, 為已分類的短信建立語義索引。首先將本體概念放人索引文件, 按照字典序排列, 并建立一個(gè)有序鏈表指向包含該概念的短信語義特征向量。其次, 為索引文件中的概念建立指向?qū)嵗湵淼闹羔槪?從而在檢索過程中通過該指針找到用戶檢索的對(duì)象而不必遍歷整個(gè)短信集合, 提高檢索效率。最后將該短信語義特征向量與其對(duì)應(yīng)的短信鏈接起來。

        3 基于語義相似度的短信檢索

        在基于語義相似度的短信檢索中,使用向量空間模型的“部分匹配”策略,得到用戶查詢和短信的語義向量后,對(duì)向量中的概念和屬性分別進(jìn)行處理。考慮不同概念實(shí)例以及概念的可比屬性之間的相關(guān)程度,分別計(jì)算其相似度,作為取舍短信的依據(jù),完成語義檢索。

        3.1 概念相似度

        本體使用層次化的樹狀結(jié)構(gòu)描述概念之間的邏輯關(guān)系,這種語義化的概念樹為檢索算法提供語義基礎(chǔ)。在檢索過程中不同的概念之間也有一定的相似性和相關(guān)性,因此需要處理概念樹中祖孫節(jié)點(diǎn)、兄弟節(jié)點(diǎn)等不同類型的關(guān)系,考慮用概念間的相似度對(duì)其進(jìn)行描述和量化,以提高檢索的準(zhǔn)確率。為了計(jì)算概念相似度, 做如下定義:

        定義1 在本體概念的樹狀層次結(jié)構(gòu)中, 如果概念A(yù)和概念B之間存在這樣的關(guān)系: A是B的祖先,則稱A和B為同支概念(Same-Branch Concepts)。概念A(yù)稱為A和B的最近根概念,記為R(A,B)。而A、B之間的距離d(A,B)=dep(B)-dep(A),其中dep(C)為概念C在層次結(jié)構(gòu)中的深度。如圖3(a)所示。

        定義2 在本體概念的樹狀層次結(jié)構(gòu)中,如果概念A(yù)和概念B之間存在這樣的關(guān)系,A不是B的祖先且B不是A的祖先,則稱A和B為異支概念(Different-Branch Concepts)。 如果概念R是A和B共同的祖先,且是符合此條件的所有節(jié)點(diǎn)中距離概念樹根節(jié)點(diǎn)最遠(yuǎn)的一個(gè),則稱R為A和B的最近根概念,記為R(A,B),A、B之間的距離d(A,B)=d(A,R)+d(B,R),如圖3(b)所示。由此可知,本體概念樹中任意兩個(gè)概念的關(guān)系有且只有同支概念、異支概念以及相同概念3種情況。

        定義3 概念C稱為概念A(yù)和B的語義相關(guān)概念, 當(dāng)且僅當(dāng)C滿足如下條件,當(dāng)A、B為如圖3(a)所示的同支概念時(shí),C在以A為根的子樹中且不在以B為根的子樹中;當(dāng)A、B為如圖3(b)所示的異支概念時(shí),C在以R為根的子樹中且不在以A或B為根的子樹中,如圖3(c)所示。

        在計(jì)算概念相似度時(shí),對(duì)同支或異支概念而言,隨著概念間距離的增大,兩個(gè)概念之間的關(guān)系越來越疏遠(yuǎn),概念相似度也越來越小,是關(guān)于概念間距離的減函數(shù)。兩個(gè)概念的最近根概念的深度越大,表示它們擁有的公共屬性越多,因此概念相似度也是關(guān)于最近根概念深度的增函數(shù)。

        綜上所述,定義概念A(yù)和B之間的概念相似度如下:

        Simp(P,Q)=

        1- × × ,d(A,B)≠0,A,B如4(a) 1, d(A,B)≠01- × × ,d(A,B)≠0,A,B如4(b)

        其中,dep(R(A,B))為A和B的最近根概念深度;d(A,B)為A和B之間的距離,取值均為非負(fù)整數(shù);son(C)表示本體概念樹中以C為根的子樹的所有節(jié)點(diǎn)數(shù);參數(shù)α、β調(diào)整dep(R(A,B))和d(A,B)的權(quán)重,取值范圍為(0,1];由專家根據(jù)相應(yīng)的領(lǐng)域知識(shí)設(shè)定;司馬Simc(A,B)的取值范圍為[0,1]。

        3.2 屬性相似度

        每個(gè)本體概念都有多個(gè)不同的實(shí)例,它們的區(qū)別在于屬性取值的不同。不同概念的實(shí)例也可能包含相同的屬性,因此在比較兩個(gè)實(shí)例之間的相似性時(shí),僅有概念相似度并不夠,還須考慮概念屬性之間的相似度。定義如下:

        定義4 設(shè)本體概念C有實(shí)例I,其對(duì)應(yīng)屬性P1的值為p1,…,對(duì)應(yīng)屬性Pn的值為Pn,則表示該實(shí)例I=C[P],P為屬性向(p1,p2,p3,L,pn).

        在計(jì)算屬性向量P=(p1,p2,p3,L,pn)和Q=(q1,q2,q3,L,qn)的相似度時(shí), 只需要處理它們的公共屬性即可。首先把P和Q對(duì)應(yīng)的屬性向量轉(zhuǎn)化為具有公共屬性的向量P′=(p1′,p2′,p3′,I)和Q′=(q1′,q2′,q3′,I) ,然后根據(jù)本體中屬性的定義及屬性值的相似度計(jì)算, 對(duì) 和 中的相應(yīng)屬性值進(jìn)行比較和計(jì)算, 得到屬性向量P和Q之間的相似度如下:

        Simp(P,Q)=Simp(P′,Q′)= ×Simr(pr′+qr′)

        3.3 語義相似度

        計(jì)算語義向量的概念相似度和概念實(shí)例的屬性相似度后, 能夠得到語義向量間完整的語義相似度。設(shè)語義向量V1(A1[P1],A2[P2],A3[P3],L,Am[Pm]),V2(B1[Q1],B2[Q2],B3[Q3],L,Bn[Qn])在計(jì)算過程中,首先依次比較用戶查詢語義向量中的每個(gè)概念實(shí)例與被檢索的文本特征語義向量中所有概念實(shí)例, 取其中的最大值作為該概念與文檔特征語義向量的相似度。然后對(duì)語義向量中的各概念與文本特征語義向量的相似度取平均值,計(jì)算出用戶查詢語義向量V1和文檔特征語義向量V2的語義相似度。其中ω是表征概念相似度和屬性相似度的權(quán)重,取值范圍為[0,1]。

        Simv(V1,V2)= (ω·SimC(Ai,Bj)+(1-ω)·Simp(Pi,Qj)) 整個(gè)過程的主要算法如下:

        /基于語義相似度的檢索算法主要步驟描述

        Begin/*Algorithm begin*/

        Init(V1);Load(V1);//初始化并加載用戶查詢語義向量

        Load(Selndex);//加載文檔語義索引文件

        Init(V2);//并初始化語義向量V;

        n=0;

        //按索引文檔檢索

        While not eof(Selndex)do

        //對(duì)索引中第n條概念的每一個(gè)語義向量進(jìn)行處理

        for each V of Selndex[n]do

        if log(V)=0then //該向量未被處理過

        begin

        V2=V;

        /*計(jì)算V1,V2中任意兩個(gè)概念A(yù)i和Bj的概念相似度*/

        Get SimC (Sim(Ai,Bj));/*計(jì)算V1,V2中任意兩個(gè)概念A(yù)i和Bj各自對(duì)應(yīng)的屬性向量Pi和Qj的屬性相關(guān)度*/

        GetSimP(Simp(Pi,Qj));

        //計(jì)算V1,V2的語義相似度

        GetSimV(SimV(V1,V2));

        InsertTo(S);//按降序插入列表中

        endif i=i+1; endwhile;

        output(S,n);/輸出S中前n個(gè)作為檢索結(jié)果

        End /* Algorithm end*/

        主要參考文獻(xiàn)

        [1]李庭春.生產(chǎn)企業(yè)管理信息系統(tǒng)的應(yīng)用及其發(fā)展[J].企業(yè)改革與管理,2008(3).

        [2]陳飛,李建,余一帆,等. 基于WEB的石油生產(chǎn)信息系統(tǒng)[J]. 中國科技信息,2006(1).

        猜你喜歡
        檢索向量數(shù)據(jù)庫
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        2019年第4-6期便捷檢索目錄
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        向量垂直在解析幾何中的應(yīng)用
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        中文字幕日本人妻久久久免费 | 国产精品原创巨作AV女教师 | 成人爽a毛片一区二区免费| 精品一精品国产一级毛片| 国产av无码专区亚洲草草| 最近亚洲精品中文字幕| 蜜臀av一区二区三区精品| 国产三级av在线精品| 青青河边草免费在线看的视频| 精品亚洲一区二区三区四区五区| 天天爽夜夜爽人人爽| 久久久久久国产精品mv| 人人添人人澡人人澡人人人人| 岛国AV一区二区三区在线观看| 国产免费午夜福利蜜芽无码| 国产猛男猛女超爽免费av| 中文字幕亚洲入口久久| 亚洲av天堂免费在线观看| 欧美大片aaaaa免费观看| 女人下面毛多水多视频| 推油少妇久久99久久99久久| 国产激情视频在线观看首页| 国产精品亚洲专区无码不卡| 国产自拍在线视频观看| 国内嫩模自拍偷拍视频| 亚洲av无码国产精品色软件| 内射欧美老妇wbb| 精品国精品无码自拍自在线| 国产乱人视频在线观看播放器| 杨幂二区三区免费视频| 亚洲1区第2区第3区在线播放| 老鲁夜夜老鲁| 丰满老熟妇好大bbbbb| 2021国产成人精品国产| av大片在线无码永久免费网址| 日本一区二区三区区视频| 成人国成人国产suv| 国产suv精品一区二区6| 日韩AV无码一区二区三不卡| 亚洲精品精品日本日本| 亚洲一区二区三区免费网站|