亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢

        2015-06-15 19:10:58呼凱凱徐宗昌
        關(guān)鍵詞:語句編碼向量

        呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

        (裝甲兵工程學(xué)院技術(shù)保障工程系,北京 100072)

        基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢

        呼凱凱, 徐宗昌, 劉 凱, 郭 建, 金 飛

        (裝甲兵工程學(xué)院技術(shù)保障工程系,北京 100072)

        為了提高IETM數(shù)據(jù)查詢的準(zhǔn)確率,通過對(duì)數(shù)據(jù)模塊編碼層與XML內(nèi)容層進(jìn)行分析,結(jié)合N層向量空間模型查詢算法,從IETM數(shù)據(jù)模塊編碼層中的型號(hào)識(shí)別碼、系統(tǒng)層次碼、信息碼以及數(shù)據(jù)模塊內(nèi)部數(shù)據(jù)信息入手,提出了一種基于N層向量空間模型的裝備IETM數(shù)據(jù)查詢算法,并通過IETM實(shí)例驗(yàn)證了該算法的正確性與實(shí)用性。

        N層向量空間模型;IETM;數(shù)據(jù)查詢

        交互式電子技術(shù)手冊(cè)(Interactive Electronic Technical Manual, IETM)作為裝備綜合保障領(lǐng)域一項(xiàng)新的研究內(nèi)容,為裝備綜合保障活動(dòng)提供了一種全新的信息處理與獲取手段,其涵蓋了裝備維修保障活動(dòng)過程中所需的各種技術(shù)信息。然而,隨著武器裝備的發(fā)展以及高新技術(shù)的不斷應(yīng)用,裝備維修保障活動(dòng)中所需的技術(shù)信息越來越多,如何從IETM中準(zhǔn)確、快速地獲取所需的信息已成為IETM研究急需解決的問題。N層向量空間模型作為一種常用的信息檢索模型,已被廣泛應(yīng)用于不同領(lǐng)域的信息檢索和數(shù)據(jù)分類過程[1-3]。因此,本文將N層向量空間模型引入到IETM的數(shù)據(jù)查詢之中,提出了一種基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。

        1 基本概念

        1.1 向量空間模型

        向量空間模型(Vector Space Model,VSM)最早是由G.Salton提出的一種代數(shù)模型[4]。該模型將每一個(gè)對(duì)象都映射為一個(gè)向量,進(jìn)而利用相似法計(jì)算查詢對(duì)象與查詢語句的相似度,另外,通過設(shè)定相應(yīng)的相似度閾值,篩選出查詢結(jié)果,并根據(jù)相似度大小對(duì)查詢結(jié)果進(jìn)行排序[5]。

        向量空間模型作為傳統(tǒng)的查詢模型具有簡單、直觀、處理快速等優(yōu)點(diǎn)。但是,在實(shí)際應(yīng)用中,向量空間模型也表現(xiàn)出了一些弊端,具體表現(xiàn)在:1)未考慮文檔不同位置對(duì)特征項(xiàng)權(quán)重的影響;2)對(duì)查詢語句與數(shù)據(jù)對(duì)象進(jìn)行向量化的過程中,由于文檔集合中特征項(xiàng)的數(shù)量往往大于單獨(dú)一篇文檔中特征項(xiàng)的數(shù)量,致使所得到的向量中多數(shù)項(xiàng)都為0,最終影響相似度查詢結(jié)果的準(zhǔn)確性。因此,在實(shí)際應(yīng)用中,向量空間模型在很多情況下無法滿足用戶的實(shí)際查詢需求。

        1.2N層向量空間模型

        N層向量空間模型是在向量空間模型的基礎(chǔ)上提出的,其根據(jù)文檔的結(jié)構(gòu)將文檔劃分為N層,并針對(duì)不同層的內(nèi)容設(shè)定不同的向量空間模型和權(quán)重,進(jìn)而計(jì)算出不同層與查詢語句的相似度。另外,在不同層的權(quán)重計(jì)算上,不同的部分也采用不同的標(biāo)準(zhǔn),將各層中關(guān)鍵詞的權(quán)重分別乘以不同的比例系數(shù),這樣就可以顯著地提高相似度計(jì)算結(jié)果的精度,得到更好的查詢結(jié)果[6-7]。

        N層向量空間模型是對(duì)傳統(tǒng)向量空間模型的一種改進(jìn),其通過對(duì)查詢對(duì)象進(jìn)行分層,解決不同位置上的特征項(xiàng)權(quán)重的區(qū)分,另外,分層很大程度上解決了查詢對(duì)象向量化后所得到的向量中多數(shù)項(xiàng)為0的弊端,從而提升了查詢結(jié)果的準(zhǔn)確度。

        2 IETM數(shù)據(jù)查詢算法

        IETM作為一種電子技術(shù)手冊(cè),其界面文檔顯示的數(shù)據(jù)內(nèi)容主要來源于IETM內(nèi)部的數(shù)據(jù)模塊;而數(shù)據(jù)模塊內(nèi)部各個(gè)層次代表的文檔信息,其重要程度各不相同,層次較為分明。因此,可以根據(jù)IETM數(shù)據(jù)模塊的結(jié)構(gòu)層次,提出基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。

        2.1 數(shù)據(jù)層次劃分

        1) 數(shù)據(jù)模塊編碼層。IETM是通過數(shù)據(jù)模塊編碼(Data Module Code,DMC)來實(shí)現(xiàn)對(duì)數(shù)據(jù)模塊的區(qū)分。DMC的一般結(jié)構(gòu)如圖1所示。DMC最長是由37個(gè)數(shù)字和字母組成,最小長度是17個(gè)字符,其中主要是型號(hào)識(shí)別碼(Model Identification code,MI)、系統(tǒng)區(qū)分碼(System Difference Code,SDC)、系統(tǒng)層次碼(Standard Numbering System,SNS)、分解碼(Disassembly Code,DC)、分解差異碼(Disassembly Code Variant,DCV)、信息碼(Information Code,IC)、信息差異碼(Information Code Variant,ICV)和位置碼(Item Location Code,ILC)[8]。其中MI、SNS、IC分別描述了裝備的相關(guān)型號(hào)、基本系統(tǒng)結(jié)構(gòu)以及數(shù)據(jù)模塊所描述的信息類型,這3種編碼是數(shù)據(jù)模塊編碼中最重要、最具代表性的編碼體系結(jié)構(gòu)[9-10]。因此,對(duì)于數(shù)據(jù)模塊編碼層的查詢主要從這3個(gè)編碼結(jié)構(gòu)進(jìn)行查詢。

        圖1 數(shù)據(jù)模塊編碼的一般結(jié)構(gòu)

        2) XML內(nèi)容層。IETM中內(nèi)容信息的描述采用可擴(kuò)展標(biāo)記語言(eXtensible Markup Language,XML),它具有和HTML相似的性質(zhì),因此,同樣可以根據(jù)N層向量空間模型對(duì)頁面進(jìn)行層次劃分。由于頁面的特殊格式,一個(gè)數(shù)據(jù)模塊內(nèi)容層最少由指向該數(shù)據(jù)模塊的標(biāo)題、副標(biāo)題以及正文3部分組成。因此,對(duì)XML內(nèi)容層進(jìn)行查詢時(shí)也可以分為3部分:第1部分是標(biāo)題部分;第2部分是副標(biāo)題部分;第3部分是正文部分。

        2.2 特征項(xiàng)選取

        特征項(xiàng)作為N層向量空間模型查詢算法過程中對(duì)數(shù)據(jù)進(jìn)行向量表示的元素,其合理性的選擇直接決定了查詢語句與查詢對(duì)象向量化的正確性,并將決定查詢結(jié)果的準(zhǔn)確性。因此,在查詢計(jì)算之前,必須合理地選擇特征項(xiàng)。特征項(xiàng)的選取必須遵循以下原則。

        1) 獨(dú)立性原則。在對(duì)特征項(xiàng)進(jìn)行選擇時(shí),必須使得所選取的多個(gè)特征項(xiàng)之間相互獨(dú)立,不存在任何包含與被包含的關(guān)系,進(jìn)而使得查詢向量以及每個(gè)數(shù)據(jù)模塊對(duì)象能夠準(zhǔn)確地進(jìn)行表示。如:在對(duì)相關(guān)故障信息進(jìn)行查詢時(shí),不能選取故障、故障隔離和故障描述同時(shí)作為其特征項(xiàng),而應(yīng)只選取故障隔離與故障描述作為查詢的特征項(xiàng)。

        2) 代表性原則。特征項(xiàng)的選取必須能夠?qū)Σ樵儗?duì)象進(jìn)行完整性表達(dá),并且能夠突出不同查詢對(duì)象之間的本質(zhì)區(qū)別,即不同的特征項(xiàng)能夠代表不同類的查詢對(duì)象。同時(shí),在特征項(xiàng)選取過程中要確保該詞是出現(xiàn)在查詢對(duì)象當(dāng)中,尤其是標(biāo)題、副標(biāo)題這類具有明顯性與總結(jié)性的詞語。

        3) 簡潔性原則。在特征項(xiàng)選擇過程中應(yīng)盡量對(duì)選詞進(jìn)行簡化,在確保能夠表達(dá)相應(yīng)對(duì)象的基礎(chǔ)上,盡量地對(duì)詞語進(jìn)行縮減,進(jìn)而減小向量化計(jì)算的復(fù)雜度,提高系統(tǒng)的計(jì)算速度。同時(shí),所選擇的特征詞中應(yīng)去除虛詞、感嘆詞以及連詞等修飾詞,實(shí)現(xiàn)對(duì)特征項(xiàng)的簡潔化。

        2.3 相似性計(jì)算

        在基于N層向量空間模型的IETM數(shù)據(jù)查詢算法中,首先需要根據(jù)相應(yīng)的特征項(xiàng)對(duì)查詢語句與查詢對(duì)象進(jìn)行向量化,但是,并不是每一個(gè)特征項(xiàng)都同等重要,因此需要對(duì)特征項(xiàng)的權(quán)重進(jìn)行調(diào)整,常用的是文件集的統(tǒng)計(jì)頻率權(quán)值(Term Frequency-Inverse Document Frequency,TF-IDF),其由2部分組成:一部分是檢索單元在文件中出現(xiàn)的頻率wTF;另一部分則被稱為反轉(zhuǎn)文件頻率wIDF。其中:

        (1)

        式中:d為整個(gè)文件集的文件總數(shù);dj為在整個(gè)文件集中包含特征詞j的文件數(shù)。

        而對(duì)于一個(gè)給定的檢索單元,其TF-IDF權(quán)值是兩者的乘積,即

        (2)

        通過對(duì)N層向量空間模型進(jìn)行分析并結(jié)合IETM數(shù)據(jù)模塊內(nèi)部結(jié)構(gòu),本文在N層向量空間模型的基礎(chǔ)上對(duì)其特征項(xiàng)權(quán)重的計(jì)算進(jìn)行完善。

        在N層向量空間模型中,由于文檔同一區(qū)域內(nèi)不同的特征項(xiàng)所表達(dá)文檔內(nèi)容的能力不同,故為了提升查詢結(jié)果的精確度,需要對(duì)不同的特征項(xiàng)賦予不同的權(quán)重。在計(jì)算特征項(xiàng)頻率wTFijk時(shí)應(yīng)乘以一個(gè)比例因子log2(M/mk),其中:M為該特征項(xiàng)在數(shù)據(jù)模塊Di中出現(xiàn)的總次數(shù);mk為該特征項(xiàng)在第k個(gè)區(qū)域出現(xiàn)的次數(shù)。但是在對(duì)數(shù)據(jù)模塊層的特征項(xiàng)進(jìn)行加權(quán)的過程中,當(dāng)M=mk時(shí),相應(yīng)的加權(quán)計(jì)算將無法進(jìn)行。因此,在基于N層向量空間模型的IETM數(shù)據(jù)查詢計(jì)算中,本文將其頻率計(jì)算公式調(diào)整為

        (3)

        在對(duì)查詢語句以及查詢對(duì)象進(jìn)行向量化表示后,還需要選定合適的方法對(duì)兩者之間的相似度進(jìn)行計(jì)算,判定查詢對(duì)象是否是用戶需求的內(nèi)容。余弦相似法作為一種常用的相似性計(jì)算方法,常被用于向量空間模型中的相似性計(jì)算。因此,在基于N層向量空間的IETM數(shù)據(jù)查詢中,可以選用該方法來計(jì)算數(shù)據(jù)模塊di和查詢語句q的相似度:

        (4)

        (5)

        式中:λk為不同層所計(jì)算出的相似度的權(quán)重;n為向量di和q的維數(shù)。

        3 算法驗(yàn)證

        為了驗(yàn)證本文所提出算法的正確性,以含有5個(gè)數(shù)據(jù)模塊的某型裝備IETM為例,對(duì)其發(fā)動(dòng)機(jī)故障信息進(jìn)行查詢。

        1) 對(duì)查詢語句與數(shù)據(jù)模塊進(jìn)行簡單形象地描述。

        Q:“發(fā)動(dòng)機(jī),故障描述”。

        D1:“發(fā)動(dòng)機(jī)/曲軸連桿機(jī)構(gòu)的一般故障描述”數(shù)據(jù)模塊。

        D2:“發(fā)動(dòng)機(jī)的密封”數(shù)據(jù)模塊。

        D3:“發(fā)動(dòng)機(jī)/曲軸連桿機(jī)構(gòu)的組成和功能描述”數(shù)據(jù)模塊。

        D4:“傳動(dòng)裝置的主離合器一般故障隔離”數(shù)據(jù)模塊。

        D5:“通信設(shè)備VCR-8000電臺(tái)的一般故障描述”數(shù)據(jù)模塊。

        2) 查詢語句與數(shù)據(jù)模塊的向量表示以及相似性計(jì)算。

        第1步:根據(jù)式(1)計(jì)算各詞語所對(duì)應(yīng)的IDF權(quán)值。計(jì)算結(jié)果如下:

        IDF發(fā)動(dòng)機(jī)=0.222;

        IDF傳動(dòng)裝置=0.699;

        IDF通信設(shè)備=0.699;

        IDF發(fā)動(dòng)機(jī)一般故障=0.699;

        IDFVCR-8000電臺(tái)一般故障描述=0.699;

        IDF主離合器一般故障隔離=0.699;

        IDF發(fā)動(dòng)機(jī)密封=0.699;

        IDF發(fā)動(dòng)機(jī)組成和功能描述=0.699。

        第2步:根據(jù)式(1)中關(guān)于區(qū)域特征項(xiàng)頻率(k=1,2,分別對(duì)應(yīng)系統(tǒng)層次碼、信息碼),計(jì)算出wTFijk,再由式(2)、(3)計(jì)算出在不同數(shù)據(jù)模塊中不同特征詞所對(duì)應(yīng)的ωij和wTFij(假定w1=1.2,w2=1.1),進(jìn)而得到查詢語句和不同數(shù)據(jù)模塊的表示向量。

        q=(0.222, 0, 0, 0.699, 0, 0, 0, 0);

        d1=(0.266, 0, 0, 0.739, 0, 0, 0, 0);

        d2=(0.266, 0, 0, 0, 0, 0, 0.739, 0);

        d3=(0.266, 0, 0, 0, 0, 0, 0, 0.739);

        d4=(0, 0.839, 0, 0, 0, 0.739, 0, 0);

        d5=(0, 0, 0.839, 0, 0.739, 0, 0, 0)。

        第3步:利用第2步所得的向量模型,再根據(jù)式(5),得到不同數(shù)據(jù)模塊的編碼層與查詢語句的相似度,如表1所示。

        表1 數(shù)據(jù)模塊編碼層與查詢語句的相似度

        同理,得到不同數(shù)據(jù)模塊的XML內(nèi)容層與查詢語句的相似度,如表2所示。

        表2 數(shù)據(jù)模塊XML內(nèi)容層與查詢語句的相似度

        第4步:把利用向量空間模型進(jìn)行計(jì)算的結(jié)果按照一定權(quán)重比例進(jìn)行匯總計(jì)算,分別將數(shù)據(jù)模塊編碼層、XML內(nèi)容層相似度計(jì)算結(jié)果的權(quán)重設(shè)為0.4、0.6。利用式(4)計(jì)算出不同數(shù)據(jù)模塊與查詢語句的最終相似度,結(jié)果如表3所示。

        表3 數(shù)據(jù)模塊與查詢語句的相似度

        綜合所得查詢排序結(jié)果為D1、D3、D2、D5、D4??梢钥闯觯翰捎迷撍惴ㄓ?jì)算出的相似度與實(shí)際結(jié)果完全吻合;另外,該算法要優(yōu)于現(xiàn)有IETM系統(tǒng)根據(jù)關(guān)鍵字進(jìn)行排序的算法。

        4 結(jié)論

        本文以N層向量空間模型為基礎(chǔ),提出了基于N層向量空間模型的IETM數(shù)據(jù)查詢算法。與傳統(tǒng)的IETM查詢算法相比,從數(shù)據(jù)模塊的不同數(shù)據(jù)結(jié)構(gòu)層出發(fā)進(jìn)行數(shù)據(jù)查詢具有良好的查詢效果。然而由于不同的用戶在查詢過程中對(duì)相同查詢請(qǐng)求的表達(dá)上存在一定的差異,因此,針對(duì)查詢?cè)~的語義分析將是下一步研究的方向。

        [1] Jing L P,Ng M K,Huang J Z. Knowledge-based Vector Space Model for Text Clustering [J].Knowledge and Information Systems,2010,25(1):35-55.

        [2] 王方,阮梅花,朱海剛,等. 基于向量空間模型的科技文獻(xiàn)自動(dòng)分類研究[J].情報(bào)探索,2009,194(12):1-3.

        [3] De Smet W,Moens M F. Representations for Multi-document Event Clustering [J]. Data Mining and Knowledge Discovery, 2013,26(3):533-558

        [4] 張凌宇,陳淑鑫,張光妲,等.一種基于向量空間模型的模糊本體映射方法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(5):1459-1462.

        [5] 夏立新,陸偉,沈吟東,等.信息檢索可視化[M].北京:科學(xué)出版社,2009:19-21.

        [6] 劉紅芝. 基于N層向量空間模型和兩重過濾方法的文本過濾系統(tǒng)的研究[J].科技信息,2009,32(1):36-37.

        [7] 仲華,崔志明. 基于XML的信息抽取和多層向量空間技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(7):49-52.

        [8] 徐宗昌. 裝備IETM研制工程總論[M].北京:國防工業(yè)出版社,2012:259-260.

        [9] 安釗. 裝備交互式電子技術(shù)手冊(cè)若干關(guān)鍵技術(shù)研究[D].北京:裝甲兵工程學(xué)院,2009.

        [10] 徐宗昌. 裝備IETM技術(shù)標(biāo)準(zhǔn)實(shí)施指南[M].北京:國防工業(yè)出版社,2012:64-66.

        (責(zé)任編輯:尚彩娟)

        IETM Data Retrieval of Equipment Based onN-level Vector Model

        HU Kai-kai, XU Zong-chang, LIU Kai, GUO Jian, JIN Fei

        (Department of Technical Support Engineering, Academy of Armored Force Engineering, Beijing 100072, China)

        Aiming at improving the accuracy of IETM data retrieval, through analyzing the levels of data module code and XML content, in combination with the retrieval algorithm ofN-level vector space model, this paper presents a data retrieval method of IETM based onN-level vector space model from model identification code, standard numbering system, information code of data module coding layer and the information in the data module. At last, it proves the correctness and practicability of the algorithm in accordance with IETM instance.

        N-level vector space model; IETM; data retrieval

        1672-1497(2015)01-0086-04

        2014- 07- 16

        呼凱凱(1987-),男,博士研究生。

        TP391

        A

        10.3969/j.issn.1672-1497.2015.01.017

        猜你喜歡
        語句編碼向量
        向量的分解
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        聚焦“向量與三角”創(chuàng)新題
        《全元詩》未編碼疑難字考辨十五則
        重點(diǎn):語句銜接
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        精彩語句
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        日韩中文字幕版区一区二区三区| 亚洲女同精品一区二区久久| 日本一区二区三区激情视频| 亚洲黄色官网在线观看| 亚洲不卡av一区二区三区四区| 久久久精品国产免大香伊| 亚洲国产成人久久综合| 少妇精品久久久一区二区三区| 国产精品不卡无码AV在线播放 | 日本女优五十路中文字幕| 末成年人av一区二区| 欧美一区二区三区视频在线观看 | 国产精品久久久久久妇女| 亚洲午夜福利在线视频| 日本一区不卡在线观看| 91精品国产色综合久久不| 久久亚洲精品成人AV无码网址| 国产白浆大屁股精品视频拍| 亚洲色图视频在线免费看| 波多野结衣的av一区二区三区| 精品人妻系列无码一区二区三区 | 国产午夜无码视频免费网站| 国产美女自拍国语对白| 精品国产亚洲一区二区三区四区 | 男女性高爱潮免费观看| 国产精品国产三级国产AvkTV| 亚洲精品在线97中文字幕| 一个人看的www片免费高清视频| 国产顶级熟妇高潮xxxxx| 亚洲AⅤ无码片一区二区三区| 亚洲免费看三级黄网站| 在线观看国产成人自拍视频| 国产国产裸模裸模私拍视频| 国产亚洲av片在线观看18女人| 蜜桃av无码免费看永久| 人妖在线一区二区三区| 成 人 免 费 黄 色| 吃奶还摸下面动态图gif| 视频网站在线观看不卡| 国产tv不卡免费在线观看| 人妻体内射精一区二区三四|