亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法研究

        2019-06-03 02:51:54
        關(guān)鍵詞:文本

        廣西壯族自治區(qū)科學(xué)技術(shù)情報(bào)研究所 廣西 南寧 530023

        1 研究背景

        目前,項(xiàng)目的重復(fù)檢測(cè)主要是采用萬(wàn)方、知網(wǎng)、維普等檢測(cè)系統(tǒng),通過(guò)字符串匹配算法來(lái)計(jì)算待檢測(cè)的文件相對(duì)于文件庫(kù)中的目標(biāo)文件的相似比[1]。字符串匹配算法是以一段文字一致作為衡量?jī)?nèi)容重復(fù)的標(biāo)準(zhǔn)[2],然而,由于中文語(yǔ)言的復(fù)雜性和表達(dá)方式的多樣性,對(duì)于實(shí)質(zhì)內(nèi)容相同的兩段文字,往往會(huì)因?yàn)橹虚g出現(xiàn)一些無(wú)意義的“停詞”或虛詞或者主謂賓順序不一致等情況,而將其錯(cuò)誤地判斷為不屬于重復(fù)內(nèi)容,因此,采用現(xiàn)有技術(shù)中的字符串匹配算法可能會(huì)導(dǎo)致查全率和查準(zhǔn)率不高。而且,字符串匹配算法對(duì)字符串的選取要求嚴(yán)格,算法本身復(fù)雜度較高,需要相對(duì)大的資源開(kāi)銷(xiāo)和較長(zhǎng)的計(jì)算時(shí)間,因此,查重的效率也不高。此外,近年來(lái),隨著科技項(xiàng)目申報(bào)、學(xué)術(shù)論文和學(xué)位論文等的數(shù)量大幅增長(zhǎng),迫切需要查重結(jié)果準(zhǔn)確、高效的文本數(shù)據(jù)查重的方法[3]。

        2 科技項(xiàng)目查重方法

        本文基于科技項(xiàng)目查重的需求背景,開(kāi)展了自動(dòng)實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法研究?;谏疃葘W(xué)習(xí)算法自動(dòng)實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法包括如下步驟:

        步驟1:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;例如,選取目標(biāo)文件,指定字段設(shè)置為“技術(shù)內(nèi)容”,在目標(biāo)文件的“技術(shù)內(nèi)容”字段中提取了“應(yīng)用游戲引擎UDK技術(shù)將提取的特色元素虛擬化、數(shù)字化,利用三維建模Blender技術(shù)將虛擬化信息應(yīng)用于移動(dòng)游戲端”的目標(biāo)文本,將目標(biāo)文本切分為“應(yīng)用/游戲/引擎/UDK/技術(shù)/將/提取/的/特色/元素/虛擬化/數(shù)字化/利用/三維/建模/Blender/技術(shù)/將/虛擬化/信息/應(yīng)用于/移動(dòng)/游戲端/”多個(gè)關(guān)鍵詞;實(shí)施例中,指定字段還可以包括“標(biāo)題”、“負(fù)責(zé)人”、“承擔(dān)機(jī)構(gòu)”、“合作機(jī)構(gòu)”、“摘要”以及“正文”;在實(shí)施例中,將目標(biāo)文本切分為關(guān)鍵詞時(shí),可以按照動(dòng)詞、名詞、形容詞、副詞、介詞切分為關(guān)鍵詞,省略其他類(lèi)型的關(guān)鍵詞;

        步驟2:在數(shù)據(jù)庫(kù)中檢索含有單個(gè)關(guān)鍵詞的項(xiàng)目文件,設(shè)定關(guān)鍵詞的權(quán)重值;例如,在12564個(gè)項(xiàng)目文件的數(shù)據(jù)庫(kù)中檢索后,含“應(yīng)用”關(guān)鍵詞的項(xiàng)目文件9472個(gè),含“游戲”關(guān)鍵詞的項(xiàng)目文件2761個(gè),含“引擎”關(guān)鍵詞的項(xiàng)目文件958個(gè),含“UDK”關(guān)鍵詞的項(xiàng)目文件8個(gè),對(duì)項(xiàng)目文件個(gè)數(shù)進(jìn)行歸一化處理y=x-8/(9472-8),結(jié)果得出:“應(yīng)用”為“1”,“游戲”為“0.29089”,“引擎”為“0.10038”,“UDK”為“0.00085”;

        步驟3:利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評(píng)估器對(duì)含有關(guān)鍵詞的待查文件進(jìn)行評(píng)估,權(quán)重評(píng)估器輸出待查文件的相關(guān)度,根據(jù)權(quán)重評(píng)估器的輸出結(jié)果進(jìn)行排序;如:權(quán)重評(píng)估器的輸出結(jié)果為:待查文件1的相關(guān)度為0.913,待查文件2的相關(guān)度為0.762,待查文件3的相關(guān)度為0.913,待查文件4的相關(guān)度為0.206,待查文件5的相關(guān)度為0.050,待查文件6的相關(guān)度為0;因此,排序?yàn)榇槲募?>待查文件3>待查文件2>待查文件4>待查文件5>待查文件6。

        3 利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評(píng)估器

        獲取關(guān)鍵詞的權(quán)重值,選取六篇待查文件作為訓(xùn)練樣本,其中三篇待查文件與目標(biāo)文件相關(guān),其他三篇待查文件與目標(biāo)文件不相關(guān),將相關(guān)的待查文件賦值為1,不相關(guān)的待查文件賦值為0;

        獲取六篇待查文件含有的關(guān)鍵詞,根據(jù)相關(guān)性輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如表1所示;

        表1 神經(jīng)網(wǎng)絡(luò)樣本訓(xùn)練表

        從表1可以獲得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,輸入為關(guān)鍵詞權(quán)重值P=[0,0.29089,0.10038,0.00085;0,0.29089,0.10038,0;0,0,0.10038,0.00085;1,0.29089,0,0;0,0,0,0],輸出為相關(guān)性S0=[1,1,1,0,0,0];將以上樣本集代入式(1)的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合訓(xùn)練,擬合訓(xùn)練可獲得具有關(guān)鍵詞特性的權(quán)重評(píng)估器,如式(1)所示;

        式(1)中,||P-c i||為輸入量P與神經(jīng)網(wǎng)絡(luò)權(quán)量c i的歐式距離,w i為神經(jīng)網(wǎng)絡(luò)隱層到輸出層之間的權(quán)量,w i=[w1w2w3w4w5w6]T=[0.050 0.315 0.465 0.585 0.835 0.975],c i=[c1c2c3c4c5c6]T=[0.3050 0.4528 0.6238 0.8029 0.9763]。

        待訓(xùn)練完成后,神經(jīng)網(wǎng)絡(luò)組建的權(quán)重評(píng)估器可以根據(jù)關(guān)鍵詞的權(quán)重值P輸出該待查文件的相關(guān)度S0的值,如表2所示;

        表2 待查文件的相關(guān)度

        根據(jù)S0進(jìn)行待查文件的相關(guān)度排序,如表2所示。

        步驟4:選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對(duì)文本;如:選取待查文件1,提取比對(duì)文本如下:“利用UDK虛幻引擎畫(huà)刷制作游戲四面墻,然后利用UDK虛幻引擎進(jìn)行初始游戲的基礎(chǔ)添加,通過(guò)四面墻的添加以及貼圖的附加,場(chǎng)景的初步搭建。在其中添加一些隔斷墻,并適當(dāng)?shù)奶砑右恍艄?給其符合場(chǎng)景的顏色,給一些比較暗的地方添加Sport Light,場(chǎng)景中只有墻體閉塞,可以適當(dāng)?shù)膭?chuàng)建天窗,并附上材質(zhì)”;

        步驟5:將所述目標(biāo)文本與所述比對(duì)文本進(jìn)行字母化,建立比對(duì)矩陣,在比對(duì)矩陣中查找滿(mǎn)足相似字符串條件的子矩陣;

        步驟6:根據(jù)子矩陣的規(guī)模計(jì)算所述目標(biāo)文本與所述比對(duì)文本的相似度,

        計(jì)算比對(duì)文本的相似度的公式如下:

        其中,BFB表示章節(jié)相似比,TXTLEN表示比對(duì)文本長(zhǎng)度,n是比對(duì)文本中關(guān)鍵字的個(gè)數(shù),KEYLEN表示關(guān)鍵字的長(zhǎng)度(即查找出的相似片度的長(zhǎng)度)。該方法利用神經(jīng)網(wǎng)絡(luò)對(duì)相關(guān)樣本進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(duì)(查重)的任務(wù)。

        5 結(jié)論

        本研究提供了一種基于深度學(xué)習(xí)算法自動(dòng)實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法,包括:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;在數(shù)據(jù)庫(kù)中檢索含有單個(gè)關(guān)鍵詞的待查文件,設(shè)定關(guān)鍵詞的權(quán)重值;利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評(píng)估器對(duì)含有關(guān)鍵詞的待查文件進(jìn)行評(píng)估和排序;選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對(duì)文本;建立比對(duì)矩陣,根據(jù)子矩陣的規(guī)模計(jì)算所述目標(biāo)文本與所述比對(duì)文本的相似度;該方法利用神經(jīng)網(wǎng)絡(luò)對(duì)相關(guān)樣本進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(duì)(查重)的任務(wù)。

        科技項(xiàng)目重復(fù)立項(xiàng)問(wèn)題會(huì)造成國(guó)家資助科技項(xiàng)目的資金浪費(fèi),同時(shí)損害科研精神,對(duì)科技創(chuàng)新造成較大的危害。本研究對(duì)大數(shù)據(jù)環(huán)境下的科技項(xiàng)目查重技術(shù)進(jìn)行了研究,提出了自動(dòng)實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法,此類(lèi)科技項(xiàng)目查重技術(shù)的研究,將使大數(shù)據(jù)技術(shù)在科技項(xiàng)目查重中得到更好的利用,輔助科技項(xiàng)目查的重高質(zhì)高效完成。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀(guān)察促寫(xiě)作
        重點(diǎn):論述類(lèi)文本閱讀
        重點(diǎn):實(shí)用類(lèi)文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開(kāi)對(duì)具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        华人在线视频精品在线| 纯肉无遮挡H肉动漫在线观看国产 国产精品自产拍在线观看免费 | 精品国产91天堂嫩模在线观看| 亚洲av精品一区二区三| 国产亚洲精品精品综合伦理| 精品久久久久久久无码人妻热| 日本乱子人伦在线视频| 精品久久亚洲一级α| 青青久久精品一本一区人人| 亚洲成a人片在线观看无码专区| 无码精品人妻一区二区三区人妻斩 | 亚洲高清在线视频网站| 激情精品一区二区三区| 97色伦综合在线欧美视频| 色欲国产精品一区成人精品| 自拍偷拍另类三级三色四色| 久久精品国产亚洲av麻豆瑜伽| 国产操逼视频| 免费看国产成年无码av| 五月激情在线观看视频| 激情内射人妻1区2区3区| 亚洲av无码av制服丝袜在线| 欧美v日韩v亚洲综合国产高清| 国产一区资源在线播放| 中国老熟妇506070| 免费啪啪视频一区| 亚洲av一二三又爽又爽又色| 免费人成视频网站网址| 精品av天堂毛片久久久| 视频国产精品| 亚洲午夜精品第一区二区| 男人和女人做爽爽免费视频| 亚洲国产欧美在线成人| 日韩精品国产一区在线| 少妇精品亚洲一区二区成人| 老熟妻内射精品一区| 欧亚精品无码永久免费视频| 日本精品一区二区三区在线观看 | 免费无遮挡毛片中文字幕| 青青草免费手机直播视频| 久久精品国产亚洲av无码娇色|