亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于技術(shù)特征的科技查新文獻(xiàn)檢索策略思考

        2020-04-14 08:43:44
        電子元器件與信息技術(shù) 2020年11期
        關(guān)鍵詞:查準(zhǔn)率查新文檔

        (遼寧省重大技術(shù)裝備戰(zhàn)略基地建設(shè)工程中心,遼寧 沈陽 110000)

        0 引言

        科技查新是通過手工檢索和計(jì)算機(jī)檢索等手段,針對(duì)科研立項(xiàng)和科研成果的實(shí)用性和新穎性,進(jìn)行文獻(xiàn)查證,因此,采取周全靈活的檢索策略,獲得合理的檢索資源,具有重要的現(xiàn)實(shí)意義。國(guó)外文獻(xiàn)檢索策略研究主要應(yīng)用數(shù)據(jù)語義,利用語義Web語言描述在線文檔,利用語義Web文檔和知識(shí)概念,在計(jì)算機(jī)領(lǐng)域內(nèi)實(shí)現(xiàn)檢索測(cè)試,對(duì)文獻(xiàn)的同義詞擴(kuò)展、外延擴(kuò)展、語義蘊(yùn)涵進(jìn)行檢索,聚類檢索結(jié)果,縮減用戶關(guān)心的檢索范圍,得到專門針對(duì)科技查新的文獻(xiàn)。國(guó)內(nèi)檢索策略研究利用文獻(xiàn)計(jì)量的方法,排序文獻(xiàn)的相對(duì)影響度,按照文獻(xiàn)與用戶搜索關(guān)鍵字的相關(guān)程度,按照線性方式返回引擎搜索結(jié)果,采用協(xié)同過濾的方式,計(jì)算檢索文獻(xiàn)的相似度,利用分層概念樹的方式,根據(jù)待審文獻(xiàn)的摘要內(nèi)容,從而表示出作者模型和文獻(xiàn)內(nèi)容,對(duì)該作者已經(jīng)發(fā)表的文獻(xiàn)進(jìn)行推薦,進(jìn)而構(gòu)建文獻(xiàn)檢索的語言模型[1]。

        1 基于技術(shù)特征的科技查新文獻(xiàn)檢索策略設(shè)計(jì)

        1.1 構(gòu)建科技查新文獻(xiàn)檢索庫(kù)

        通過去重和篩選兩項(xiàng)操作,對(duì)文獻(xiàn)進(jìn)行整理,構(gòu)建文獻(xiàn)檢索庫(kù)。首先將中國(guó)知網(wǎng)和萬方數(shù)據(jù)庫(kù)作為主要文獻(xiàn)來源,設(shè)置寬泛的檢索詞,下載知網(wǎng)和萬方數(shù)據(jù)庫(kù)中,所有相關(guān)學(xué)術(shù)文獻(xiàn)及其題錄信息[2]。其次進(jìn)行去重操作,控制下載文獻(xiàn)僅包括pdf和caj兩種文件格式,利用去重軟件對(duì)文獻(xiàn)進(jìn)行查重,去重處理資源總庫(kù)的下載文獻(xiàn)。去重處理完畢后,篩選冗余文獻(xiàn)信息。最后還要對(duì)檢索數(shù)據(jù)庫(kù)進(jìn)行填充,補(bǔ)檢相應(yīng)的專業(yè)性數(shù)據(jù)庫(kù),補(bǔ)充具有權(quán)威性的館藏文獻(xiàn),當(dāng)科技查新涉及生產(chǎn)工藝與性能參數(shù)時(shí),利用Google搜索引擎,對(duì)產(chǎn)品的網(wǎng)上信息進(jìn)行補(bǔ)查,確保文獻(xiàn)數(shù)據(jù)的充實(shí)性[3]。

        1.2 基于技術(shù)特征構(gòu)建文獻(xiàn)知識(shí)圖譜

        首先利用技術(shù)特征對(duì)知識(shí)網(wǎng)絡(luò)體系中不同關(guān)系,進(jìn)行明確描述,構(gòu)建文獻(xiàn)信息語義網(wǎng)絡(luò),其中技術(shù)特征的知識(shí)描述關(guān)系,從中選取屬性-宿主關(guān)系、上下位關(guān)系、以及相關(guān)關(guān)系這3種語義關(guān)系。首先利用屬性-宿主關(guān)系,構(gòu)建文獻(xiàn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過某一個(gè)相同的屬性值)屬性信息包括作者、關(guān)鍵詞、年份等),從而使網(wǎng)絡(luò)結(jié)構(gòu)無限拓展下去,具體如下圖所示:

        如上圖所示,各個(gè)檢索詞之間的層級(jí)關(guān)系,按照由大到小的分類級(jí)別,對(duì)主題詞所屬分類進(jìn)行排列,從而構(gòu)成語義標(biāo)簽的上下位關(guān)系。利用權(quán)值大小進(jìn)行排序,公式為:

        其中,w為檢索詞的權(quán)重值,q為檢索詞的一個(gè)語素,d為一個(gè)搜索結(jié)果文檔,R(q,d)為語素與文檔的相關(guān)系數(shù),β為每次計(jì)算過程中,檢索詞跳到初始權(quán)值不為0的源頂點(diǎn)概率[4]。確定文獻(xiàn)檢索的關(guān)鍵詞,對(duì)查新點(diǎn)進(jìn)行復(fù)核,對(duì)檢索用詞的全稱、縮寫及簡(jiǎn)稱進(jìn)行深入分析,對(duì)英文選詞進(jìn)行擴(kuò)展,補(bǔ)充英文文獻(xiàn)的關(guān)鍵詞。將檢索關(guān)鍵詞作為鏈接節(jié)點(diǎn),構(gòu)成屬性關(guān)聯(lián)語義網(wǎng)絡(luò),語義標(biāo)簽標(biāo)注過程中,通過匹配摘要、題目、關(guān)鍵詞等屬性特征,實(shí)現(xiàn)標(biāo)注[5]。至此完成基于技術(shù)特征,文獻(xiàn)知識(shí)圖譜的構(gòu)建。

        1.3 確定文獻(xiàn)檢索策略

        在文獻(xiàn)檢索庫(kù)中采用布爾邏輯構(gòu)造關(guān)鍵詞索引倒排文檔,提取索引詞的位置信息,確定位置信息在原文中的邏輯位置,并在邏輯位置索引詞中找出各字的順序邏輯關(guān)系,對(duì)各字的位置信息進(jìn)行記錄,將其作為查新文獻(xiàn)的分詞索引信息,得到查新文獻(xiàn)的基本情況[6]。注意檢索工具和檢索時(shí)限的回溯性,擴(kuò)展檢索字段并適當(dāng)補(bǔ)檢新的文獻(xiàn)庫(kù),慎重推敲反映查新點(diǎn)的檢索詞,使不同檢出文獻(xiàn)之間具有可比性,確保查新工作的全面性和準(zhǔn)確性[7]。

        2 實(shí)驗(yàn)論證分析

        進(jìn)行對(duì)比實(shí)驗(yàn),即此次設(shè)計(jì)策略為實(shí)驗(yàn)A組,傳統(tǒng)文獻(xiàn)檢索策略為實(shí)驗(yàn)B組,比較兩組實(shí)驗(yàn)的平均查準(zhǔn)率。實(shí)驗(yàn)文獻(xiàn)資源為7000條,在果樹栽培的各細(xì)分領(lǐng)域,選取果樹栽培、施肥、修剪、水分等10個(gè)提問詞,對(duì)10個(gè)提問詞進(jìn)行初步探索,獲得提示詞的相關(guān)文獻(xiàn)共600條[8]。檢索任務(wù)在CNKI實(shí)際檢索平臺(tái)上進(jìn)行,當(dāng)完成第一個(gè)檢索動(dòng)作時(shí),根據(jù)其技術(shù)特征,設(shè)置實(shí)驗(yàn)初始值,設(shè)置單框檢索場(chǎng)獨(dú)立為74.5%,場(chǎng)依存為68.9%,多框檢索場(chǎng)獨(dú)立為18.3%,場(chǎng)依存為1.5%。實(shí)驗(yàn)中,改變兩組實(shí)驗(yàn)檢出的相關(guān)文檔數(shù),比較不同數(shù)量下的查準(zhǔn)率。第一組對(duì)比結(jié)果如下圖所示:

        表1 單檢索框的對(duì)比結(jié)果

        由上表可知,當(dāng)文檔檢出數(shù)量增加時(shí),檢索策略的查準(zhǔn)率有所下降,但實(shí)驗(yàn)A組查準(zhǔn)率始終要高于實(shí)驗(yàn)B組,A組平均查準(zhǔn)率為89.1%,B組平均查準(zhǔn)率為83.1%,相比實(shí)驗(yàn),A組查準(zhǔn)率提高了6.0%。在第一組實(shí)驗(yàn)的基礎(chǔ)上,進(jìn)行第二組實(shí)驗(yàn),其對(duì)比結(jié)果如下表所示:

        由表2可知,使用多個(gè)檢索框時(shí),文檔查準(zhǔn)率有所提高,實(shí)驗(yàn)A組平均查準(zhǔn)率為92.3%,實(shí)驗(yàn)B組平均查準(zhǔn)率為88.2%,A組平均查準(zhǔn)率提高了4.1%。綜上所述,此次設(shè)計(jì)策略提高了文檔檢索的查準(zhǔn)率,為用戶提供更加符合要求的科技查新文獻(xiàn)。

        表2 多檢索框的對(duì)比結(jié)果

        3 結(jié)論

        此次設(shè)計(jì)策略充分發(fā)揮了技術(shù)特征的優(yōu)勢(shì),提高了文獻(xiàn)檢索的查準(zhǔn)率。但此次研究仍存在一定不足,數(shù)據(jù)抽取效率較差,在今后的研究中,會(huì)應(yīng)用正則表達(dá)式的抽取方法,對(duì)所有形式的文獻(xiàn)引用關(guān)系進(jìn)行匹配,提高抽取效率。

        猜你喜歡
        查準(zhǔn)率查新文檔
        有人一聲不吭向你扔了個(gè)文檔
        《建筑結(jié)構(gòu)》開啟科技查新新技能
        《建筑結(jié)構(gòu)》開啟科技查新新技能
        《建筑結(jié)構(gòu)》開啟科技查新新技能
        《建筑結(jié)構(gòu)》開啟科技查新新技能
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于深度特征分析的雙線性圖像相似度匹配算法
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        蜜臀久久99精品久久久久久| 亚洲av色在线观看网站| 日本一区二区三区一级片| 免费日本一区二区三区视频| 国产av综合影院| 亚洲亚洲网站三级片在线| 亚洲av色香蕉第一区二区三区| 中文字幕日韩有码在线| 99久久免费国产精品| 国产99在线视频| 中文字幕久区久久中文字幕| 久久精品国产亚洲av超清| 国产特级毛片aaaaaaa高清 | 国产在线欧美日韩一区二区| 人妻丰满熟妇一二三区| 精品国产精品三级精品av网址| 全部孕妇毛片丰满孕妇孕交| 国产成人免费高清激情明星| 日韩亚洲精选一区二区三区| 精品人妻一区二区三区四区在线| 国产乱人伦av在线a| 日日噜噜夜夜狠狠2021| 亚洲成人激情深爱影院在线| 欧美黑寡妇特a级做爰| 日本一区二区精品88| 久久一二三四区中文字幕| 日本一区二区三区视频网站| 国产成人午夜精华液| 亚欧乱色束缚一区二区三区| av在线不卡一区二区| 人妻aⅴ中文字幕| 亚洲AV永久无码精品导航| 国产精品人成在线观看不卡| 国产精品白丝久久av网站| 国产色诱视频在线观看| 亚洲av偷拍一区二区三区| 天堂网av一区二区三区在线观看| 亚洲aⅴ天堂av天堂无码麻豆| 国产清品夜色一区二区三区不卡 | 高潮喷水无遮挡毛片视频| 国产白色视频在线观看|