亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        三種信息粒度下的新穎性探測理論及其應(yīng)用

        2016-02-14 06:53:54,,,,
        關(guān)鍵詞:新穎性詞頻語句

        ,, ,,

        科學(xué)文獻(xiàn)除了作者、期刊、內(nèi)容本身的屬性之外,還有一個更為重要的屬性—時間屬性。一篇具體文獻(xiàn)是處于具體時間下的一個產(chǎn)物,文獻(xiàn)涉及的主題存在著過時與新興的差別,文獻(xiàn)包含的知識對于其讀者有已知和未知之分。2002年由美國國防部高級研究發(fā)展署(ARDR)與美國國家標(biāo)準(zhǔn)及技術(shù)研究所(NIST)共同主辦的文本檢索會議(TREC),首次將新穎性探測(Novelty Track)作為其中的一個正式比賽任務(wù),并拉開了新穎性探測的序幕。在TREC比賽中規(guī)定的新穎性探測要求為,當(dāng)前語句與之前出現(xiàn)的語句相比較,攜帶了新信息。本文拓展了TREC會議新穎性探測的要求,根據(jù)文獻(xiàn)攜帶信息粒度從大到小排序,從文獻(xiàn)集、文獻(xiàn)、文獻(xiàn)句子這3個層面,進(jìn)行新穎性探測的理論及應(yīng)用探究。3個層面的新穎性探測,分別能夠自動地、快速地發(fā)現(xiàn)某一領(lǐng)域內(nèi)新興的研究主題,描述文獻(xiàn)的新穎程度,或者探測具體文獻(xiàn)包含的新內(nèi)容。這些功能為圖書館的知識服務(wù)提供了新的思路。

        1 文獻(xiàn)集層面的新穎性探測

        文獻(xiàn)集層面上的新穎性探測,實質(zhì)上是文獻(xiàn)計量學(xué)的研究范疇,其概念的內(nèi)涵等同于研究前沿的探測、新興趨勢探測,以及科學(xué)知識圖譜。目前國內(nèi)外研究較為成熟的文獻(xiàn)集新穎性探測方法主要有引文分析法、詞頻分析法。引文分析法包括直接引用分析法、共被引分析法及引文耦合分析法,詞頻分析法包括詞頻頻率探測法、共詞探測法。研究前沿的探測分析多引入可視化分析技術(shù),常用的有CiteSpace、Hiscite、SPSS、Pajek、Ucinet等。

        董立平[1]2010年運用引文分析法,利用Histcite可視化引文編年圖對人胚胎干細(xì)胞文獻(xiàn)進(jìn)行分析,得出2006-2008年期間胚胎干細(xì)胞的培養(yǎng)、多能性的維持、基因表達(dá)等方面研究進(jìn)一步深入,同時“誘導(dǎo)多能干細(xì)胞(iPS)”為此期最重要的研究主題之一。他指出2006年TAKAHASHI小組將成人成纖維細(xì)胞成功誘導(dǎo)為多能干細(xì)胞,這一發(fā)現(xiàn)引起了生命科學(xué)領(lǐng)域的一次巨大轟動,他的研究必將極大地促進(jìn)人胚胎干細(xì)胞研究發(fā)展。2012年[2],日本科學(xué)家山中伸彌(Shinya Yamanaka)因其在細(xì)胞核重新編程研究領(lǐng)域的杰出貢獻(xiàn),獲得諾貝爾生理學(xué)或醫(yī)學(xué)獎。

        邱均平[3]基于關(guān)鍵詞對國際圖書情報學(xué)的前沿進(jìn)行探測分析。他利用CiteSpace的膨脹詞探測算法,通過考察詞頻的時間分布,依靠詞頻的變動趨勢確定學(xué)科領(lǐng)域的研究前沿,并得出2006-2010年國際圖書情報學(xué)研究前沿主要有醫(yī)學(xué)信息學(xué)、引文分析、虛擬網(wǎng)絡(luò)社區(qū)、語義信息檢索等研究領(lǐng)域。

        基于共詞分析方法探測學(xué)科研究前沿,國內(nèi)最早的研究見于崔雷[4]撰寫的《專題文獻(xiàn)高頻主題詞的共詞聚類分析》。該文將共詞分析定義為一種文獻(xiàn)計量學(xué)方法,其主要原理是對一組詞兩兩統(tǒng)計它們在同一篇文獻(xiàn)中出現(xiàn)的次數(shù),以此為基礎(chǔ)對這些詞進(jìn)行聚類分析,從而反映出這些詞之間的親疏關(guān)系,進(jìn)而分析這些詞所代表的學(xué)科或主題的結(jié)構(gòu)與變化。

        以上文獻(xiàn)集層面上的新穎性探測方法,成功地探測到具體領(lǐng)域的研究熱點和動態(tài)。然而引文分析法中的引文網(wǎng)絡(luò)的形成較為滯后,且只考慮了文獻(xiàn)的影響力,忽略了文獻(xiàn)的重要性;詞頻分析法缺點在于標(biāo)引詞和計量數(shù)據(jù)的主觀選擇。本文認(rèn)為將兩種方法結(jié)合使用,能夠互相彌補不足,優(yōu)化探測結(jié)果。

        目前,基于Web of Science數(shù)據(jù)庫的深度分析型研究工具ESI,能夠自動地分析ESI期刊分類下22個學(xué)科的研究前沿,具體方法是高被引論文聚類分析確定研究前沿。該公司于2015年10月與中國科學(xué)院情報中心發(fā)表了《2015研究前沿報告》[5],基于ESI各個學(xué)科領(lǐng)域研究前沿生成新興研究前沿和重點研究前沿,該報告對各個研究前沿的具體內(nèi)容給予了詳細(xì)分析。

        從理論層面對文獻(xiàn)集層面的新穎性探測的方法論分析到ESI指標(biāo)數(shù)據(jù)庫自動生成某一學(xué)科的研究前沿這一實踐,提示圖情工作者建立完善的文獻(xiàn)集層面新穎性探測工具。利用某學(xué)科已發(fā)表文獻(xiàn)探測該學(xué)科領(lǐng)域的研究前沿,能夠幫助科研人員識別當(dāng)時的學(xué)科領(lǐng)域內(nèi)研究前沿和動態(tài),預(yù)測學(xué)科發(fā)展的方向,進(jìn)一步解答學(xué)科研究人員如何選題,甄別已選課題是否為熱點、是否有潛力等問題。

        2 文獻(xiàn)層面的新穎性探測

        文獻(xiàn)層面上的新穎性探測,能夠?qū)唧w的文獻(xiàn)進(jìn)行新穎性評價,對科研人員在文獻(xiàn)調(diào)研階段尋找新穎的文獻(xiàn)具有指導(dǎo)意義。

        在生物醫(yī)學(xué)領(lǐng)域,Science Navigation Group[6-7]機構(gòu)于2002年1月創(chuàng)建并推出了全球的生物學(xué)評價系統(tǒng)F1000(Faculty of 1000 Biology),隨后又于2006 年推出了全球的醫(yī)學(xué)F1000(Faculty of 1000 Medicine),2010年合并為F1000.com。F1000[8]是同行評議數(shù)據(jù)庫,每年對全球文章總數(shù)不足2‰的優(yōu)秀精品醫(yī)學(xué)論文在創(chuàng)新性、新理論、新發(fā)現(xiàn)、新技術(shù)、科學(xué)價值和實際應(yīng)用前景等6 個方面進(jìn)行評價,但不能對科研工作者獲得的所有文獻(xiàn)的新穎性進(jìn)行逐一評價。本文認(rèn)為文獻(xiàn)層面新穎性探測是指智能地、自動地對大量的文獻(xiàn)進(jìn)行內(nèi)容新穎性探測,即在某一科研領(lǐng)域,對待探測文獻(xiàn)與其之前發(fā)表的所有文獻(xiàn)比包含了多少新信息進(jìn)行具體量化計算。計算結(jié)果是一個數(shù)量型的度量單位,一個相對指標(biāo),其值越大,說明文獻(xiàn)在內(nèi)容上與之前發(fā)表的所有文獻(xiàn)差別越大。

        以往的大量研究顯示[9],文獻(xiàn)層面內(nèi)容新穎性探測是容易實現(xiàn)的,如同一領(lǐng)域的雜志一年內(nèi)發(fā)表的所有文獻(xiàn),兩兩對比,內(nèi)容迥異的占絕大多數(shù)。因此設(shè)計一個量化指標(biāo),能夠準(zhǔn)確地表明文獻(xiàn)之間的差異程度,描述待探測文獻(xiàn)在其涉及的研究領(lǐng)域是否新穎,是否是國內(nèi)外眾多學(xué)者研究的熱點和難點。本文認(rèn)為國內(nèi)學(xué)者楊建林[10]提出的基于關(guān)鍵詞對逆文檔頻率的主題新穎度度量方法論證合理,值得借鑒。

        楊建林提出了計算文獻(xiàn)新穎度的共詞原則、時間戳原則、詞頻原則、逆文檔頻率原則,并基于這4個原則,進(jìn)一步提出了文檔新穎度的計算公式,并對該公式的實用性與合理性進(jìn)行了實證研究。作者選取《情報學(xué)報》和《情報資料工作》兩種期刊2011年第一期上刊載的論文進(jìn)行主題新穎度的比較。兩種期刊在學(xué)術(shù)質(zhì)量上分布處于情報學(xué)領(lǐng)域的不同層次,經(jīng)過計算得出同一學(xué)科領(lǐng)域重要核心期刊刊載論文的平均主題新穎度要高于普通期刊。

        楊建林的探測過程存在不足之處:一是其實證分析的數(shù)據(jù)量過少,缺少統(tǒng)計分析;二是對于新穎度探測結(jié)果的評價方面,未做出科學(xué)合理的分析。這一點也是國內(nèi)外文獻(xiàn)層面新穎性探測的主要難題之一。本文認(rèn)為當(dāng)前文獻(xiàn)層面新穎性探測的理論研究較少,面臨的困難較大,需要圖情專業(yè)人員投入精力進(jìn)一步研究探索。一個成熟的文獻(xiàn)新穎性探測指標(biāo)的建立,對文獻(xiàn)評估、期刊評估、學(xué)術(shù)團(tuán)體評估、科研人員評估都有著輔助作用,可以作為一個全新的評估因素,具有實際應(yīng)用價值。此外,文獻(xiàn)層面新穎性探測對文獻(xiàn)評價服務(wù)、推薦服務(wù)、個性化文獻(xiàn)提供服務(wù)起到了理論支持,幫助科研人員將有限的時間放在較為新穎的文獻(xiàn)閱讀上,提高閱讀學(xué)習(xí)效率,繼而提高科研效率。

        3 語句層面的新穎性探測

        語句級新穎性探測,針對的信息粒度更小,起源于文摘生成。文摘生成可針對多主題、單主題、單個文檔和多個文檔。商玥[11]等人通過自動摘要技術(shù)對生物醫(yī)學(xué)概念進(jìn)行摘要抽取,利用生物醫(yī)學(xué)語義關(guān)系抽取多文檔摘要,分析了風(fēng)濕病、腦脊髓炎等5種疾病的相關(guān)文獻(xiàn),生成的摘要覆蓋了這幾種疾病的致病原因、類型、防治策略等語義類型。該文語句冗余去除部分采用了相似度計算方法,將同一語義類型下詞頻排序達(dá)到某一閾值下的所有語句,保留相互之間相似度低的語句作為查詢生物醫(yī)學(xué)概念的生成摘要。

        語句級新穎性探測與文摘生成中冗余去除計算有著相似的理念,但具體要求不同。文摘生成的最終目標(biāo)是生成一個涵蓋語義類型豐富的文摘;新穎性探測是將文獻(xiàn)或者多篇文獻(xiàn)中相異度大的語句,抽取出來形成一個包含新信息的語句集合,提供給科研人員,提高其閱讀學(xué)習(xí)效率。雖然目的不同,但二者使用的相似度計算公式可以互通,所以發(fā)展較成熟的文摘生成為語句級新穎性探測提供了許多計算思路。

        語句級新穎性探測的歷史可追溯到1996年,由美國國防部發(fā)起的話題識別與追蹤(Topic Detection and Tracking)項目的一個子項目—首次報道識別(First Story Detection或New Event Detection),要求在以時間順序排列的數(shù)據(jù)流中,識別探測出首次討論某個話題的報道[12]。2002年9月,第11屆國際文本檢索會議(TREC)首次將新穎性探測(Novelty Track)作為其中的一個正式比賽任務(wù)。比賽規(guī)定的語句新穎性特征是與已有語句相比較,攜帶了新信息[13-15]。在這屆比賽中,中科院研究所、清華大學(xué)取得了不俗的成績。

        中科院研究所張華平[16]團(tuán)隊開發(fā)的Noovel系統(tǒng)參加了2004年的TREC比賽,參與新信息發(fā)現(xiàn)任務(wù)的全部4個子任務(wù)。在關(guān)鍵的任務(wù)l中,Noovel的“新信息探測”結(jié)果排名第一,與參賽的其他13支國際研究團(tuán)隊進(jìn)行綜合比較,Noovel系統(tǒng)在新穎性探測方面的研究相對較優(yōu)。中科院研究所邢美鳳在2012的博士論文中,對當(dāng)時支持語句新穎性探測的算法進(jìn)行了分析總結(jié)[17]。

        本文認(rèn)為語句級新穎性探測的過程通常有3種:一是對語句進(jìn)行文本表示,將文獻(xiàn)中自然語言轉(zhuǎn)換成規(guī)范統(tǒng)一的計算機語言;二是語句新穎度算法設(shè)計和算法運行;三是結(jié)果閾值設(shè)置、結(jié)果評估。

        文本的表示方式主要有向量空間模型,語言模型和概率模型3種[17]。向量空間模型和概率模型的表現(xiàn)形式類似,只是在每個詞項的權(quán)重計算中,向量空間模型利用詞頻的方式,概率模型計算在相關(guān)文檔和不相關(guān)文檔中出現(xiàn)的概率值來估計。基于向量空間模型和概率模型的文本新穎性檢測方法,有相似度算法、命名實體識別算法、聚類算法、K近鄰算法、概率模型方法、神經(jīng)網(wǎng)絡(luò)等;基于語言模型的文本新穎性探測方法,有風(fēng)險最小化框架模型、隱馬爾可夫模型等。

        結(jié)果閾值設(shè)置和結(jié)果評估設(shè)計來源于TREC會議[13-15],其主要內(nèi)容是將語句的計算結(jié)果與設(shè)置的閾值相比較。如果計算值大于閾值,認(rèn)為該語句包括新信息,反之則不包括。同時利用人工標(biāo)注出語句集中所有包含新信息的語句,作為系統(tǒng)評測的參考答案,引入召回率(Recall)、準(zhǔn)確率(Precision)與F值3個評價指標(biāo)。

        召回率反映了計算返回的正確結(jié)果在全部正確結(jié)果中的比率,公式為:Recall=M/A,其中M指評測系統(tǒng)和人工都認(rèn)為是正確語句的數(shù)量,A指由人工方式選擇的正確答案的數(shù)量;準(zhǔn)確率反映了計算返回的結(jié)果中正確結(jié)果的比例,公式為:Precision=M/S,其中S指由評測系統(tǒng)返回的正確答案的數(shù)量。F值測度的方法聯(lián)合考慮準(zhǔn)確率和召回率,對兩者進(jìn)行了權(quán)衡,具體計算公式為F=2×M/(A+S)。語句級新穎性探測是信息粒度最細(xì)的新穎性探測研究,旨在為科研人員過濾出新的信息的語句集合,避免人員對相同信息的反復(fù)閱讀,提高其閱讀學(xué)習(xí)效率。另外,對于檢索系統(tǒng)而言,語句級新穎性探測能夠有效的避免語句信息冗余,豐富了檢索引擎的結(jié)果呈現(xiàn)。

        4 結(jié)語

        綜上所述,如何將3個層面的新穎性探測有效地結(jié)合使用,不僅僅是從理論到實踐的一個發(fā)展,也是圖書館從傳播文獻(xiàn)數(shù)據(jù)到傳播知識的轉(zhuǎn)型的一個突破口。利用文獻(xiàn)集,勾勒相關(guān)領(lǐng)域的發(fā)展脈絡(luò),出具相關(guān)領(lǐng)域的發(fā)展態(tài)勢和研究熱點預(yù)測報告;利用文獻(xiàn)主題內(nèi)容,評價文獻(xiàn)的新穎性,為期刊、作者以及團(tuán)體評價提供新的指標(biāo);利用文獻(xiàn)語句,標(biāo)記攜帶新信息的語句供讀者閱讀。這些知識服務(wù),在將來的圖書館服務(wù)中,可體現(xiàn)服務(wù)的個性化、深層化。在信息傳媒迅速發(fā)展的時代,圖書館員對科技文獻(xiàn)知識的梳理及呈現(xiàn),勢必受到科研人員的認(rèn)可。

        猜你喜歡
        新穎性詞頻語句
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        外觀新穎性對消費者購買意愿的影響:自我建構(gòu)與產(chǎn)品類型的調(diào)節(jié)效應(yīng)
        重點:語句銜接
        日本計劃將新穎性寬限期延長至12個月
        精彩語句
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        《國防專利條例》新穎性標(biāo)準(zhǔn)應(yīng)當(dāng)及時進(jìn)行修改
        国产自产自现在线视频地址| 比比资源先锋影音网| 日韩成人精品在线| 国产大片在线观看三级| 一区二区视频在线观看地址| 精品999日本久久久影院| 国产视频导航| 亚洲日本视频一区二区三区| 久久一区二区三区久久久| 无码精品人妻一区二区三区av | 亚洲精品AⅤ无码精品丝袜无码| 久久精品视频日本免费| 日本丰满少妇裸体自慰| 国产av无码专区亚洲av琪琪| 日本专区一区二区三区| 九一精品少妇一区二区三区| 国产精品日本一区二区在线播放| 中文字幕女同系列在线看一 | 成人免费无码视频在线网站| 国产免费午夜a无码v视频| 色窝窝手在线视频| 一道之本加勒比热东京| 日本特黄特色特爽大片| 99国产超薄丝袜足j在线观看| 国产精品毛片av一区二区三区| 国产精品女主播福利在线| 中国国语毛片免费观看视频| 乱人伦中文字幕在线不卡网站| 亚洲一区二区三区在线中文| 手机在线播放av网址| 亚洲色大成网站www久久九九| 五月天欧美精品在线观看| 中文字幕一区二区三区四区久久| 欧美高清精品一区二区| 巨大巨粗巨长 黑人长吊| 911国产精品| 日本激情久久精品人妻热 | 国产高跟黑色丝袜在线| 狠狠色狠狠色综合日日92| 日本伦理视频一区二区| 少妇高潮太爽了在线视频|