亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)標(biāo)引技術(shù)的回顧與展望

        2009-04-29 00:00:00
        現(xiàn)代情報(bào) 2009年4期

        〔摘 要〕本文論述了在目前全文檢索廣泛應(yīng)用的背景下,自動(dòng)標(biāo)引的重要性;把近五十年發(fā)展起來(lái)的自動(dòng)標(biāo)引技術(shù)按照采用的理論依據(jù),分為統(tǒng)計(jì)分析方法、語(yǔ)言分析方法、人工智能法和混合方法,并闡述了每類自動(dòng)標(biāo)引技術(shù)的特征及其優(yōu)劣勢(shì);最后,總結(jié)分析了現(xiàn)有自動(dòng)標(biāo)引技術(shù)的不足,并對(duì)其發(fā)展前景做出展望。

        〔關(guān)鍵詞〕自動(dòng)標(biāo)引;統(tǒng)計(jì)分析方法;語(yǔ)言分析方法;人工智能法;混合方法

        〔中圖分類號(hào)〕G252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)04-0221-05

        Review and Prospect of Automatic IndexingZhang Jing1,2

        (1.National Science Library,Chinese Academy of Sciences,Beijing 100190,China;

        2.Graduate University of Chinese Academy of Sciences,Beijing 100190,China)

        〔Abstract〕Firstly this paper explained why automatic indexing was also important when full text search was widely used.Then it classified automatic indexing as statistical analysis,language analysis,artificial intelligence and mixed approaches.The advantages and disadvantages of each approach were described.At last,the limitations of the existing automatic indexing were summarized,and the future research topics and applications were discussed.

        〔Key words〕automatic indexing;statistical analysis;language analysis;artificial intelligence;mixed approaches

        隨著互聯(lián)網(wǎng)的發(fā)展,人們生成、獲取信息的速度大大加快。面對(duì)海量的信息,人工標(biāo)引效率偏低,也不能滿足數(shù)據(jù)一致性的要求,自動(dòng)標(biāo)引技術(shù)隨之發(fā)展起來(lái)。

        自動(dòng)標(biāo)引(Automatic indexing)是指利用計(jì)算機(jī)系統(tǒng)從擬存儲(chǔ)、檢索的事實(shí)情報(bào)或文獻(xiàn)(題目、文摘、正文)中抽取檢索標(biāo)志的過(guò)程[1]。1957年,美國(guó)人盧恩(H.P.Luhn)提出了基于詞頻統(tǒng)計(jì)的抽詞標(biāo)引法,由此開(kāi)始了自動(dòng)標(biāo)引的探索。從60年代后期到70年代末,自動(dòng)標(biāo)引研究取得了很大進(jìn)展,提出了概率統(tǒng)計(jì)標(biāo)引法和各種加權(quán)模型等。80年代以來(lái),研究人員開(kāi)始從語(yǔ)言學(xué)角度研究標(biāo)引技術(shù)。近年來(lái),自動(dòng)標(biāo)引技術(shù)開(kāi)始向人工智能方向發(fā)展。

        1 全文檢索時(shí)代自動(dòng)標(biāo)引的重要性

        現(xiàn)在人們已經(jīng)可以實(shí)現(xiàn)全文檢索,但這并不意味著標(biāo)引的重要性降低了。與之相反,面對(duì)海量信息的檢索與挖掘,標(biāo)引反而顯得愈發(fā)重要:

        1.1 標(biāo)引是信息過(guò)濾的必要方法

        無(wú)論是電子環(huán)境還是印本環(huán)境,信息過(guò)濾都是非常必要的。尤其在充斥著大量信息的網(wǎng)絡(luò)環(huán)境下,對(duì)不同的信息價(jià)值進(jìn)行過(guò)濾與甄別是必然的,而標(biāo)引正是信息過(guò)濾的必要組成部分[2]。

        1.2 標(biāo)引是對(duì)信息的精煉與提升,對(duì)信息本身有智能貢獻(xiàn)雖然Odlyzko在幾年前表示,圖書(shū)館和學(xué)術(shù)期刊至少在傳統(tǒng)模式上會(huì)過(guò)時(shí)[3],但他卻認(rèn)為標(biāo)引的前途是光明的。他表示,標(biāo)引能夠?yàn)樾畔⑻峁┲匾悄茇暙I(xiàn),而這種貢獻(xiàn)的成本并不高[3]。

        1.3 標(biāo)引可以使檢索更有效率,更為準(zhǔn)確

        Jacsó表示,全文數(shù)據(jù)庫(kù)通過(guò)文摘可以獲得更有效的使用[4]。顯而易見(jiàn),瀏覽檢索列表的關(guān)鍵詞與文摘能更快的選出需要的文章。其次,檢索關(guān)鍵詞與文摘比檢索海量全文的結(jié)果更準(zhǔn)確,也更有效率,能更大程度的節(jié)省用戶獲取有用信息的所用的時(shí)間。

        總之,人目前的全文檢索效率與質(zhì)量并不能很好的滿足人們準(zhǔn)確檢索的需求,關(guān)鍵詞自動(dòng)標(biāo)引技術(shù)成為了必然的發(fā)展趨勢(shì)。

        2 自動(dòng)標(biāo)引技術(shù)的分類及其優(yōu)劣勢(shì)

        2.1 自動(dòng)標(biāo)引技術(shù)的分類

        按照標(biāo)引詞的來(lái)源,自動(dòng)標(biāo)引可以分為自動(dòng)抽詞標(biāo)引和自動(dòng)賦詞標(biāo)引。自動(dòng)抽詞標(biāo)引即由計(jì)算機(jī)自動(dòng)從文本中抽取詞或短語(yǔ)來(lái)表達(dá)信息資源的主題內(nèi)容。自動(dòng)賦詞標(biāo)引就是從某種形式的受控詞表中選取詞語(yǔ)來(lái)表達(dá)文獻(xiàn)資源的主題內(nèi)容。自動(dòng)抽詞標(biāo)引的標(biāo)引詞來(lái)自文獻(xiàn)資源本身;而自動(dòng)賦詞標(biāo)引已經(jīng)超出了單純自然語(yǔ)言的范圍,是自然語(yǔ)言與受控語(yǔ)言的結(jié)合。目前絕大部分的自動(dòng)標(biāo)引方法都是基于抽詞思想的。

        按照標(biāo)引技術(shù)采用的理論依據(jù)來(lái)看,自動(dòng)標(biāo)引可以分為統(tǒng)計(jì)分析方法、語(yǔ)言分析方法、人工智能法和混合方法。

        2.1.1 統(tǒng)計(jì)分析方法

        統(tǒng)計(jì)分析方法的基本原理在于術(shù)語(yǔ)具有一些顯著的統(tǒng)計(jì)特征,如共現(xiàn)、逆文檔詞頻、熵、互信息等[5]。統(tǒng)計(jì)分析方法是目前應(yīng)用最多的標(biāo)引方法。在這類方法中,可以分為一般統(tǒng)計(jì)法、加權(quán)統(tǒng)計(jì)法和分類判別統(tǒng)計(jì)法。

        (1)一般統(tǒng)計(jì)法是指通過(guò)對(duì)文獻(xiàn)中詞的出現(xiàn)頻率、共現(xiàn)頻率等統(tǒng)計(jì)指標(biāo)進(jìn)行統(tǒng)計(jì)排序,找出處于臨界域(Critical Region)內(nèi)、能真正表達(dá)文獻(xiàn)主題內(nèi)容的詞,再根據(jù)情況選取適當(dāng)數(shù)量的詞作為標(biāo)引詞。

        (2)加權(quán)統(tǒng)計(jì)法是在一般統(tǒng)計(jì)法的基礎(chǔ)上引入了加權(quán)的概念,以獲得更理想的標(biāo)引結(jié)果。換言之,人們不僅觀察詞在文獻(xiàn)的標(biāo)題、文摘或全文中出現(xiàn)的統(tǒng)計(jì)信息,而且考慮詞在文獻(xiàn)中出現(xiàn)的位置或含有該詞的文獻(xiàn)的長(zhǎng)短等因素。加權(quán)統(tǒng)計(jì)法根據(jù)不同的加權(quán)辦法又可派生出不同的處理方法。

        (3)概率統(tǒng)計(jì)法的原理有二:第一,標(biāo)引詞在文獻(xiàn)中的出現(xiàn)頻數(shù)的概率有規(guī)律可循;第二,標(biāo)引詞是否反映文獻(xiàn)主題內(nèi)容在檢索中可以通過(guò)概率表示。概率統(tǒng)計(jì)法通過(guò)分析整體文獻(xiàn)各類詞的概率分布,找到能表達(dá)主題內(nèi)容的標(biāo)引詞的概率分布狀況,從而判定標(biāo)引詞。概率統(tǒng)計(jì)法根據(jù)概率統(tǒng)計(jì)模型的不同可以派生出不同的處理方法。

        (4)分類判別統(tǒng)計(jì)法的主要特點(diǎn)是以詞的頻數(shù)或權(quán)值為基點(diǎn),然后利用統(tǒng)計(jì)學(xué)中的數(shù)值分類法(如聚類分析(Cluster Analysis)、因子分析(Factor Analysis),多維排列(Multidimensional Scaling))或判別分析法(Discriminate Analysis)確定詞在含義上的相近和疏遠(yuǎn)關(guān)系,同時(shí)也從統(tǒng)計(jì)的角度解決近義詞、同形異義詞、異形同義詞等問(wèn)題。這類方法在自動(dòng)賦詞標(biāo)引中用得較多,在對(duì)標(biāo)引文獻(xiàn)進(jìn)行語(yǔ)義分析時(shí)也有所應(yīng)用[6]。Stokolov在美國(guó)生物科學(xué)情報(bào)服務(wù)處(BIOSIS)采用分類統(tǒng)計(jì)法進(jìn)行了自動(dòng)賦詞標(biāo)引試驗(yàn),發(fā)現(xiàn)自動(dòng)標(biāo)引與手工標(biāo)引之結(jié)果的吻合程度可達(dá)80%~90%[7]。

        統(tǒng)計(jì)方法不依賴標(biāo)引詞的領(lǐng)域特征,能夠比較方便地在不同領(lǐng)域使用。但其忽略的詞語(yǔ)的語(yǔ)義信息,主要關(guān)注多詞關(guān)鍵詞,容易忽略有意義的單詞關(guān)鍵詞,標(biāo)引效果不是太好[8]。

        2.1.2 語(yǔ)言分析方法

        標(biāo)引的對(duì)象是由自然語(yǔ)言構(gòu)成的文獻(xiàn),人們便從語(yǔ)言學(xué)的角度去探索自動(dòng)標(biāo)引的方法。語(yǔ)言分析標(biāo)引法是對(duì)被標(biāo)引的對(duì)象從詞、句、語(yǔ)義、篇章等層次進(jìn)行語(yǔ)法分析,從而達(dá)到標(biāo)引的目的。語(yǔ)言分析法可以分為詞法分析(Lexical Analysis)、句法分析(Syntactical Analysis)、語(yǔ)義分析(Semantic Analysis)和篇章分析(Text Analysis)。

        (1)詞法分析主要是詞性標(biāo)注和獲得詞匯的詳細(xì)特征,對(duì)中文來(lái)說(shuō),還包括詞匯切分的工作[9]。詞法分析的主要任務(wù)是把接收到的自然語(yǔ)言進(jìn)行切分,并為每個(gè)切分的詞加上詞性標(biāo)記。為了能夠達(dá)到快速準(zhǔn)確的自動(dòng)分詞和詞性標(biāo)注,在詞法分析各環(huán)節(jié)中還要考慮以下問(wèn)題:切分歧義的消除、未登錄詞的識(shí)別以及兼類詞性的消除。

        (2)句法分析是從語(yǔ)法角度上確定句子中每個(gè)詞的作用(如主語(yǔ)還是謂語(yǔ))和詞之間的相互關(guān)系(如是修飾還是被修飾)而實(shí)現(xiàn)的[6]。句法分析一般通過(guò)與事先準(zhǔn)備好的解析規(guī)則或語(yǔ)法相比較而實(shí)現(xiàn)。經(jīng)驗(yàn)證明,這一自動(dòng)標(biāo)引方法從整體上講效果欠佳。另外,句法分析本身很難消除詞義的模糊性。為此,Salton指出,所有的句法分析必須輔以語(yǔ)義分析,才能保證標(biāo)引效果的準(zhǔn)確性[10]。

        (3)語(yǔ)義分析是分析詞在特定的上下文中的確切含義。和句法分析相比,語(yǔ)義分析在自動(dòng)標(biāo)引的使用范圍和效果都強(qiáng)于前者。學(xué)術(shù)界對(duì)從語(yǔ)言學(xué)角度研究自動(dòng)標(biāo)引的做法頗有爭(zhēng)議,反對(duì)者的主要理由包括:語(yǔ)法太復(fù)雜、使用限制多;語(yǔ)言學(xué)領(lǐng)域的研究成果對(duì)促進(jìn)自動(dòng)發(fā)展幫助甚微。

        (4)篇章分析是通過(guò)計(jì)算機(jī)找出篇章中內(nèi)容相關(guān)的片斷(詞、句、句群、段、篇等)并在它們之間建立各種索引,如超媒體和超文本結(jié)構(gòu)中鏈接索引,以便用戶能快速檢索出所需要的內(nèi)容,或者跳段瀏覽最感興趣的部分[11]。目前篇章分析已有許多理論和方法,如框架(Frame)理論、基于規(guī)劃的方法等。

        總的來(lái)說(shuō),目前的語(yǔ)言分析法對(duì)設(shè)定的關(guān)鍵詞構(gòu)成模式依賴較大,識(shí)別效率有限,在詞間關(guān)系的識(shí)別上尚欠缺有力試驗(yàn)的驗(yàn)證。

        2.1.3 人工智能法

        人工智能(Artificial Intelligence,AI)是計(jì)算機(jī)科學(xué)的一個(gè)分支,它專門研究怎樣用機(jī)器理解和模擬人類特有的智能系統(tǒng)的活動(dòng),探索人們?nèi)绾芜\(yùn)用已有的知識(shí)、經(jīng)驗(yàn)和技能去解決問(wèn)題。實(shí)現(xiàn)自動(dòng)標(biāo)引的目的是讓機(jī)器從事標(biāo)引工作中的腦力勞動(dòng),即讓計(jì)算機(jī)模擬標(biāo)引員完成標(biāo)引文獻(xiàn)的工作[12],因此,人們把人工智能法運(yùn)用于自動(dòng)標(biāo)引研究既順應(yīng)自然,又帶來(lái)新的活力。有不少人認(rèn)為,人工智能法代表著自動(dòng)標(biāo)引研究的未來(lái)。機(jī)器學(xué)習(xí)法可以分為一般機(jī)器學(xué)習(xí)法、集成學(xué)習(xí)法和專家系統(tǒng)。

        (1)一般機(jī)器學(xué)習(xí)法采用數(shù)值建模的方法,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練獲得參數(shù),從而進(jìn)行自動(dòng)標(biāo)引。

        (2)如果將Madaline理解為多個(gè)線性分類器,則這個(gè)模型應(yīng)該是集成機(jī)器學(xué)習(xí)最早的雛形了。因此,集成學(xué)習(xí)法要構(gòu)建多分類器,來(lái)進(jìn)行自動(dòng)標(biāo)引。

        (3)專家系統(tǒng)是人工智能法應(yīng)用于自動(dòng)標(biāo)引的具體體現(xiàn)。專家系統(tǒng)標(biāo)引法是讓一個(gè)智能計(jì)算機(jī)程序系統(tǒng),內(nèi)部含有大量標(biāo)引專家水平的知識(shí)與經(jīng)驗(yàn),能夠利用標(biāo)引員的知識(shí)和解決問(wèn)題的方法來(lái)進(jìn)行標(biāo)引。也就是說(shuō),專家系統(tǒng)是一個(gè)具有大量的標(biāo)引專門知識(shí)與經(jīng)驗(yàn)的程序系統(tǒng),它應(yīng)用人工智能技術(shù)和計(jì)算機(jī)技術(shù),根據(jù)標(biāo)引專家提供的知識(shí)和經(jīng)驗(yàn),進(jìn)行推理和判斷,模擬人類標(biāo)引員的決策過(guò)程,以進(jìn)行標(biāo)引。

        人工智能法進(jìn)行標(biāo)引的效果取決于人工智能研究自身進(jìn)展。人工智能法實(shí)施的前提都是要建立數(shù)據(jù)量足夠大的訓(xùn)練庫(kù)或知識(shí)庫(kù),其效果的提升有賴于于機(jī)器學(xué)習(xí)的能力與速度的提高。盡管人工智能法進(jìn)行自動(dòng)標(biāo)引比其他方法要困難,但它能從標(biāo)引員的角度去了解標(biāo)引過(guò)程,模擬標(biāo)引員的行為??梢灶A(yù)見(jiàn),隨著技術(shù)的進(jìn)步,人工智能標(biāo)引法會(huì)有長(zhǎng)足的發(fā)展空間。

        2.1.4 混合方法

        上述方法各有缺陷,因此可以將上述幾種方法根據(jù)情況混合使用,或加入啟發(fā)式知識(shí)使用??梢韵壤媒y(tǒng)計(jì)分析方法獲取初步標(biāo)引結(jié)果,再基于語(yǔ)言分析方法利于語(yǔ)法過(guò)濾器處理統(tǒng)計(jì)分析結(jié)果;也可以先用語(yǔ)言分析方法處理文本獲取候選標(biāo)引詞,再利用統(tǒng)計(jì)模型確定標(biāo)引詞。同時(shí),各種抽詞算法也越來(lái)越多地采用人工智能的方式,來(lái)加強(qiáng)語(yǔ)義理解,提高標(biāo)引效果。

        2.2 各類自動(dòng)標(biāo)引技術(shù)的優(yōu)劣勢(shì)

        下表描述了以上各種標(biāo)引方法的代表方法及其優(yōu)劣勢(shì):

        3 自動(dòng)標(biāo)引技術(shù)存在問(wèn)題與展望

        3.1 自動(dòng)標(biāo)引技術(shù)存在問(wèn)題

        信息標(biāo)引(Indexing),是根據(jù)文獻(xiàn)的特征,賦予文獻(xiàn)檢索標(biāo)識(shí)的過(guò)程,包括兩個(gè)主要環(huán)節(jié):一是主題分析,即在了解和確定文獻(xiàn)的內(nèi)容特征及某些外部特征的基礎(chǔ)上,提煉出主題概念;二是轉(zhuǎn)換標(biāo)識(shí),即用專門的檢索語(yǔ)言(標(biāo)引語(yǔ)言)中的標(biāo)識(shí)表達(dá)主題概念[32]。

        主題分析階段,自動(dòng)標(biāo)引技術(shù)需要解決的難點(diǎn)就在于采用怎樣的過(guò)程能讓計(jì)算機(jī)形成一種類專家的主題判斷過(guò)程。理想的自動(dòng)標(biāo)引技術(shù)主題分析階段應(yīng)該能夠形成類人的思維過(guò)程,同時(shí)也需要吸收專家判斷的經(jīng)驗(yàn),才能達(dá)到專家標(biāo)引的深度與廣度。目前自動(dòng)標(biāo)引技術(shù)存在的問(wèn)題有:

        (1)分詞算法存在缺陷。找出各意義單元,是進(jìn)行思考和標(biāo)引判斷的第一步,而漢語(yǔ)的分詞問(wèn)題一直存在,到目前為止各種分詞算法對(duì)歧義切分都還設(shè)有好的解決方法。這就導(dǎo)致進(jìn)行自動(dòng)標(biāo)引基礎(chǔ)存在問(wèn)題。

        (2)分類主題詞表跟不上科學(xué)的發(fā)展?,F(xiàn)代社會(huì)各學(xué)科發(fā)展異常迅猛,分支學(xué)科、邊緣學(xué)科不斷涌現(xiàn)。詞表的編制總是落后于科學(xué)的發(fā)展。使得基于詞典的切分算法總會(huì)有一些新詞切分不出,也極大的影響了基于詞表進(jìn)行語(yǔ)詞控制的自動(dòng)標(biāo)引系統(tǒng)的準(zhǔn)確性。

        (3)語(yǔ)義分析應(yīng)用范圍狹窄。人工標(biāo)引的重要主題判斷過(guò)程是對(duì)各意義單元進(jìn)行語(yǔ)義判別,目前的計(jì)算機(jī)語(yǔ)義分析應(yīng)用范圍多局限于結(jié)構(gòu)化文檔,對(duì)自由文檔的分析準(zhǔn)確程度偏低,不足以支撐廣泛的語(yǔ)義判別。

        (4)知識(shí)庫(kù)規(guī)模不夠。人工智能技術(shù)是將專家經(jīng)驗(yàn)融入標(biāo)引過(guò)程的重要技術(shù),但目前尚未能從根本上解決知識(shí)學(xué)習(xí)的問(wèn)題,知識(shí)庫(kù)更新慢,跟不上學(xué)科的發(fā)展。經(jīng)驗(yàn)證明,開(kāi)發(fā)一個(gè)適用的專家系統(tǒng)至少需5人/年[33]。而目前的自動(dòng)標(biāo)引專家系統(tǒng)與這個(gè)要求尚有距離。

        (5)標(biāo)引結(jié)果評(píng)價(jià)。人工標(biāo)引結(jié)束都會(huì)有一個(gè)判別、修正的過(guò)程,自動(dòng)標(biāo)引同樣需要進(jìn)行相應(yīng)的評(píng)價(jià)。傳統(tǒng)的自動(dòng)標(biāo)引評(píng)價(jià)是對(duì)照人工標(biāo)引結(jié)果判別或者由專家打分,這種方法主觀性大,一致性程度較差,成本也比較高。因此,構(gòu)建一個(gè)自動(dòng)標(biāo)引的通用評(píng)價(jià)模型,以減少自動(dòng)標(biāo)引的主觀性,節(jié)省評(píng)價(jià)成本,是一項(xiàng)有意義的工作。

        而轉(zhuǎn)換標(biāo)識(shí)階段,只要轉(zhuǎn)換規(guī)則設(shè)定足夠細(xì)致,自動(dòng)標(biāo)引的標(biāo)識(shí)轉(zhuǎn)換就能非常精準(zhǔn)。因此,此階段的主要問(wèn)題與難點(diǎn)在轉(zhuǎn)換規(guī)則的設(shè)定上。

        另外,自動(dòng)標(biāo)引技術(shù)作為一種計(jì)算機(jī)的實(shí)際應(yīng)用,其應(yīng)用效果同樣受到程序本身的制約。各系統(tǒng)的研制者由于其個(gè)人知識(shí)、技術(shù)水平的限制,缺少合作,不能做到集思廣益,使得自動(dòng)標(biāo)引系統(tǒng)局限性大,低水平重復(fù)現(xiàn)象比較普遍。

        3.2 自動(dòng)標(biāo)引技術(shù)展望

        從上面的敘述可以看出,理想的自動(dòng)標(biāo)引系統(tǒng)能夠形成類人的思維過(guò)程,同時(shí)也需要吸收專家判斷的經(jīng)驗(yàn)。因此,自動(dòng)標(biāo)引技術(shù)的發(fā)展方向必然是向著語(yǔ)言分析和專家系統(tǒng)的方向發(fā)展。另外,多種方法集成學(xué)習(xí),也將是今后自動(dòng)標(biāo)引技術(shù)發(fā)展的方向。

        (1)語(yǔ)言分析。這方面的研究可以解決3.1描述的前3個(gè)問(wèn)題,在目前的計(jì)算機(jī)技術(shù)條件下,要把理解自然語(yǔ)言所需的“數(shù)量”眾多、同時(shí)在“度”的方面具有高度不確定性和模糊性的知識(shí)都用規(guī)則形式表達(dá)出來(lái)是不可能的。這也是語(yǔ)言分析只能在受限的領(lǐng)域獲得成功的原因。但是毋庸置疑,語(yǔ)言分析是取得良好標(biāo)引效果的必要條件,也是人工智能發(fā)展的必然階段。因此,尋求更加理想的語(yǔ)言分析方案,是今后自動(dòng)標(biāo)引研究的趨勢(shì)之一。

        (2)專家系統(tǒng)。完全不用或少用人工參與的自動(dòng)標(biāo)引系統(tǒng)必然要能借鑒專家經(jīng)驗(yàn),而專家系統(tǒng)將是解決3.1第4個(gè)問(wèn)題,并提高標(biāo)引準(zhǔn)確率與全面程度的解決方案。如何提高專家系統(tǒng)的學(xué)習(xí)能力,如何集成多學(xué)科專家系統(tǒng)都將是今后自動(dòng)標(biāo)引研究的趨勢(shì)之一。

        (3)多種標(biāo)引方法的集成學(xué)習(xí)。利弊總是相對(duì)的,因此各標(biāo)引方法也總會(huì)存在其優(yōu)劣勢(shì),將多種標(biāo)引方法集成,進(jìn)行互補(bǔ)的集成學(xué)習(xí),將是提高標(biāo)引質(zhì)量的重要手段。目前還沒(méi)有一種方法能完全能模擬并達(dá)到標(biāo)引員的標(biāo)引能力。多種模型或方法的集成,能在一定程度上提高自動(dòng)標(biāo)引的質(zhì)量。而如何進(jìn)行這種集成學(xué)習(xí),很好的將各種標(biāo)引方法的優(yōu)劣勢(shì)進(jìn)行互補(bǔ),將是今后自動(dòng)標(biāo)引研究的重要趨勢(shì)之一。

        4 結(jié) 語(yǔ)

        總的來(lái)說(shuō),隨著網(wǎng)絡(luò)的發(fā)展,信息的無(wú)序狀態(tài)加劇,信息量成幾何級(jí)數(shù)增長(zhǎng),這都使得自動(dòng)標(biāo)引不僅是圖書(shū)情報(bào)業(yè)需要,而是成為了一種廣泛而迫切的社會(huì)需求。計(jì)算機(jī)及信息技術(shù)的發(fā)展及應(yīng)用,將為自動(dòng)標(biāo)引技術(shù)的研究帶來(lái)更大的變化,最終方便用戶,減少用戶獲取有用信息的時(shí)間和精力。

        目前,雖然自動(dòng)標(biāo)引技術(shù)多種多樣,但由于技術(shù)的限制,小規(guī)模試驗(yàn)的效果較好,大規(guī)模應(yīng)用的標(biāo)引質(zhì)量還是不高,標(biāo)引過(guò)程中也少不了人的參與。正如Lancaster和Warner所說(shuō),自動(dòng)標(biāo)引技術(shù)距離完全實(shí)際應(yīng)用仍有很長(zhǎng)的距離,只有機(jī)器具有足夠智能,才能完全替代人類完成這項(xiàng)重要工作[34]。

        參考文獻(xiàn)

        [1]自動(dòng)標(biāo)引[EB/OL].http:∥baike.baidu.com/view/853543.htm,2008-09-12.

        [2]F.W.Lancaster.Do Indexing and Abstracting have a Future?[J].Anales de Documentación,2003,(6):137-144.

        [3]Odlyzko,A.M.Tragic loss or good riddance?The impending demise of traditional schol-arly journals.International Journal of Human-Computer Studies,1995,42:71-122.

        [4]Jacsó,P.Document-summarization software.Information Today,2002,19(2):22-23.

        [5]Buitelaar P,Cimiano P,Grobelnik M.Ontology Learning from Text[C].In:the ECMI/PKDD 2005 Workshop on:Knowledge Discovery and Ontologies,Porto,Protugal,2005.

        [6]儲(chǔ)荷婷.索引工作自動(dòng)化:自動(dòng)標(biāo)引的主要方法[J].情報(bào)學(xué)報(bào),1993,(3):218-229.

        [7]Vledutz-Stokolov,N.Concept Recognition in an Automatic Text Processing System for the Life Science[J].Journal of the American Society for Information Science,1987,(4):269-297.

        [8]Alegia I,Arregi O,Balza I.Linguistic and Statistical Approsches to Basque Term Extraction[EB/OL].http:∥ixa.is.ehu.es,2008-05-13.

        [9]耿騫,毛瑞.漢語(yǔ)自然語(yǔ)言檢索中的詞法分析處理[J].情報(bào)科學(xué),2004,(4):466-469.

        [10]Salton,G.Automatic Text Proceesing:the Transformation,Analysis,and Retrieval of Information by Computer,Reading,MA,Addison-Wisley,1989:281-284.

        [11]劉平蘭.數(shù)字圖書(shū)館中基于關(guān)系圖的篇章分析方法研究[J].情報(bào)雜志,2003,(12):88-92.

        [12]顧敏,史麗萍,李春玲.自動(dòng)標(biāo)引綜述[J].黑龍江水專學(xué)報(bào),2000,(3):103-104.

        [13]Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J].IBM Journal of Research and Development,1957,(4):309-317.

        [14]馬穎華,王永成,蘇貴洋,等.一種基于字同現(xiàn)頻率的漢語(yǔ)文本主題抽取方法[J].計(jì)算機(jī)研究與發(fā)展,2004,40(6):874-878.

        [15]Chien L F.PAT-tree—based Keyword Extraction for Chinese Information Retrieval[A].In:Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR1997)[C].Philadelphia,PA,USA.1997:50-59.

        [16]Edmundson H P,Oswald V A.Automatic Indexing and Abstracting of the Contents of Documents[R].Planning Research Corp,Document PRC R-126,ASTIA AD No.231606,Los Angeles,1959:1-142.

        [17]Edmundson H P.New Methods in Automatic Abstracting Extracting[J].Journal of the Association for Computing Machinery,1969,16(2):264-285.

        [18]Maron M E,Kuhns J L.On Relevance,Probabilistic Indexing and Information Retrieval[J].Journal of the Association for Computer Machinery,1960,7(3):216-244.

        [19]A.Bookstein,D.Swanson.Probabilistic models for automatic indexing[J].Journal of the American Society for Information science,1974,25(5):312-318.

        [20]韓客松,王永成.中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引方法[J].情報(bào)學(xué)報(bào),2001,20(2):212-216.

        [21]Hulth A.Improved Automatic Keyword Extraction Given More Linguistic Knowledge[A].In:Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing[C].Sapporo,Japan,2003:216-223.

        [22]索紅光,劉玉樹(shù),曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報(bào),2006,20(6):25-30.

        [23]Salton G,Buckley C.Automatic Text Structuring and Retrieval—Experiments in Automatic Encyclopedia Searching[A].In:Proceedings of the Fourteenth SIGIR Conference[C].New York:ACM,1991:21-30.

        [24]Frank E,Paynter G W,Witten I H.Domain——Specific Keyphrase Extraction[A].In:Proceedings of the 16th International Joint Conference on Artificial Intelligence[C].Stockholm,Sweden,Morgan Kaufmann,1999:668-673.

        [25]李素建,王厚峰,俞士汶,等.關(guān)鍵瀏自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2004,27(9):1192-1197.

        [26]hang K,Xu H,Tang J,et al.Keyword Extraction Using Support Vector Machine[A].In:Proceedings of the Seventh International Conference on Web—Age Information Management(WAIM2006)[C].Hong Kong,China,2006:85-96.

        [27]Tumey P D.Learning to Extract Keyphrases from Text[R].NRC Technical Report ERB—1057,National Research Council,Canada,1999:1-43.

        [28]Witten I H,Paynter G W,F(xiàn)rank E,et al.KEA:Practical Automatic Keyphrase Extraction[A].In:Proceedings of the 4th ACM Conference on Digital Library(DL99)[C].Berkeley,CA,SA,1999.

        [29]Humphrey,S.M.MedlndEx System:Medical Indexing Expert System[J].Information Processing and Management,1986,(1):73-88.

        [30]Driscoll,J.R.,et al.The Operation and Performance of an Artificially Intelligent Keywording System[J].Information Processing and Management,1991,(1):43-54.

        [31]Lois L E.Experiments in Automatic Indexing and Extracting[J].Information Storage and Retrieval,1970,(6):313-334.

        [32]葉鷹,潘有能,潘衛(wèi).情報(bào)學(xué)基礎(chǔ)教程[M].北京:科學(xué)出版社,2006:127-131.

        [33]陸汝鈐.專家系統(tǒng)開(kāi)發(fā)環(huán)境[M].北京:科學(xué)出版社,1994.

        [34]Lancaster,F(xiàn).W.and Warner A.Intelligent Technologies in Library and Information Ser-vice Applications.Medford,NJ,Information Today,2001.

        人妻少妇精品无码专区动漫| 免费av在线视频播放| 国产亚洲专区一区二区| 国产成人精品无码片区在线观看| 国产精品久久久久影院| 五月天国产精品| 在线亚洲免费精品视频| 精品国产一区二区三区三级| 无码精品久久久久久人妻中字| 久久成人免费电影| 自拍偷拍一区二区三区四区| 国产精品自线一区二区三区| 中文www新版资源在线| 久久精品无码一区二区乱片子| 中文字幕第一页人妻丝袜| а天堂中文最新一区二区三区| 亚洲日本天堂| 国产熟女精品一区二区| 蜜臀一区二区三区精品| 国产精品9999久久久久| 日韩精品国产自在欧美| 邻居少妇太爽在线观看| 国产中文三级全黄| 蜜桃精品免费久久久久影院| 99久久久久久亚洲精品 | 澳门蜜桃av成人av| 免费观看又色又爽又湿的视频| 精品国产91天堂嫩模在线观看| 久久99久久久精品人妻一区二区| 精品卡一卡二乱码新区| 天堂一区人妻无码| 久久久国产精品ⅤA麻豆百度| 亚洲成人一区二区三区不卡| 成人毛片av免费| 五月综合高清综合网| av网站韩日在线观看免费| 色与欲影视天天看综合网| 成人免费网站视频www| 最近亚洲精品中文字幕| 国产最新女主播福利在线观看| 国产熟人av一二三区|