亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

“碎片化”在網(wǎng)站圖書檢索中的應(yīng)用

2014-10-30 11:55:54金安

出版參考 2014年18期

金安

伴隨著讀者在互聯(lián)網(wǎng)上以自定義主題（詞組或短語）為條件，進行相關(guān)圖書信息搜索的需求越來越多，傳統(tǒng)的檢索方式由于不適應(yīng)自然語言的結(jié)構(gòu)而明顯落伍，用戶希望網(wǎng)站的搜索引擎，能夠提供基于內(nèi)容的、更新更快且更加完備的相關(guān)書目信息資源，這就對我們出版社網(wǎng)站的信息架構(gòu)——信息的組織方式和處理模式——提出了新的挑戰(zhàn)。

我們知道，讀者自定義的搜索主題是用自然語言表述的，因而必然是由字和詞按一定規(guī)則構(gòu)成，當然還可能包含一些符號或標點。再觀察我們的圖書內(nèi)容，也同樣是由這些基本元素構(gòu)成的。要想在兩者之間建立起聯(lián)系，并尋找對應(yīng)關(guān)系，就應(yīng)當從這些基本單元入手。由于漢語中的詞比單個字具有更加完整的含義，所以我們把詞作為基本的構(gòu)成單元對待。將描述或構(gòu)成圖書內(nèi)容的文本，拆分成具有獨立含義的詞，是尋找內(nèi)容相關(guān)性的基本前提。而這一過程，就是我們所說的“碎片化”。那么，需要對哪些內(nèi)容對象進行碎片化？碎片化過程依據(jù)什么進行？使用什么工具進行碎片化？到底碎片化到什么程度？碎片化是如何影響搜索引擎性能的？碎片化加工可以一勞永逸嗎？本文分別來探討這些問題。

一、碎片化對象選擇問題

碎片化就是對文本進行切分，作為一種技術(shù)手段，其應(yīng)用對象的選擇一定要與功能目標相一致。所以，我們首先要選擇能夠最全面描述圖書內(nèi)容的文本，這就是章節(jié)目錄，其次是內(nèi)容簡介。因為目錄中有的詞，正文中一定有，而且多是比較重要的詞。這對于以內(nèi)容檢索為目的的相關(guān)性判斷，就可以達到基本要求了。當然，如果有全文，可以使檢索的范圍更全面，以致不漏掉任何一個詞，但同時也會使運算量成幾何級數(shù)的遞增，這一點與數(shù)字出版的要求不同，在線搜索功能對性能近乎苛求，所以我們未將正文列入切分范疇。還有，如果有樣章，我們可不可以將其作為碎片化對象呢？這要具體分析一下是什么樣的樣章。一般科技類圖書的第一章大多為概述，其后的各章將分別論述很具體的內(nèi)容。那么，這類概述類的章節(jié)最適合作為碎片化對象，而其他表述具體內(nèi)容的章節(jié)，會因其只突出部分特定內(nèi)容，而造成與該內(nèi)容相關(guān)性高的誤判，所以不應(yīng)做這種選擇。還有一個要點值得注意，就是對于整個系統(tǒng)而言，選擇對象的原則只能有一個。

二、碎片化過程依據(jù)什么進行

即對內(nèi)容切分時應(yīng)依據(jù)什么標準。要想讓計算機像人一樣，在充分理解自然語言的基礎(chǔ)上，對文本進行合理切分，目前還有很長的路要走，這是計算語言學(xué)或人工智能研究的課題。但是，不完全理解并不代表不能切分，我們可以根據(jù)規(guī)則和經(jīng)驗，依據(jù)已有的資源，在掌握一定的自然語言規(guī)律的基礎(chǔ)上，完成基本正確的切分。雖然這種切分不是基于對自然語言的充分理解，會有一些歧義產(chǎn)生，但應(yīng)用實踐的結(jié)果表明，對于本文探討的以內(nèi)容檢索為目標的應(yīng)用，這種切分方式是可以滿足功能需求的，準確性是我們可接受的。我們在吸取前人經(jīng)驗的基礎(chǔ)上，實踐過兩種切分方式，并分別應(yīng)用于不同場合。

基于字符匹配的切分方法。即按照一定的策略，將對象文本中的漢字組合（字符串）與一個充分大的詞典中的詞條進行對照匹配，如果能在詞典中找到完全相同的字符串，就能識別出這個詞。當然，上述的取詞策略非常重要（以后還會談到）。

基于頻率統(tǒng)計的切分方法。直觀的看，字的穩(wěn)定組合就形成了詞，因此在上下文中，相鄰兩字同時出現(xiàn)（共現(xiàn)）的次數(shù)越多，就越有可能是詞。所以字與字相鄰共現(xiàn)的頻率能夠很好的反映它們成詞的可信度。實踐中，我們可以通過概率方法將這種相對頻度計算出來，當共現(xiàn)概率超過一定數(shù)值時，我們就認為這些字構(gòu)成了一個詞。這里有一個前提需要大家注意，就是用于計算共現(xiàn)概率的樣本文檔（我們稱之為語料庫），必須與我們產(chǎn)品的實際內(nèi)容相吻合，這一點很重要。

上述兩種方法為我們進行內(nèi)容信息的碎片化處理，提供了可行的依據(jù)和標準。

三、使用什么工具進行碎片化

在碎片化的方法和參數(shù)確定下來以后，我們就可以進行切分操作了，這里離不開兩個重要工具。

詞庫。這是切分時依據(jù)的標準。漢語詞匯是海量的，我們可以把它分為通用詞和專用詞兩大類，因而就需要有通用詞庫和專用（業(yè)）詞庫。一般通用詞庫可以選擇標準的或權(quán)威機構(gòu)提供的，詞匯量6萬-10萬個的基本可以夠用。

中文自動分詞系統(tǒng)。這是一個計算機文本處理的軟件工具。我們利用它在內(nèi)容切分過程中實現(xiàn)如下功能：將文本中兩個標點符號之間的漢字，按照我們定義的標準或規(guī)則，切分成若干個獨立的詞匯，并過濾掉其余無意義的單字，再將多次出現(xiàn)的詞匯合并，同時記錄下該詞出現(xiàn)的頻率。這樣，原本連續(xù)的文檔，就分解為若干獨立的詞匯及詞頻記錄，形象地表述就是被“碎片化”了。當然，上述切分是有不同方式的，從左向右的逐字取詞稱為正向匹配，而從右向左的稱為反向匹配，實踐表明，反向匹配的正確率高于正向匹配，歧義出現(xiàn)的也比較少。還有，根據(jù)取詞長度的不同，存在由最大匹配至最小匹配的多種組合方式。在最終決定采取何種切分策略時，應(yīng)本著在運算速度可接受的前提下，盡可能提高分詞質(zhì)量的原則，不過這可能需要反復(fù)進行摸索與評測。

四、碎片化的程度應(yīng)如何把握

搜索引擎的工作機制是將我們碎片化了的內(nèi)容，與用戶輸入的描述搜索條件的語句進行對比匹配，因而，也必須對該搜索條件語句進行碎片化。由于這些條件都是以自然語言形式表述的，所以，要做到完全正確的切分難度很大。一旦切分錯誤，將帶來后續(xù)檢索和判斷的一系列問題，無法保證搜素引擎的質(zhì)量。鑒于目前的計算機技術(shù)尚不能做到對自然語言的完全正確理解，所以，我們只能采取充分匹配的方法，窮盡從最小匹配至最大匹配的所有可能，而不漏掉任何一個詞。我們稱之為“多粒度”方法。當然，這個原則也必須同樣應(yīng)用到我們對內(nèi)容的碎片化上。之后的問題，就是如何確定最大匹配值，即最大詞長，這與我們的內(nèi)容有關(guān)。大多數(shù)情況下，到訪出版社網(wǎng)站的客戶，其對內(nèi)容的需求多是與該社出版領(lǐng)域相吻合的，就是說，用戶的搜索習(xí)慣與出版物的內(nèi)容特點是有相關(guān)性的。所以結(jié)論是，碎片化的程度，還要兼顧本社產(chǎn)品的內(nèi)容特點。

五、碎片化對搜索引擎性能的影響

碎片化是搜索引擎進行檢索和判斷的基礎(chǔ)和前提。經(jīng)過基本的碎片化加工以后，我們可以從出現(xiàn)頻率的角度，定量地考察各相關(guān)詞匯（稱為索引詞）與內(nèi)容的相關(guān)度，但實踐表明，這還不夠。由于我們并沒有對正文的全部進行碎片化處理，就忽略了章節(jié)內(nèi)容（長短不同）對圖書整體相關(guān)性產(chǎn)生的影響。因此，我們需要挖掘一些能夠定性描述圖書核心內(nèi)容的關(guān)鍵詞，來補償或校正這一影響。既然這些詞起的是定性作用，那么我們就要賦予其較大的權(quán)重，相當于它們所代表的內(nèi)容以高于平均值的頻率出現(xiàn)在總體內(nèi)容中。實踐證明，這一措施對提高搜索引擎的質(zhì)量做出了重要貢獻。那么，到哪里去提取這些描述圖書核心內(nèi)容的關(guān)鍵詞（也稱為特征項）呢？我們把焦點瞄準了網(wǎng)站的產(chǎn)品數(shù)據(jù)庫。經(jīng)篩選，我們把CIP關(guān)鍵詞、中圖法分類、自定義分類、作譯者名、書名、ISBN列為特征項，進行同樣的切分，并賦予高權(quán)重。因而，我們所講的碎片化是對所有內(nèi)容（包括定量的和定性的兩部分）而言的廣義碎片化。總而言之，碎片化的方式、對象和標準對搜索引擎的性能有重大影響。

六、碎片化是與內(nèi)容生產(chǎn)永久相伴的

碎片化加工不能一勞永逸，只要新書的生產(chǎn)不停頓，就不斷會有新的內(nèi)容，在經(jīng)過碎片化處理后，被加入到索引數(shù)據(jù)庫中，否則，搜索引擎就無法檢索到它們。正是由于這些新書不斷地出現(xiàn)在搜索引擎的結(jié)果列表中，網(wǎng)站的新書推薦有了新的途徑。因為在新書上市的初期，讀者在尚不了解新書信息的情況下，是不可能用書名去進行查詢的。而當他們進行主題搜索時，無意中發(fā)現(xiàn)了許多新書信息，這勢必引起讀者的關(guān)注，使他們產(chǎn)生閱讀的沖動。所以，碎片化處理已成為與新書發(fā)布同步的網(wǎng)站日常作業(yè)。同時，新書內(nèi)容中不斷涌現(xiàn)的新詞，也是我們豐富和完善專業(yè)詞庫的主要來源。

碎片化作為內(nèi)容結(jié)構(gòu)化處理的一種方式，是我們在出版社網(wǎng)站上的首次嘗試，還僅僅是一些探索和實踐。在其構(gòu)思、設(shè)計、測試、實施和運維的過程中，我們總結(jié)出如下三點基本經(jīng)驗。

專業(yè)詞庫建設(shè)，是最重要的基礎(chǔ)工作，必須持之以恒的做好。

詞庫是碎片化加工的必備工具，如果沒有專業(yè)詞庫，就無法保證具有自身特點的內(nèi)容被正確的切分，搜索引擎將顯得很不專業(yè)，無法發(fā)揮出版社網(wǎng)站的資源優(yōu)勢。而專業(yè)詞庫的建設(shè)可以有依據(jù)詞典生成、購買定型產(chǎn)品和基于語料庫的統(tǒng)計識別三種途徑。我們選擇的是第三種，即構(gòu)建自己的語料庫用于詞頻統(tǒng)計及篩選，該方法不僅花費少、影響因素少，而且能夠最大限度地利用本出版社的內(nèi)容資源，也最切合自身內(nèi)容特點，并且為以后的擴充和升級詞庫創(chuàng)造了條件。

必須結(jié)合出版社自身特點，并不斷總結(jié)經(jīng)驗，優(yōu)化完善。

任何新理論新技術(shù)，都不能拿來機械地直接使用，而必須考慮應(yīng)用對象的特點。出版社有自己的出版領(lǐng)域、產(chǎn)品特色、內(nèi)容特點、資源形式、數(shù)據(jù)結(jié)構(gòu)、人才優(yōu)勢，這些都是確定方案及參數(shù)的依據(jù)和基礎(chǔ)。關(guān)鍵在于如何與技術(shù)設(shè)計相結(jié)合，經(jīng)不斷總結(jié)經(jīng)驗、測試修改、優(yōu)化完善，一定可以達到實用化水平。但這是一個逐步實現(xiàn)的過程。

理論與實踐、信息技術(shù)與出版業(yè)務(wù)必須緊密結(jié)合。

信息技術(shù)飛速發(fā)展，我們應(yīng)不斷學(xué)習(xí)和掌握新的理論知識，同時又要敢于實踐，才能將創(chuàng)新思想轉(zhuǎn)化為創(chuàng)新實踐，從而推動行業(yè)的信息化水平不斷提高。同時，新技術(shù)的應(yīng)用還要找準突破點，在出版業(yè)務(wù)有需求、信息技術(shù)有可能的結(jié)合點上下功夫，就能夠取得成功。在開發(fā)過程中，既要有突破性的創(chuàng)新邏輯構(gòu)思，又要兼顧業(yè)務(wù)需求在模型算法中的合理實現(xiàn)。

網(wǎng)站信息的碎片化加工，是我們在內(nèi)容結(jié)構(gòu)化處理領(lǐng)域的一次嘗試，其目標是為搜索引擎提供結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ)，是在探索和實現(xiàn)計算機理解自然語言——這一宏偉愿景過程中的一次實踐探索。（作者單位系科學(xué)出版社）