金安
伴隨著讀者在互聯(lián)網(wǎng)上以自定義主題(詞組或短語)為條件,進行相關(guān)圖書信息搜索的需求越來越多,傳統(tǒng)的檢索方式由于不適應(yīng)自然語言的結(jié)構(gòu)而明顯落伍,用戶希望網(wǎng)站的搜索引擎,能夠提供基于內(nèi)容的、更新更快且更加完備的相關(guān)書目信息資源,這就對我們出版社網(wǎng)站的信息架構(gòu)——信息的組織方式和處理模式——提出了新的挑戰(zhàn)。
我們知道,讀者自定義的搜索主題是用自然語言表述的,因而必然是由字和詞按一定規(guī)則構(gòu)成,當然還可能包含一些符號或標點。再觀察我們的圖書內(nèi)容,也同樣是由這些基本元素構(gòu)成的。要想在兩者之間建立起聯(lián)系,并尋找對應(yīng)關(guān)系,就應(yīng)當從這些基本單元入手。由于漢語中的詞比單個字具有更加完整的含義,所以我們把詞作為基本的構(gòu)成單元對待。將描述或構(gòu)成圖書內(nèi)容的文本,拆分成具有獨立含義的詞,是尋找內(nèi)容相關(guān)性的基本前提。而這一過程,就是我們所說的“碎片化”。那么,需要對哪些內(nèi)容對象進行碎片化?碎片化過程依據(jù)什么進行?使用什么工具進行碎片化?到底碎片化到什么程度?碎片化是如何影響搜索引擎性能的?碎片化加工可以一勞永逸嗎?本文分別來探討這些問題。
一、碎片化對象選擇問題
碎片化就是對文本進行切分,作為一種技術(shù)手段,其應(yīng)用對象的選擇一定要與功能目標相一致。所以,我們首先要選擇能夠最全面描述圖書內(nèi)容的文本,這就是章節(jié)目錄,其次是內(nèi)容簡介。因為目錄中有的詞,正文中一定有,而且多是比較重要的詞。這對于以內(nèi)容檢索為目的的相關(guān)性判斷,就可以達到基本要求了。當然,如果有全文,可以使檢索的范圍更全面,以致不漏掉任何一個詞,但同時也會使運算量成幾何級數(shù)的遞增,這一點與數(shù)字出版的要求不同,在線搜索功能對性能近乎苛求,所以我們未將正文列入切分范疇。還有,如果有樣章,我們可不可以將其作為碎片化對象呢?這要具體分析一下是什么樣的樣章。一般科技類圖書的第一章大多為概述,其后的各章將分別論述很具體的內(nèi)容。那么,這類概述類的章節(jié)最適合作為碎片化對象,而其他表述具體內(nèi)容的章節(jié),會因其只突出部分特定內(nèi)容,而造成與該內(nèi)容相關(guān)性高的誤判,所以不應(yīng)做這種選擇。還有一個要點值得注意,就是對于整個系統(tǒng)而言,選擇對象的原則只能有一個。
二、碎片化過程依據(jù)什么進行
即對內(nèi)容切分時應(yīng)依據(jù)什么標準。要想讓計算機像人一樣,在充分理解自然語言的基礎(chǔ)上,對文本進行合理切分,目前還有很長的路要走,這是計算語言學(xué)或人工智能研究的課題。但是,不完全理解并不代表不能切分,我們可以根據(jù)規(guī)則和經(jīng)驗,依據(jù)已有的資源,在掌握一定的自然語言規(guī)律的基礎(chǔ)上,完成基本正確的切分。雖然這種切分不是基于對自然語言的充分理解,會有一些歧義產(chǎn)生,但應(yīng)用實踐的結(jié)果表明,對于本文探討的以內(nèi)容檢索為目標的應(yīng)用,這種切分方式是可以滿足功能需求的,準確性是我們可接受的。我們在吸取前人經(jīng)驗的基礎(chǔ)上,實踐過兩種切分方式,并分別應(yīng)用于不同場合。
基于字符匹配的切分方法。即按照一定的策略,將對象文本中的漢字組合(字符串)與一個充分大的詞典中的詞條進行對照匹配,如果能在詞典中找到完全相同的字符串,就能識別出這個詞。當然,上述的取詞策略非常重要(以后還會談到)。
基于頻率統(tǒng)計的切分方法。直觀的看,字的穩(wěn)定組合就形成了詞,因此在上下文中,相鄰兩字同時出現(xiàn)(共現(xiàn))的次數(shù)越多,就越有可能是詞。所以字與字相鄰共現(xiàn)的頻率能夠很好的反映它們成詞的可信度。實踐中,我們可以通過概率方法將這種相對頻度計算出來,當共現(xiàn)概率超過一定數(shù)值時,我們就認為這些字構(gòu)成了一個詞。這里有一個前提需要大家注意,就是用于計算共現(xiàn)概率的樣本文檔(我們稱之為語料庫),必須與我們產(chǎn)品的實際內(nèi)容相吻合,這一點很重要。
上述兩種方法為我們進行內(nèi)容信息的碎片化處理,提供了可行的依據(jù)和標準。
三、使用什么工具進行碎片化
在碎片化的方法和參數(shù)確定下來以后,我們就可以進行切分操作了,這里離不開兩個重要工具。
詞庫。這是切分時依據(jù)的標準。漢語詞匯是海量的,我們可以把它分為通用詞和專用詞兩大類,因而就需要有通用詞庫和專用(業(yè))詞庫。一般通用詞庫可以選擇標準的或權(quán)威機構(gòu)提供的,詞匯量6萬-10萬個的基本可以夠用。
中文自動分詞系統(tǒng)。這是一個計算機文本處理的軟件工具。我們利用它在內(nèi)容切分過程中實現(xiàn)如下功能:將文本中兩個標點符號之間的漢字,按照我們定義的標準或規(guī)則,切分成若干個獨立的詞匯,并過濾掉其余無意義的單字,再將多次出現(xiàn)的詞匯合并,同時記錄下該詞出現(xiàn)的頻率。這樣,原本連續(xù)的文檔,就分解為若干獨立的詞匯及詞頻記錄,形象地表述就是被“碎片化”了。當然,上述切分是有不同方式的,從左向右的逐字取詞稱為正向匹配,而從右向左的稱為反向匹配,實踐表明,反向匹配的正確率高于正向匹配,歧義出現(xiàn)的也比較少。還有,根據(jù)取詞長度的不同,存在由最大匹配至最小匹配的多種組合方式。在最終決定采取何種切分策略時,應(yīng)本著在運算速度可接受的前提下,盡可能提高分詞質(zhì)量的原則,不過這可能需要反復(fù)進行摸索與評測。
四、碎片化的程度應(yīng)如何把握
搜索引擎的工作機制是將我們碎片化了的內(nèi)容,與用戶輸入的描述搜索條件的語句進行對比匹配,因而,也必須對該搜索條件語句進行碎片化。由于這些條件都是以自然語言形式表述的,所以,要做到完全正確的切分難度很大。一旦切分錯誤,將帶來后續(xù)檢索和判斷的一系列問題,無法保證搜素引擎的質(zhì)量。鑒于目前的計算機技術(shù)尚不能做到對自然語言的完全正確理解,所以,我們只能采取充分匹配的方法,窮盡從最小匹配至最大匹配的所有可能,而不漏掉任何一個詞。我們稱之為“多粒度”方法。當然,這個原則也必須同樣應(yīng)用到我們對內(nèi)容的碎片化上。之后的問題,就是如何確定最大匹配值,即最大詞長,這與我們的內(nèi)容有關(guān)。大多數(shù)情況下,到訪出版社網(wǎng)站的客戶,其對內(nèi)容的需求多是與該社出版領(lǐng)域相吻合的,就是說,用戶的搜索習(xí)慣與出版物的內(nèi)容特點是有相關(guān)性的。所以結(jié)論是,碎片化的程度,還要兼顧本社產(chǎn)品的內(nèi)容特點。
五、碎片化對搜索引擎性能的影響
碎片化是搜索引擎進行檢索和判斷的基礎(chǔ)和前提。經(jīng)過基本的碎片化加工以后,我們可以從出現(xiàn)頻率的角度,定量地考察各相關(guān)詞匯(稱為索引詞)與內(nèi)容的相關(guān)度,但實踐表明,這還不夠。由于我們并沒有對正文的全部進行碎片化處理,就忽略了章節(jié)內(nèi)容(長短不同)對圖書整體相關(guān)性產(chǎn)生的影響。因此,我們需要挖掘一些能夠定性描述圖書核心內(nèi)容的關(guān)鍵詞,來補償或校正這一影響。既然這些詞起的是定性作用,那么我們就要賦予其較大的權(quán)重,相當于它們所代表的內(nèi)容以高于平均值的頻率出現(xiàn)在總體內(nèi)容中。實踐證明,這一措施對提高搜索引擎的質(zhì)量做出了重要貢獻。那么,到哪里去提取這些描述圖書核心內(nèi)容的關(guān)鍵詞(也稱為特征項)呢?我們把焦點瞄準了網(wǎng)站的產(chǎn)品數(shù)據(jù)庫。經(jīng)篩選,我們把CIP關(guān)鍵詞、中圖法分類、自定義分類、作譯者名、書名、ISBN列為特征項,進行同樣的切分,并賦予高權(quán)重。因而,我們所講的碎片化是對所有內(nèi)容(包括定量的和定性的兩部分)而言的廣義碎片化。總而言之,碎片化的方式、對象和標準對搜索引擎的性能有重大影響。
六、碎片化是與內(nèi)容生產(chǎn)永久相伴的
碎片化加工不能一勞永逸,只要新書的生產(chǎn)不停頓,就不斷會有新的內(nèi)容,在經(jīng)過碎片化處理后,被加入到索引數(shù)據(jù)庫中,否則,搜索引擎就無法檢索到它們。正是由于這些新書不斷地出現(xiàn)在搜索引擎的結(jié)果列表中,網(wǎng)站的新書推薦有了新的途徑。因為在新書上市的初期,讀者在尚不了解新書信息的情況下,是不可能用書名去進行查詢的。而當他們進行主題搜索時,無意中發(fā)現(xiàn)了許多新書信息,這勢必引起讀者的關(guān)注,使他們產(chǎn)生閱讀的沖動。所以,碎片化處理已成為與新書發(fā)布同步的網(wǎng)站日常作業(yè)。同時,新書內(nèi)容中不斷涌現(xiàn)的新詞,也是我們豐富和完善專業(yè)詞庫的主要來源。
碎片化作為內(nèi)容結(jié)構(gòu)化處理的一種方式,是我們在出版社網(wǎng)站上的首次嘗試,還僅僅是一些探索和實踐。在其構(gòu)思、設(shè)計、測試、實施和運維的過程中,我們總結(jié)出如下三點基本經(jīng)驗。
專業(yè)詞庫建設(shè),是最重要的基礎(chǔ)工作,必須持之以恒的做好。
詞庫是碎片化加工的必備工具,如果沒有專業(yè)詞庫,就無法保證具有自身特點的內(nèi)容被正確的切分,搜索引擎將顯得很不專業(yè),無法發(fā)揮出版社網(wǎng)站的資源優(yōu)勢。而專業(yè)詞庫的建設(shè)可以有依據(jù)詞典生成、購買定型產(chǎn)品和基于語料庫的統(tǒng)計識別三種途徑。我們選擇的是第三種,即構(gòu)建自己的語料庫用于詞頻統(tǒng)計及篩選,該方法不僅花費少、影響因素少,而且能夠最大限度地利用本出版社的內(nèi)容資源,也最切合自身內(nèi)容特點,并且為以后的擴充和升級詞庫創(chuàng)造了條件。
必須結(jié)合出版社自身特點,并不斷總結(jié)經(jīng)驗,優(yōu)化完善。
任何新理論新技術(shù),都不能拿來機械地直接使用,而必須考慮應(yīng)用對象的特點。出版社有自己的出版領(lǐng)域、產(chǎn)品特色、內(nèi)容特點、資源形式、數(shù)據(jù)結(jié)構(gòu)、人才優(yōu)勢,這些都是確定方案及參數(shù)的依據(jù)和基礎(chǔ)。關(guān)鍵在于如何與技術(shù)設(shè)計相結(jié)合,經(jīng)不斷總結(jié)經(jīng)驗、測試修改、優(yōu)化完善,一定可以達到實用化水平。但這是一個逐步實現(xiàn)的過程。
理論與實踐、信息技術(shù)與出版業(yè)務(wù)必須緊密結(jié)合。
信息技術(shù)飛速發(fā)展,我們應(yīng)不斷學(xué)習(xí)和掌握新的理論知識,同時又要敢于實踐,才能將創(chuàng)新思想轉(zhuǎn)化為創(chuàng)新實踐,從而推動行業(yè)的信息化水平不斷提高。同時,新技術(shù)的應(yīng)用還要找準突破點,在出版業(yè)務(wù)有需求、信息技術(shù)有可能的結(jié)合點上下功夫,就能夠取得成功。在開發(fā)過程中,既要有突破性的創(chuàng)新邏輯構(gòu)思,又要兼顧業(yè)務(wù)需求在模型算法中的合理實現(xiàn)。
網(wǎng)站信息的碎片化加工,是我們在內(nèi)容結(jié)構(gòu)化處理領(lǐng)域的一次嘗試,其目標是為搜索引擎提供結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ),是在探索和實現(xiàn)計算機理解自然語言——這一宏偉愿景過程中的一次實踐探索。 (作者單位系科學(xué)出版社)