金安
出版社網(wǎng)站建設(shè)的核心價(jià)值在于及時(shí)、全面、準(zhǔn)確地發(fā)布本社的圖書產(chǎn)品信息,并將其傳遞給目標(biāo)客戶,從而發(fā)揮網(wǎng)絡(luò)營銷作用。隨著出版社網(wǎng)站建設(shè)的深入,產(chǎn)品信息愈加豐富,網(wǎng)站建設(shè)水平將更多的體現(xiàn)在對(duì)信息的組織和其所提供的使用功能上,最終目標(biāo)是提高信息傳遞的效率。
對(duì)于一個(gè)大型的科技出版社,其產(chǎn)品涉及的學(xué)科門類紛繁,品種數(shù)量眾多,內(nèi)容層次不一;同時(shí),讀者群體遍布科學(xué)技術(shù)的各個(gè)領(lǐng)域,且專業(yè)分工明細(xì),但閱讀能力卻分布于不同層次。因此,讀者在尋找適合自己的圖書產(chǎn)品時(shí),就產(chǎn)生了“多對(duì)多”的矛盾,信息傳遞在此出現(xiàn)了“瓶頸”。如何突破這個(gè)“多對(duì)多”的瓶頸,實(shí)現(xiàn)“一對(duì)一”,即一位讀者一次性找到符合檢索定義的一類圖書產(chǎn)品的所有信息,成為本研究的目標(biāo)。
幾年來,我們圍繞網(wǎng)站信息組織和功能技術(shù)兩個(gè)方面開展工作,以期實(shí)現(xiàn)上述“一對(duì)一”的目標(biāo)。在信息組織方面,完成了產(chǎn)品分類與導(dǎo)航體系的建設(shè)。在功能技術(shù)方面,開展了搜索引擎應(yīng)用技術(shù)研究,并對(duì)網(wǎng)站內(nèi)容進(jìn)行了結(jié)構(gòu)化處理(碎片化)。這些實(shí)踐探索,已經(jīng)取得了初步成果。
傳統(tǒng)的圖書檢索方式,是基于已知書名的,不外乎書名查詢和組合查詢兩類。其中組合查詢需要明確的查詢條件,一般只適用于條件限制嚴(yán)格和已知信息較豐富的情況,其準(zhǔn)確性與查詢條件的多少成正相關(guān),在并不確知書名或其他條件信息的情況下就不適用;且如果查詢條件之一輸入有誤,就得不到預(yù)期的結(jié)果,因此有較大局限性。而書名查詢又因?yàn)橛幸韵聝深悊栴},而存在較大的不確定性。
書名中不一定包含內(nèi)容主題,或是書名與內(nèi)容無直接關(guān)聯(lián)。例如《誰動(dòng)了我的奶酪》并不是一本關(guān)于食品的書,而《國家健康報(bào)告》也與體檢或醫(yī)療無關(guān)。此外,還有許多專業(yè)性的詞匯也不會(huì)出現(xiàn)在書名中,因?yàn)樵诖_定書名時(shí)需要考慮有較廣泛的讀者覆蓋。
書名中的一些連接字(或符號(hào))輸入的不準(zhǔn)確,會(huì)導(dǎo)致檢索沒有結(jié)果,盡管這些并非關(guān)鍵字,如“和、與、及、的”等以及“破折號(hào)(——)、頓號(hào)(、)、冒號(hào)(:) ”等。
出版社的生存與發(fā)展主要依靠新的出版物,因此出版社網(wǎng)站的宣傳營銷工作應(yīng)該主要圍繞新書展開,所以新書推介功能就顯得尤為重要。但這與已知書名的傳統(tǒng)查詢方式產(chǎn)生了矛盾。如何響應(yīng)讀者基于內(nèi)容主題(而不是書名)的檢索需求,并能夠快速地提供相關(guān)度很高的查詢結(jié)果,是我們潛心鉆研的課題。為此,我們開發(fā)了自己的圖書搜索引擎。
圖書搜索引擎是一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng),它能夠接受用戶通過瀏覽器提交的搜索文本(詞組或短語),在可接受的時(shí)間內(nèi)返回一個(gè)與該用戶搜索匹配的網(wǎng)頁信息列表,這個(gè)列表中的每一個(gè)條目至少包含書名及其網(wǎng)址鏈接,同時(shí)依其相關(guān)程度自動(dòng)排序。
搜索引擎技術(shù)在大型電子商務(wù)網(wǎng)站應(yīng)用的比較普遍,但在出版社網(wǎng)站上卻幾乎沒有看到,讀者比較在這兩類網(wǎng)站上的購書體驗(yàn)時(shí),明顯感到出版社網(wǎng)站的功能落后。其實(shí),到訪出版社網(wǎng)站的人,大多是受到出版社品牌感召的忠實(shí)讀者,奔著獲得更具專業(yè)特色的經(jīng)典圖書而來。為他們提供優(yōu)質(zhì)高效的檢索工具和服務(wù),不僅是出版社品牌的直接體現(xiàn),更起到了留住這部分忠實(shí)讀者,同時(shí)減少潛在客戶流失的“吸附”作用。努力提高網(wǎng)站的“粘度”是我們的重要理念之一,開發(fā)適用于出版社網(wǎng)站的圖書搜索引擎,是該理念指導(dǎo)下的一個(gè)重要技術(shù)措施。這項(xiàng)工作有三個(gè)關(guān)鍵要素:
匹配——相關(guān)性評(píng)價(jià)。即如何定義和評(píng)價(jià)我們認(rèn)為內(nèi)容與搜索條件匹配的那些圖書與該搜索條件之間的相關(guān)性程度。這種評(píng)價(jià)必須是量化的,否則將無法進(jìn)行精確的比較判斷。將書的內(nèi)容(及其他屬性)納入搜索范圍比僅從書名中搜索,準(zhǔn)確程度有了質(zhì)的飛躍,這是決定搜索質(zhì)量的關(guān)鍵要素。量化算法隨之成為搜索引擎的技術(shù)核心。
可接受的時(shí)間——響應(yīng)時(shí)間。對(duì)于在Web上向廣大用戶提供服務(wù)的軟件來說,響應(yīng)時(shí)間不能太長,通??梢越邮艿牧考?jí)是“秒”級(jí)。
取詞——自動(dòng)分詞(切詞)處理。用戶的搜索條件一般是詞的組合或自然語言短語,搜索引擎必須理解這些對(duì)搜索條件的描述。但是漢語不同于英語,英語的詞與詞之間以空格分開,漢語的詞之間沒有分隔符,這對(duì)計(jì)算機(jī)處理造成了困難,所以必須使用中文信息處理系統(tǒng)——自動(dòng)分詞系統(tǒng),才能將一串字符分解為若干規(guī)范化的主題詞,同時(shí)也過濾掉當(dāng)中的無價(jià)值字符。同理,對(duì)圖書內(nèi)容的加工處理也是如此。
由此可知,應(yīng)用搜索引擎技術(shù),必須首先對(duì)網(wǎng)站的圖書內(nèi)容等信息,進(jìn)行結(jié)構(gòu)化的加工處理,就是大家常說的“碎片化”,這是不可或缺的基礎(chǔ)性工作。
下面談?wù)勊阉饕娴降资侨绾喂ぷ鞯?,大家就知道它為什么能夠大幅提高搜索的質(zhì)量和效率了。其工作流程依次分為三個(gè)步驟:
信息采集。相對(duì)于流通領(lǐng)域的電商網(wǎng)站而言,出版社網(wǎng)站具有得天獨(dú)厚的內(nèi)容資源優(yōu)勢,可用于支持自己產(chǎn)品的精確定義。這其中不僅包括內(nèi)容簡介、章節(jié)目錄、樣章(甚至全文)等可以用于詞頻的定量計(jì)算,還有CIP數(shù)據(jù)中的主題詞、分類號(hào),以及作者名、自定義分類名等定性資源,這些資源可以為相關(guān)性評(píng)價(jià)提供完整的數(shù)據(jù)支持。因此,廣泛地采集這些信息,充分利用本社產(chǎn)品的數(shù)據(jù)資源,構(gòu)建全方位的評(píng)價(jià)體系,是保證和提高搜索引擎質(zhì)量的基礎(chǔ)與前提。同時(shí),通過保持較高的采集頻率,及時(shí)將新書信息抓取入庫,還可以達(dá)到宣傳推廣新書的目的。
預(yù)處理。這是生成中間數(shù)據(jù)的準(zhǔn)備過程,也是運(yùn)算量最大的階段,包括建立內(nèi)容索引庫和倒排索引表。其工作過程是將一本書的可取內(nèi)容和屬性信息,轉(zhuǎn)化為一組權(quán)重不同的索引詞的集合,然后將書到索引詞的映射轉(zhuǎn)化為索引詞到書的映射,生成倒排文件(包括倒排表和索引詞表),用于下一步的檢索服務(wù)。其中由內(nèi)容到索引詞集合的轉(zhuǎn)化,就是我們說的“碎片化”。這一過程既需要中文自動(dòng)分詞技術(shù)的支持,也需要對(duì)分詞對(duì)象選擇和權(quán)重設(shè)置等具有一定的經(jīng)驗(yàn)。
檢索服務(wù)。這是直接與用戶交互的過程,也是限制搜索引擎性能的瓶頸。該過程包括四個(gè)環(huán)節(jié):接受用戶輸入的搜索主題詞或短語,運(yùn)行檢索并獲得相應(yīng)的匹配結(jié)果,計(jì)算評(píng)價(jià)匹配者的相關(guān)性程度,最后依次顯示給用戶。即,首先對(duì)用戶輸入的搜索語句進(jìn)行切分取詞,然后分別從索引詞表和倒排索引表中檢索出包含這些主題詞的圖書記錄,再依據(jù)各主題詞的權(quán)重進(jìn)行量化計(jì)算和匯總比較,從而確定所有可匹配圖書的相關(guān)性程度排序,最后生成有序的結(jié)果列表頁面顯示給用戶。其中起決定性作用的是相關(guān)性評(píng)價(jià)算法,它的優(yōu)劣直接關(guān)系到搜索引擎的質(zhì)量和效率。
評(píng)價(jià)算法與出版物的特性及內(nèi)容有密切關(guān)系,需要結(jié)合本社特點(diǎn)反復(fù)調(diào)試,通過不斷優(yōu)化,一定可以摸索出最具本社產(chǎn)品特色的算法模型。下面介紹一下我社建立相關(guān)性評(píng)價(jià)算法模型的思路與經(jīng)驗(yàn):
該模型采用計(jì)分方式,依得分多少分段排序。得分的計(jì)算是依據(jù)所匹配詞的詞頻和權(quán)重,分級(jí)的依據(jù)是匹配度,是根據(jù)經(jīng)驗(yàn)修正后建立起來的統(tǒng)計(jì)模型。
首先,根據(jù)出版社網(wǎng)站的產(chǎn)品數(shù)據(jù)結(jié)構(gòu)和功能架構(gòu),采集盡可能多的可用于描述圖書內(nèi)容的信息,如章節(jié)目錄、內(nèi)容簡介、樣章、CIP數(shù)據(jù)中的主題詞和分類號(hào)、作譯者名、自定義分類名等,并將它們分為定量詞和定性詞兩類,分別賦予不同的權(quán)重,而具體的權(quán)重值需根據(jù)經(jīng)驗(yàn)不斷修正,一個(gè)基本原則是定性詞的權(quán)重分略高于定量詞最高詞頻的平均值。
然后,計(jì)算出所匹配詞的權(quán)重與詞頻的乘積之和,同時(shí)記錄下匹配度——匹配詞數(shù)與輸入分詞總數(shù)之比,再依據(jù)這兩項(xiàng)數(shù)據(jù)進(jìn)行綜合評(píng)價(jià),得到相關(guān)性分級(jí)結(jié)果列表,即匹配度為100%的按得分由高到低在前面依次排列,匹配度低于100%的也依得分多少,但排在后面。
這一模型從我社自身內(nèi)容特點(diǎn)出發(fā),經(jīng)反復(fù)修正和優(yōu)化,已經(jīng)達(dá)到如下三點(diǎn)設(shè)計(jì)目標(biāo):
保證相關(guān)度高的圖書全部出現(xiàn)在列表的第1-2頁;
在線使用時(shí),每次檢索耗時(shí)0.5-2秒,平均耗時(shí)1秒;
相關(guān)度排序基本與客觀實(shí)際一致。
搜索引擎技術(shù)的應(yīng)用開發(fā),至能夠成功上線運(yùn)行的程度,還只是完成了基本任務(wù)。其后續(xù)的優(yōu)化和運(yùn)行維護(hù)工作還有許多,這項(xiàng)長期性工作主要包括兩個(gè)方面:
新書入庫和新詞識(shí)別。不斷地推出新書,是出版社網(wǎng)站的任務(wù)使命。除了在相關(guān)頻道進(jìn)行宣傳推薦以外,能夠及時(shí)出現(xiàn)在搜索引擎的結(jié)果列表中,也是很有推薦意義的。這就需要我們的預(yù)處理工作必須與新書上線同步進(jìn)行,如果網(wǎng)站每天都有新書發(fā)布,那么,預(yù)處理工作就需要每天進(jìn)行。由于預(yù)處理的運(yùn)算量非常之大,所以一般應(yīng)安排在夜間自動(dòng)運(yùn)行。以我社在庫品種為例,預(yù)處理得到的索引記錄已達(dá)350多萬條。同時(shí),新書中涌現(xiàn)的新詞也十分重要,只有及時(shí)地將這些新詞識(shí)別出來,才能保證以后此類新書的內(nèi)容可以被正確切分。
算法和權(quán)重值的不斷優(yōu)化。隨著社會(huì)和科技進(jìn)步以及出版社的發(fā)展,出版領(lǐng)域?qū)⒉粩鄶U(kuò)展。而每當(dāng)出版物涉及一個(gè)新的范疇以后,必然帶來內(nèi)容結(jié)構(gòu)和特點(diǎn)的變化。因此之前確定的算法、參數(shù)、權(quán)重值等都需要同步進(jìn)行適應(yīng)性調(diào)整。另外,隨著信息技術(shù)和人工智能的發(fā)展,算法和建模理論正在迅速完善和提高過程中,這將給我們提供許多指導(dǎo)和借鑒,優(yōu)化工作就有了方向。所以,運(yùn)維工作的另一方面內(nèi)容就是應(yīng)當(dāng)根據(jù)產(chǎn)品結(jié)構(gòu)的變化及技術(shù)的發(fā)展,適時(shí)地對(duì)搜索引擎的效果和效率做出評(píng)價(jià),以選擇時(shí)機(jī)進(jìn)行優(yōu)化升級(jí),使其不斷完善和提高。
出版社網(wǎng)站的圖書搜索引擎技術(shù)開發(fā),是我社在數(shù)字出版理念指導(dǎo)下,進(jìn)行的一次改善讀者產(chǎn)品搜索體驗(yàn)的實(shí)踐,從中積累了經(jīng)驗(yàn),達(dá)到了預(yù)期目的。但同時(shí)也感到,還有許多可以繼續(xù)努力提高的空間,隨著信息技術(shù)的進(jìn)步以及各方面條件的完善,我們有信心取得新的飛躍。
(作者單位系科學(xué)出版社)