亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “碎片化”在網(wǎng)站圖書檢索中的應(yīng)用

        2014-10-30 11:55:54金安
        出版參考 2014年18期
        關(guān)鍵詞:詞庫碎片化搜索引擎

        金安

        伴隨著讀者在互聯(lián)網(wǎng)上以自定義主題(詞組或短語)為條件,進行相關(guān)圖書信息搜索的需求越來越多,傳統(tǒng)的檢索方式由于不適應(yīng)自然語言的結(jié)構(gòu)而明顯落伍,用戶希望網(wǎng)站的搜索引擎,能夠提供基于內(nèi)容的、更新更快且更加完備的相關(guān)書目信息資源,這就對我們出版社網(wǎng)站的信息架構(gòu)——信息的組織方式和處理模式——提出了新的挑戰(zhàn)。

        我們知道,讀者自定義的搜索主題是用自然語言表述的,因而必然是由字和詞按一定規(guī)則構(gòu)成,當然還可能包含一些符號或標點。再觀察我們的圖書內(nèi)容,也同樣是由這些基本元素構(gòu)成的。要想在兩者之間建立起聯(lián)系,并尋找對應(yīng)關(guān)系,就應(yīng)當從這些基本單元入手。由于漢語中的詞比單個字具有更加完整的含義,所以我們把詞作為基本的構(gòu)成單元對待。將描述或構(gòu)成圖書內(nèi)容的文本,拆分成具有獨立含義的詞,是尋找內(nèi)容相關(guān)性的基本前提。而這一過程,就是我們所說的“碎片化”。那么,需要對哪些內(nèi)容對象進行碎片化?碎片化過程依據(jù)什么進行?使用什么工具進行碎片化?到底碎片化到什么程度?碎片化是如何影響搜索引擎性能的?碎片化加工可以一勞永逸嗎?本文分別來探討這些問題。

        一、碎片化對象選擇問題

        碎片化就是對文本進行切分,作為一種技術(shù)手段,其應(yīng)用對象的選擇一定要與功能目標相一致。所以,我們首先要選擇能夠最全面描述圖書內(nèi)容的文本,這就是章節(jié)目錄,其次是內(nèi)容簡介。因為目錄中有的詞,正文中一定有,而且多是比較重要的詞。這對于以內(nèi)容檢索為目的的相關(guān)性判斷,就可以達到基本要求了。當然,如果有全文,可以使檢索的范圍更全面,以致不漏掉任何一個詞,但同時也會使運算量成幾何級數(shù)的遞增,這一點與數(shù)字出版的要求不同,在線搜索功能對性能近乎苛求,所以我們未將正文列入切分范疇。還有,如果有樣章,我們可不可以將其作為碎片化對象呢?這要具體分析一下是什么樣的樣章。一般科技類圖書的第一章大多為概述,其后的各章將分別論述很具體的內(nèi)容。那么,這類概述類的章節(jié)最適合作為碎片化對象,而其他表述具體內(nèi)容的章節(jié),會因其只突出部分特定內(nèi)容,而造成與該內(nèi)容相關(guān)性高的誤判,所以不應(yīng)做這種選擇。還有一個要點值得注意,就是對于整個系統(tǒng)而言,選擇對象的原則只能有一個。

        二、碎片化過程依據(jù)什么進行

        即對內(nèi)容切分時應(yīng)依據(jù)什么標準。要想讓計算機像人一樣,在充分理解自然語言的基礎(chǔ)上,對文本進行合理切分,目前還有很長的路要走,這是計算語言學(xué)或人工智能研究的課題。但是,不完全理解并不代表不能切分,我們可以根據(jù)規(guī)則和經(jīng)驗,依據(jù)已有的資源,在掌握一定的自然語言規(guī)律的基礎(chǔ)上,完成基本正確的切分。雖然這種切分不是基于對自然語言的充分理解,會有一些歧義產(chǎn)生,但應(yīng)用實踐的結(jié)果表明,對于本文探討的以內(nèi)容檢索為目標的應(yīng)用,這種切分方式是可以滿足功能需求的,準確性是我們可接受的。我們在吸取前人經(jīng)驗的基礎(chǔ)上,實踐過兩種切分方式,并分別應(yīng)用于不同場合。

        基于字符匹配的切分方法。即按照一定的策略,將對象文本中的漢字組合(字符串)與一個充分大的詞典中的詞條進行對照匹配,如果能在詞典中找到完全相同的字符串,就能識別出這個詞。當然,上述的取詞策略非常重要(以后還會談到)。

        基于頻率統(tǒng)計的切分方法。直觀的看,字的穩(wěn)定組合就形成了詞,因此在上下文中,相鄰兩字同時出現(xiàn)(共現(xiàn))的次數(shù)越多,就越有可能是詞。所以字與字相鄰共現(xiàn)的頻率能夠很好的反映它們成詞的可信度。實踐中,我們可以通過概率方法將這種相對頻度計算出來,當共現(xiàn)概率超過一定數(shù)值時,我們就認為這些字構(gòu)成了一個詞。這里有一個前提需要大家注意,就是用于計算共現(xiàn)概率的樣本文檔(我們稱之為語料庫),必須與我們產(chǎn)品的實際內(nèi)容相吻合,這一點很重要。

        上述兩種方法為我們進行內(nèi)容信息的碎片化處理,提供了可行的依據(jù)和標準。

        三、使用什么工具進行碎片化

        在碎片化的方法和參數(shù)確定下來以后,我們就可以進行切分操作了,這里離不開兩個重要工具。

        詞庫。這是切分時依據(jù)的標準。漢語詞匯是海量的,我們可以把它分為通用詞和專用詞兩大類,因而就需要有通用詞庫和專用(業(yè))詞庫。一般通用詞庫可以選擇標準的或權(quán)威機構(gòu)提供的,詞匯量6萬-10萬個的基本可以夠用。

        中文自動分詞系統(tǒng)。這是一個計算機文本處理的軟件工具。我們利用它在內(nèi)容切分過程中實現(xiàn)如下功能:將文本中兩個標點符號之間的漢字,按照我們定義的標準或規(guī)則,切分成若干個獨立的詞匯,并過濾掉其余無意義的單字,再將多次出現(xiàn)的詞匯合并,同時記錄下該詞出現(xiàn)的頻率。這樣,原本連續(xù)的文檔,就分解為若干獨立的詞匯及詞頻記錄,形象地表述就是被“碎片化”了。當然,上述切分是有不同方式的,從左向右的逐字取詞稱為正向匹配,而從右向左的稱為反向匹配,實踐表明,反向匹配的正確率高于正向匹配,歧義出現(xiàn)的也比較少。還有,根據(jù)取詞長度的不同,存在由最大匹配至最小匹配的多種組合方式。在最終決定采取何種切分策略時,應(yīng)本著在運算速度可接受的前提下,盡可能提高分詞質(zhì)量的原則,不過這可能需要反復(fù)進行摸索與評測。

        四、碎片化的程度應(yīng)如何把握

        搜索引擎的工作機制是將我們碎片化了的內(nèi)容,與用戶輸入的描述搜索條件的語句進行對比匹配,因而,也必須對該搜索條件語句進行碎片化。由于這些條件都是以自然語言形式表述的,所以,要做到完全正確的切分難度很大。一旦切分錯誤,將帶來后續(xù)檢索和判斷的一系列問題,無法保證搜素引擎的質(zhì)量。鑒于目前的計算機技術(shù)尚不能做到對自然語言的完全正確理解,所以,我們只能采取充分匹配的方法,窮盡從最小匹配至最大匹配的所有可能,而不漏掉任何一個詞。我們稱之為“多粒度”方法。當然,這個原則也必須同樣應(yīng)用到我們對內(nèi)容的碎片化上。之后的問題,就是如何確定最大匹配值,即最大詞長,這與我們的內(nèi)容有關(guān)。大多數(shù)情況下,到訪出版社網(wǎng)站的客戶,其對內(nèi)容的需求多是與該社出版領(lǐng)域相吻合的,就是說,用戶的搜索習(xí)慣與出版物的內(nèi)容特點是有相關(guān)性的。所以結(jié)論是,碎片化的程度,還要兼顧本社產(chǎn)品的內(nèi)容特點。

        五、碎片化對搜索引擎性能的影響

        碎片化是搜索引擎進行檢索和判斷的基礎(chǔ)和前提。經(jīng)過基本的碎片化加工以后,我們可以從出現(xiàn)頻率的角度,定量地考察各相關(guān)詞匯(稱為索引詞)與內(nèi)容的相關(guān)度,但實踐表明,這還不夠。由于我們并沒有對正文的全部進行碎片化處理,就忽略了章節(jié)內(nèi)容(長短不同)對圖書整體相關(guān)性產(chǎn)生的影響。因此,我們需要挖掘一些能夠定性描述圖書核心內(nèi)容的關(guān)鍵詞,來補償或校正這一影響。既然這些詞起的是定性作用,那么我們就要賦予其較大的權(quán)重,相當于它們所代表的內(nèi)容以高于平均值的頻率出現(xiàn)在總體內(nèi)容中。實踐證明,這一措施對提高搜索引擎的質(zhì)量做出了重要貢獻。那么,到哪里去提取這些描述圖書核心內(nèi)容的關(guān)鍵詞(也稱為特征項)呢?我們把焦點瞄準了網(wǎng)站的產(chǎn)品數(shù)據(jù)庫。經(jīng)篩選,我們把CIP關(guān)鍵詞、中圖法分類、自定義分類、作譯者名、書名、ISBN列為特征項,進行同樣的切分,并賦予高權(quán)重。因而,我們所講的碎片化是對所有內(nèi)容(包括定量的和定性的兩部分)而言的廣義碎片化。總而言之,碎片化的方式、對象和標準對搜索引擎的性能有重大影響。

        六、碎片化是與內(nèi)容生產(chǎn)永久相伴的

        碎片化加工不能一勞永逸,只要新書的生產(chǎn)不停頓,就不斷會有新的內(nèi)容,在經(jīng)過碎片化處理后,被加入到索引數(shù)據(jù)庫中,否則,搜索引擎就無法檢索到它們。正是由于這些新書不斷地出現(xiàn)在搜索引擎的結(jié)果列表中,網(wǎng)站的新書推薦有了新的途徑。因為在新書上市的初期,讀者在尚不了解新書信息的情況下,是不可能用書名去進行查詢的。而當他們進行主題搜索時,無意中發(fā)現(xiàn)了許多新書信息,這勢必引起讀者的關(guān)注,使他們產(chǎn)生閱讀的沖動。所以,碎片化處理已成為與新書發(fā)布同步的網(wǎng)站日常作業(yè)。同時,新書內(nèi)容中不斷涌現(xiàn)的新詞,也是我們豐富和完善專業(yè)詞庫的主要來源。

        碎片化作為內(nèi)容結(jié)構(gòu)化處理的一種方式,是我們在出版社網(wǎng)站上的首次嘗試,還僅僅是一些探索和實踐。在其構(gòu)思、設(shè)計、測試、實施和運維的過程中,我們總結(jié)出如下三點基本經(jīng)驗。

        專業(yè)詞庫建設(shè),是最重要的基礎(chǔ)工作,必須持之以恒的做好。

        詞庫是碎片化加工的必備工具,如果沒有專業(yè)詞庫,就無法保證具有自身特點的內(nèi)容被正確的切分,搜索引擎將顯得很不專業(yè),無法發(fā)揮出版社網(wǎng)站的資源優(yōu)勢。而專業(yè)詞庫的建設(shè)可以有依據(jù)詞典生成、購買定型產(chǎn)品和基于語料庫的統(tǒng)計識別三種途徑。我們選擇的是第三種,即構(gòu)建自己的語料庫用于詞頻統(tǒng)計及篩選,該方法不僅花費少、影響因素少,而且能夠最大限度地利用本出版社的內(nèi)容資源,也最切合自身內(nèi)容特點,并且為以后的擴充和升級詞庫創(chuàng)造了條件。

        必須結(jié)合出版社自身特點,并不斷總結(jié)經(jīng)驗,優(yōu)化完善。

        任何新理論新技術(shù),都不能拿來機械地直接使用,而必須考慮應(yīng)用對象的特點。出版社有自己的出版領(lǐng)域、產(chǎn)品特色、內(nèi)容特點、資源形式、數(shù)據(jù)結(jié)構(gòu)、人才優(yōu)勢,這些都是確定方案及參數(shù)的依據(jù)和基礎(chǔ)。關(guān)鍵在于如何與技術(shù)設(shè)計相結(jié)合,經(jīng)不斷總結(jié)經(jīng)驗、測試修改、優(yōu)化完善,一定可以達到實用化水平。但這是一個逐步實現(xiàn)的過程。

        理論與實踐、信息技術(shù)與出版業(yè)務(wù)必須緊密結(jié)合。

        信息技術(shù)飛速發(fā)展,我們應(yīng)不斷學(xué)習(xí)和掌握新的理論知識,同時又要敢于實踐,才能將創(chuàng)新思想轉(zhuǎn)化為創(chuàng)新實踐,從而推動行業(yè)的信息化水平不斷提高。同時,新技術(shù)的應(yīng)用還要找準突破點,在出版業(yè)務(wù)有需求、信息技術(shù)有可能的結(jié)合點上下功夫,就能夠取得成功。在開發(fā)過程中,既要有突破性的創(chuàng)新邏輯構(gòu)思,又要兼顧業(yè)務(wù)需求在模型算法中的合理實現(xiàn)。

        網(wǎng)站信息的碎片化加工,是我們在內(nèi)容結(jié)構(gòu)化處理領(lǐng)域的一次嘗試,其目標是為搜索引擎提供結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ),是在探索和實現(xiàn)計算機理解自然語言——這一宏偉愿景過程中的一次實踐探索。 (作者單位系科學(xué)出版社)

        猜你喜歡
        詞庫碎片化搜索引擎
        微時代信息碎片化背景下大學(xué)生社會主義核心價值觀的塑造
        山東青年(2016年9期)2016-12-08 16:11:00
        淺析《生命冊》敘事策略
        青年時代(2016年20期)2016-12-08 13:28:44
        想象力都去哪了
        詞庫音系學(xué)的幾個理論問題芻議
        英語知識(2016年1期)2016-11-11 07:07:54
        微劇將成為視頻消費的主餐
        戲劇之家(2016年19期)2016-10-31 18:26:39
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        環(huán)境變了,詞庫別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        廣告主與搜索引擎的雙向博弈分析
        QQ手機輸入法如何導(dǎo)入分類詞庫
        電腦迷(2012年15期)2012-04-29 17:09:47
        欧美丰满熟妇bbb久久久| 国产一区二区丁香婷婷| 日本岛国一区二区三区| 羞涩色进入亚洲一区二区av | 最新日本久久中文字幕| 欧洲AV秘 无码一区二区三| 中文字幕亚洲无线码a| 99久久久精品国产性黑人| 久久AⅤ天堂Av无码AV| 人妻少妇精品一区二区三区| 国产精品一区二区蜜臀av| 亚洲高清一区二区精品| 黄色精品一区二区三区| 国产精品自产拍在线18禁| 91精品国产一区国产二区久久| 日本一区二区三级在线观看| 久久精品www人人爽人人| 欧美日韩精品乱国产| 熟女人妇 成熟妇女系列视频| 十八18禁国产精品www| 国产精品久久久久久久久免费| 无码国产一区二区三区四区| 精品国产三级a在线观看| 国产一级黄色录像| 国产亚洲日韩AV在线播放不卡| 色偷偷亚洲精品一区二区 | 亚洲码国产精品高潮在线 | 亚洲一区二区三区视频免费| 中文字日产幕码三区国产| 丰满女人猛烈进入视频免费网站 | 国产精品久久免费中文字幕| 国产激情艳情在线看视频| 蜜臀av 国内精品久久久| 狠狠色丁香久久婷婷综合蜜芽五月| 无码人妻丝袜在线视频| 一区二区三区在线视频免费观看| 一级a免费高清免在线| 一个少妇的淫片免费看| 国产成人亚洲精品| 最新亚洲av日韩av二区| 91网红福利精品区一区二|