亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Solr和Mahout在線資訊自動(dòng)分類與全文搜索引擎的實(shí)現(xiàn)

        2013-05-11 06:15:02熊立波
        中國(guó)傳媒科技 2013年17期
        關(guān)鍵詞:全文檢索資訊開源

        文|熊立波

        在當(dāng)前信息爆炸式增長(zhǎng)的時(shí)代,用戶對(duì)信息服務(wù)的需求已經(jīng)從信息匯聚為主的廣播式服務(wù)逐漸過渡到要求提供按需、定制化、定向的集成化信息服務(wù)。用戶要求能按照其特定的業(yè)務(wù)需求,對(duì)信息進(jìn)行預(yù)加工、過濾后,提供給他們精品化的“干貨”。這對(duì)我們通訊社的信息服務(wù)方式也提出了新的要求。在大數(shù)據(jù)時(shí)代,信息量呈幾何方式增長(zhǎng),同時(shí)我們也積累了大量的歷史資訊數(shù)據(jù),如果不能對(duì)信息進(jìn)行合理的分類,我們就不能按用戶的需求提供給他們需要的信息。但是,如果這些數(shù)據(jù)都按照傳統(tǒng)的人工方式,通過記者和編輯對(duì)所有信息進(jìn)行分類、加工,不僅成本巨大,而且信息加工的效率也不能滿足用戶對(duì)信息時(shí)效性的要求。當(dāng)前,信息智能分析處理技術(shù),特別是針對(duì)于中文的資訊智能處理技術(shù)已經(jīng)有了快速的發(fā)展。通過技術(shù)創(chuàng)新,構(gòu)建資訊自動(dòng)預(yù)處理系統(tǒng),減少人工成本,提高信息生產(chǎn)效率和服務(wù)能力是我們的必經(jīng)之路。

        文本自動(dòng)分類與全文檢索技術(shù)

        文本自動(dòng)分類技術(shù)

        文本自動(dòng)分類技術(shù)(textcategorization)主要指的是依靠基于機(jī)器學(xué)習(xí)的文本分類算法,在預(yù)先給定的類別標(biāo)記(Label)集合下,根據(jù)文本內(nèi)容判定它所屬的類別。

        目前應(yīng)用比較成熟的機(jī)器學(xué)習(xí)算法主要是基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)和分類算法,統(tǒng)計(jì)學(xué)習(xí)方法的基本思想就是讓機(jī)器像人類一樣通過對(duì)大量已經(jīng)分類好的同類文檔的觀察來學(xué)習(xí)并總結(jié)經(jīng)驗(yàn),作為今后分類的依據(jù)。統(tǒng)計(jì)學(xué)習(xí)方法需要一批由人工預(yù)先進(jìn)行了準(zhǔn)確分類的文檔作為學(xué)習(xí)的材料,計(jì)算機(jī)從這些文檔中挖掘出一些能夠有效分類的規(guī)則,這個(gè)過程被形象的稱為“訓(xùn)練”。訓(xùn)練總結(jié)出的規(guī)則集合常常被稱為分類器。訓(xùn)練完成之后,需要對(duì)計(jì)算機(jī)使用這些訓(xùn)練出來的分類器對(duì)從來沒有見過的文檔進(jìn)行分類。目前應(yīng)用比較普遍的分類算法主要包括樸素貝葉斯(naive bayes),KNN算法和支持向量機(jī)(SVM, Support Vector Machine)等統(tǒng)計(jì)算法。本文主要采用的是樸素貝葉斯算法,主要原因是樸素貝葉斯算法相對(duì)簡(jiǎn)單又有較好的準(zhǔn)確度,執(zhí)行效率高,便于實(shí)現(xiàn)對(duì)資訊文本進(jìn)行在線實(shí)時(shí)的分類。

        文本全文檢索技術(shù)

        全文檢索是指計(jì)算機(jī)索引程序通過掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶的檢索方式。這個(gè)過程類似于通過字典中的檢索字表查字的過程。

        全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢索是指對(duì)于文章中的每一個(gè)字都建立索引,檢索時(shí)將詞分解為字的組合。對(duì)于各種不同的語言而言,字有不同的含義,比如英文中字與詞實(shí)際上是合一的,而中文中字與詞有很大分別。按詞檢索指對(duì)文章中的詞,即語義單位建立索引,檢索時(shí)按詞檢索,并且可以處理同義項(xiàng)等。英文等西方文字由于按照空白切分詞,因此實(shí)現(xiàn)上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達(dá)到按詞索引的目的,所以分詞器的好壞和效率往往在很大程序上影響全文檢索的準(zhǔn)確性和效率,本文使用的IKanalyzer開源中文分詞器是目前使用比較普遍,效率也較高的開源中文分詞器。

        Apache Mahout與Apache Solr

        Apache Mahout是Apache Software Foundation(ASF)旗下的一個(gè)開源項(xiàng)目,提供了一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)。經(jīng)典算法包括聚類、分類、協(xié)同過濾、進(jìn)化編程等等。Mahout的中文意思是“大象的訓(xùn)練師”,而“大象”正是Hadoop的符號(hào),正如Mahout名稱所表達(dá)的意思,Mahout可以構(gòu)架在Hadoop架構(gòu)上,從而實(shí)現(xiàn)對(duì)大數(shù)據(jù)進(jìn)行分布式,可擴(kuò)展的并行計(jì)算。Mahout提供的開源分類算法中包含了樸素貝葉斯算法的Java實(shí)現(xiàn)。

        Apache Solr同樣也是Apache Software Foundation(ASF)旗下面向企業(yè)的開源搜索服務(wù)器,其核心構(gòu)架在Lucene框架之上,面向企業(yè)應(yīng)用,提供了基于HTTP Web接口的完整的全文檢索、高亮顯示、切片搜索(facet)等全文搜索功能。

        在線自動(dòng)分類全文檢索系統(tǒng)的實(shí)現(xiàn)

        統(tǒng)架構(gòu)設(shè)計(jì)

        系統(tǒng)的主要目標(biāo)是能在線實(shí)時(shí)的對(duì)新入庫(kù)的資訊文本數(shù)據(jù)進(jìn)行自動(dòng)的預(yù)分類和標(biāo)引,要能夠在線實(shí)時(shí)的被分類、標(biāo)引和全文索引入庫(kù),使用戶能即時(shí)檢索到新入庫(kù)的資訊。

        資訊分類的流程主要包括“學(xué)習(xí)分類”,“全文索引”和“檢索界面”三個(gè)部分?!皩W(xué)習(xí)分類”流程主要是機(jī)器對(duì)由人工預(yù)先分類好的資訊樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),得到并生成分類器,這個(gè)流程由Mahout框架實(shí)現(xiàn);“全文索引”流程是對(duì)資訊文本數(shù)據(jù)進(jìn)行分詞和索引,并用學(xué)習(xí)分類流程生成的分類器對(duì)資訊的分類屬性進(jìn)行標(biāo)引,這部分功能由Solr框架實(shí)現(xiàn);“檢索界面”流程則是開發(fā)Web檢索界面,便于用戶進(jìn)行查詢和檢索,這部分功能由jQuery和Ajax-solr框架實(shí)現(xiàn)。

        學(xué)習(xí)分類

        1、樣本數(shù)據(jù)

        由于分類器是通過對(duì)樣本數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練得到的,樣本數(shù)據(jù)所屬分類信息的準(zhǔn)確性對(duì)分類結(jié)果的準(zhǔn)確性有很大的影響。為了保證樣本的分類屬性盡量的準(zhǔn)確,本文的樣本數(shù)據(jù)是從互聯(lián)網(wǎng)專業(yè)網(wǎng)站上選取了11個(gè)行業(yè)資訊樣本,每個(gè)樣本有50篇的文本資訊,每篇文本資訊的字?jǐn)?shù)在500字左右。

        圖2 樣本數(shù)據(jù)

        2、樣本數(shù)據(jù)的學(xué)習(xí)

        Mahout樸素貝葉斯分類器的訓(xùn)練學(xué)習(xí)過程主要分為五步:

        1.使用mahout seqdirectory命令從訓(xùn)練樣本數(shù)據(jù)生成Seq文件(hadoop文件);

        2.使用mahout seq2sparse命令生成向量文件;

        3.使用mahout split命令拆分向量文件為“學(xué)習(xí)集”和“驗(yàn)證集”兩個(gè)集合;

        4.使用mahout trainnb命令對(duì)“學(xué)習(xí)集”向量文件進(jìn)行學(xué)習(xí),生成分類器模型

        5.使用mahout testnb命令用“驗(yàn)證集”對(duì)上一步生成得到的分類器模型的準(zhǔn)確度進(jìn)行測(cè)試和驗(yàn)證,對(duì)結(jié)果進(jìn)行分析,如果存在問題則調(diào)整訓(xùn)練樣本文件重新學(xué)習(xí)測(cè)試(大多數(shù)問題的原因是訓(xùn)練樣本存在分類二義性)

        圖3和圖4分別是用“訓(xùn)練集”和“驗(yàn)證集”驗(yàn)證分類準(zhǔn)確性進(jìn)行驗(yàn)證的輸出結(jié)果,從訓(xùn)練結(jié)果看,用“訓(xùn)練集”驗(yàn)證分類器模型的分類準(zhǔn)確率是100%,用“驗(yàn)證集”驗(yàn)證分類器模型的準(zhǔn)確率是80.2775%,從圖4輸出的測(cè)試矩陣可以看出,錯(cuò)誤比較大的是“土地政策”有4篇文章被分類到了“房地產(chǎn)”中,“建筑行業(yè)”有5篇被分類到了“建材業(yè)”中,鋼鐵行業(yè)有7篇被分類到了“建材業(yè)”,但是從業(yè)務(wù)角度分析,這幾個(gè)行業(yè)的確有相似的地方,80.2775%分類的準(zhǔn)確性還是可以接受的。

        全文索引

        本文使用的新聞數(shù)據(jù)是新華社多媒體數(shù)據(jù)庫(kù)中歷時(shí)半年的部分歷史資訊數(shù)據(jù),一共是58萬余條。本文使用了開源的pysolr接口,開發(fā)python程序把文本資訊寫入到solr索引庫(kù)中,然后使用Solr調(diào)用分類器對(duì)寫入的資訊數(shù)據(jù)進(jìn)行索引和分類,主要步驟是:

        1.在solr的schema.xml文件中建立索引字段,由于新聞資訊數(shù)據(jù)都是中文,本文使用了IKanalyzer開源中文分詞器;

        2.開發(fā)程序?qū)π侣剶?shù)據(jù)文件進(jìn)行解析,建立新聞數(shù)據(jù)字段與solr索引字段的映射關(guān)系,調(diào)用pysolr進(jìn)行資訊的逐條寫入;

        3.配置solr的solrconfig.xml文件,使得solr可以調(diào)用外部的分類器對(duì)特定的字段(本文是對(duì)DOC_CONTENT字段)進(jìn)行分類并進(jìn)行標(biāo)引。

        檢索界面

        檢索界面為用戶提供全文檢索和分類檢索的功能,本文使用的是基于jQuery的ajax-solr開源框架,檢索界面把用戶輸入的檢索參數(shù)拼裝成http請(qǐng)求,訪問后臺(tái)的solr檢索引擎,獲得的結(jié)果再回寫入檢索界面展示給用戶。

        從圖7可以看出,分類器對(duì)每篇資訊所屬的11個(gè)行業(yè)的可能性都進(jìn)行了打分,分值最大者是最有可能屬于的分類,分類器對(duì)《智慧城市建設(shè)助推新興產(chǎn)業(yè)“落地” 為地方經(jīng)濟(jì)轉(zhuǎn)型升級(jí)帶來契機(jī)》這篇文章的分類判定為“g”——汽車業(yè),通過打開正文分析,是因?yàn)槲闹刑岬搅恕爸悄芙煌ā?,所以這篇文章在需要判定的11個(gè)行業(yè)中,汽車業(yè)是最接近的(見圖8)。

        系統(tǒng)評(píng)估

        本文對(duì)58萬條余文本數(shù)據(jù)進(jìn)行了在線的分類和索引,并對(duì)使用分類器和不使用分類器的資訊入庫(kù)性能進(jìn)行了對(duì)比。從圖9、10中可以看出,當(dāng)使用了分類器以后,較大的影響了文章索引的性能,58萬數(shù)據(jù)全部完成索引的時(shí)間是307分鐘,平均是31篇/秒,即1860篇/分鐘,比沒有分類器的索引時(shí)間多了1倍多。但是這個(gè)索引和分類速度已經(jīng)可以完全滿足目前新華社自有資訊業(yè)務(wù)的需求,同時(shí)由于本文的試驗(yàn)環(huán)境是PC虛擬機(jī),如部署到服務(wù)器上整體性能還會(huì)有進(jìn)一步提升。

        總結(jié)

        本文創(chuàng)新性的把分類算法和全文檢索引擎結(jié)合到了一起,通過技術(shù)創(chuàng)新,提出并實(shí)現(xiàn)了對(duì)文本資訊的在線自動(dòng)分類和全文索引,同時(shí)實(shí)現(xiàn)了較好的分類準(zhǔn)確性和分類檢索效率。下一步將進(jìn)一步優(yōu)化分類算法和提高分類索引的效率,以期盡快應(yīng)用到新華社實(shí)際的采編業(yè)務(wù)流程中去。

        猜你喜歡
        全文檢索資訊開源
        資訊Information①
        五毛錢能買多少頭牛
        Oracle數(shù)據(jù)庫(kù)全文檢索性能研究
        大家說:開源、人工智能及創(chuàng)新
        開源中國(guó)開源世界高峰論壇圓桌會(huì)議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
        開源計(jì)算機(jī)輔助翻譯工具研究
        基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
        特色數(shù)據(jù)庫(kù)全文檢索系統(tǒng)的設(shè)計(jì)
        資訊
        資訊
        最新四色米奇影视777在线看| 亚洲亚色中文字幕剧情| 免费国产a国产片高清网站| 欧美性性性性性色大片免费的| 高清国产美女一级a毛片在线| 蜜桃成人精品一区二区三区| 天堂网站一区二区三区 | 内谢少妇xxxxx8老少交| 亚洲欧美日韩精品中文乱码| 我也色自拍俺也色自拍| 久久天天躁夜夜躁狠狠85麻豆| 日韩人妻无码一区二区三区| 国产在线不卡免费播放| 亚洲国产大胸一区二区三区| 亚洲综合天堂av网站在线观看| 亚洲欧美日韩人成在线播放 | 穿着白丝啪啪的av网站| 又大又粗又爽18禁免费看| 国产在线91观看免费观看| 一本大道加勒比东京热| 久久精品免费一区二区喷潮| 国产男女猛烈视频在线观看| 亚洲成人av一区二区三区| 自拍偷拍韩国三级视频| 日韩精品真人荷官无码| 亚洲av成人一区二区三区av| 亚洲精品熟女乱色一区| 日本一区二区在线免费视频| 免费人成在线观看视频播放| 51精品视频一区二区三区 | 丰满人妻猛进入中文字幕| 粉嫩虎白女毛片人体| 中文字幕久热精品视频免费| av资源在线免费观看| 无码国产精品久久一区免费 | 日韩亚洲国产av自拍| 日韩av一区二区三区精品久久| 亚洲乱亚洲乱妇| 国产网站视频| 亚洲精品中文字幕熟女| 少妇人妻中文字幕hd|