摘要:Nutch是一個(gè)優(yōu)秀的基于Java的開放源碼搜索引擎,是以Lucene為基礎(chǔ)實(shí)現(xiàn)的搜索引擎應(yīng)用程序,其工作流程和現(xiàn)代商業(yè)搜索引擎工作原理一樣:文本搜集、建立索引和查詢。Nutch0.9較好地處理了英文分詞,但對(duì)中文分詞處理還不夠完善。文章介紹了在Nutch0.9中實(shí)現(xiàn)索引及檢索的二分法,提出了改進(jìn)中文分詞的方法。
關(guān)鍵詞:Nutch0.9;二分法;索引;檢索