亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新聞信息檢索系統(tǒng)設(shè)計(jì)

        2019-06-27 06:42:09趙美勇楊永琪宋思睿
        科技資訊 2019年9期
        關(guān)鍵詞:爬蟲分詞網(wǎng)頁

        趙美勇 楊永琪 宋思睿

        摘? 要:模擬百度、谷歌等搜索工具,利用爬蟲和大數(shù)據(jù)來實(shí)現(xiàn)一個(gè)簡單的新聞信息檢索系統(tǒng)。此系統(tǒng)大致分為5個(gè)模塊:先是利用爬蟲來爬取網(wǎng)頁的信息;利用2-gram分詞來將獲取到的網(wǎng)頁建立索引;將索引排序;利用hadoop分布式存取索引;最后搭建前后端實(shí)現(xiàn)界面交互。五個(gè)環(huán)節(jié)關(guān)系緊密,核心環(huán)節(jié)就是索引的建立,利用2-gram分詞提取關(guān)鍵字,再利用TF-IDF矩陣對關(guān)鍵字打分,得到矩陣之后,就可以利用K-means來講關(guān)鍵字分類了。然后再按照評分將索引排序就可以得到用戶所需要的信息。

        關(guān)鍵詞:爬蟲? Hadoop? 2-gram? 分詞? K-means

        中圖分類號:G64? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2019)03(c)-0006-02

        1? 系統(tǒng)內(nèi)容

        1.1 Web網(wǎng)頁信息抽取

        以山東大學(xué)新聞網(wǎng)為起點(diǎn)進(jìn)行網(wǎng)頁信息的循環(huán)爬取,保持蜘蛛在view.sdu.edu.cn之內(nèi)。

        1.2 索引構(gòu)建

        對上一步爬取到的網(wǎng)頁進(jìn)行結(jié)構(gòu)化預(yù)處理,包括分字段解析、分詞、構(gòu)建索引等。

        1.3 索引排序

        對上一步構(gòu)建的索引庫進(jìn)行查詢,對于給定的查詢,給出檢索結(jié)果,明白排序的原理及方法。

        1.4 數(shù)據(jù)庫構(gòu)建

        利用爬取的新聞內(nèi)容以及構(gòu)建的索引建立數(shù)據(jù)庫

        1.5 前后端實(shí)現(xiàn)

        基于數(shù)據(jù)庫利用Java及HTML語言實(shí)現(xiàn)前后端交互,提供用戶使用頁面。

        2? 系統(tǒng)設(shè)計(jì)

        2.1 爬蟲部分

        通過觀察分析新聞主頁可以發(fā)現(xiàn)我們需要的最終URL是:

        http://www.view.sdu.edu.cn/info/1207/104940.htm

        在信息爬取的過程中,所使用的工具為:

        Python3+requests+bs4+collections。

        實(shí)現(xiàn)過程如下:

        (1)以http://www.view.sdu.edu.cn為種子URL,獲取此網(wǎng)頁中所有的以“.html”結(jié)尾的URL,并且把它加入到列表中避免重復(fù)訪問。

        (2)通過分析網(wǎng)頁的源碼可以發(fā)現(xiàn)有些URL省略了前綴,因此我們在處理這樣的URL之前要先將其補(bǔ)全。

        (3)找到每一個(gè)滿足條件的URL(保持蜘蛛在view.sdu.edu.cn之內(nèi)),并將其加入到隊(duì)列中(這里采取BFS爬取策略)。

        (4)之后依次從隊(duì)列中取出隊(duì)首的URL,如果是目標(biāo)URL,則獲取標(biāo)題及正文信息,并存到文件中。如果不是目標(biāo)URL,則依次進(jìn)行(2)、(3)、(4)步驟。

        (5)在爬蟲的過程中維護(hù)一個(gè)目錄文件,記錄下每篇新聞的索引、URL、標(biāo)題。

        2.2 詞項(xiàng)詞典構(gòu)建

        詞典構(gòu)建時(shí)分詞系統(tǒng)采用疊詞方式,也就是將語句ABCDE分割成AB,BC,CD,DE四個(gè)單詞。

        這里使用了一個(gè)假設(shè),即“與文檔內(nèi)容有關(guān)的詞語不會只出現(xiàn)一次”,通過這個(gè)假設(shè),我們可以排除絕大多數(shù)噪音詞項(xiàng)。

        比如“今天去濟(jì)南”,“今天”“濟(jì)南”這兩個(gè)詞項(xiàng)如果在文檔中占據(jù)重要地位,那么會出現(xiàn)不止一次,而“天去”“去濟(jì)”這兩個(gè)干擾詞項(xiàng)在絕大多數(shù)情況下只會出現(xiàn)一次,可以輕松除去。

        基于以上假設(shè),將所有文檔遍歷一遍之后就可以得到一個(gè)去除了大多數(shù)干擾項(xiàng)和部分有效實(shí)詞的有損詞典。但是考慮到最后的目的是制作一個(gè)有序搜索引擎,被損耗掉的部分實(shí)詞往往在排序中所占據(jù)的得分份額也非常小,因此這個(gè)詞典就可以被認(rèn)為是有效的詞典。

        2.3 倒排索引構(gòu)建、TF-IDF矩陣和特征矩陣構(gòu)建

        有了詞典之后,就可以進(jìn)行倒排索引操作了。

        倒排索引操作時(shí)仍然使用疊加分詞方式,但是只有存在于上一步產(chǎn)生的詞典中的詞語才會進(jìn)入下一步操作。倒排索引的結(jié)果會生成一個(gè)類似二維鏈表的結(jié)構(gòu),每個(gè)鏈表頭保存了詞項(xiàng)名稱,鏈表中間項(xiàng)保存了文檔ID和詞頻,鏈表尾保存了文檔頻率和詞語總頻率。

        利用鏈表尾保存的信息和文檔長度信息,遍歷一遍倒排索引即可直接生成TF-IDF矩陣。

        考慮到最高頻的詞語在絕大多數(shù)文檔中都出現(xiàn),對特征影響小的原因,選取其中詞頻第100~400共300個(gè)詞語進(jìn)行SVD分解,這樣就得到了特征矩陣。

        2.4 文檔聚類

        在有了特征矩陣之后,直接使用UT矩陣,直接生成對參與到分類的文檔的特征向量。

        由于特征矩陣的計(jì)算和K-means迭代在大量數(shù)據(jù)的情況下單機(jī)運(yùn)行十分緩慢,因此聚類被分成兩步,第一步隨機(jī)選擇了一部分向量進(jìn)行完整的K-means算法,這樣就可以得√N(yùn)個(gè)聚類中心;第二步對剩余的信息直接尋找和它們最近的聚類中心,直接視為這一聚類的追隨者。

        因?yàn)閱螜C(jī)環(huán)境下推薦系統(tǒng)使用較少數(shù)據(jù)的效果更明顯,第一步使用的部分向量在后面將用來實(shí)現(xiàn)推薦系統(tǒng)。

        同時(shí),根據(jù)聚類結(jié)果,將原始的TF-IDF矩陣分割成了數(shù)個(gè)較小的矩陣。每個(gè)聚類中最接近聚類中心的一個(gè)作為矩陣第一列的數(shù)據(jù)。

        3? 前后端實(shí)現(xiàn)

        3.1 前端實(shí)現(xiàn)

        使用JSP、JS、Java語言實(shí)現(xiàn)界面。

        (1)大致劃分:title檢索欄、content內(nèi)容新聞塊。

        (2)基本功能:輸入檢索自然語言,查詢相關(guān)新聞,獲取相關(guān)新聞標(biāo)題URL信息,進(jìn)一步跳轉(zhuǎn)詳細(xì)信息。

        3.2 后端實(shí)現(xiàn)

        自然語言處理,實(shí)現(xiàn)2-gram分詞。

        (1)單關(guān)鍵詞查詢:檢索該關(guān)鍵詞相關(guān)文檔,利用tf值取其中前十位的文檔ID,構(gòu)建NEWS數(shù)據(jù)結(jié)構(gòu),生成結(jié)果。

        (2)多關(guān)鍵字查詢:將關(guān)鍵詞拆分,利用tf*idf乘積作為每篇文檔得分,最后將所有文檔排序,取出TOP10。

        4? 結(jié)語

        此系統(tǒng)不同于簡單的前端調(diào)取數(shù)據(jù)庫內(nèi)容,這次數(shù)據(jù)庫更多的只作為系統(tǒng)實(shí)現(xiàn)中的一小部分,清晰地了解了一個(gè)完整的信息檢索系統(tǒng)的構(gòu)成,從信息采集、信息處理、信息入庫到信息利用和展示,一步又一步,讓這個(gè)過程復(fù)雜又清晰。也通過對于信息檢索的學(xué)習(xí),逐步了解了真正的搜索引擎背后實(shí)現(xiàn)原理以及強(qiáng)大的技術(shù)支持。盡管在我們的系統(tǒng)中僅僅使用了python爬蟲爬取、基于2-gram的分詞以及索引構(gòu)建、數(shù)據(jù)庫的簡單應(yīng)用、TF-IDF得分計(jì)算、前后端實(shí)現(xiàn)這些技術(shù),但已經(jīng)得到了良好的效果。

        此系統(tǒng)還有很大的完善空間,但是通過自己的努力基本實(shí)現(xiàn)了搜索引擎系統(tǒng)的基本要求,完成了包括關(guān)鍵詞和復(fù)雜語言的查詢操作,并且實(shí)現(xiàn)了良好的效果。

        參考文獻(xiàn)

        [1] 李俊華.基于Python的數(shù)據(jù)分析[J].電子技術(shù)與軟件工程,2018(17):167.

        [2] 馬明陽,郭明亮,魏留強(qiáng).網(wǎng)絡(luò)爬蟲的專利技術(shù)綜述[J].科技世界,2018(12):12-13.

        [3] 陳麗,黃晉,王銳.Hadoop大數(shù)據(jù)平臺安全問題和解決方案的綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018(1):1-9.

        [4] 邱均平,方國平.基于知識圖譜的中外自然語言處理研究的對比分析[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(12):51-61.

        [5] 何曉兵,容金鳳.基于層次目標(biāo)分解法構(gòu)建的認(rèn)知信息檢索模型[J].情報(bào)理論與實(shí)踐,2014(2):14-18.

        猜你喜歡
        爬蟲分詞網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        結(jié)巴分詞在詞云中的應(yīng)用
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        值得重視的分詞的特殊用法
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        一区二区和激情视频| 亚洲av成人一区二区三区色| 久久国产精品免费一区二区三区| 国产精品视频亚洲二区| 在线高清理伦片a| 操出白浆在线观看| 四川丰满少妇被弄到高潮| 视频国产精品| 日韩精品视频中文字幕播放| 日韩中文字幕久久久老色批| 午夜时刻免费入口| 大桥未久亚洲无av码在线| 国产一区a| 青青草在线成人免费视频| 亚洲成人中文字幕在线视频| 挺进邻居丰满少妇的身体| 无码人妻精品一区二区三区在线| 玩弄人妻奶水无码AV在线| 亚洲一区二区精品在线| 乱码av麻豆丝袜熟女系列| 97在线观看| 国产精品1区2区| 人妻少妇被猛烈进入中文| 久久精品中文字幕无码绿巨人| 国产三级精品三级在线观看| 亚洲精品第一国产麻豆| 国产av一区二区内射| 国产精品高清网站| 欧美黑人群一交| 国产99久久无码精品| 日本一区二区啪啪视频| 日韩大片高清播放器大全| 69久久夜色精品国产69| 国产午夜亚洲精品不卡免下载| 青青草精品在线免费观看| 久久婷婷五月综合97色直播| 国产精品久久婷婷六月丁香| 欧美在线Aⅴ性色| 国产一区二区三区不卡在线观看| 国产婷婷色综合av蜜臀av| 本道无码一区二区久久激情|