亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)預(yù)定制信息的采集和監(jiān)督研究

        2014-02-17 09:32:28趙志超劉暢
        關(guān)鍵詞:網(wǎng)頁文檔向量

        趙志超劉暢

        (1 河北中信聯(lián)信息技術(shù)有限公司 河北 石家莊 050091)

        (2 國網(wǎng)冀北電力有限公司秦皇島供電公司 河北 秦皇島 066000)

        互聯(lián)網(wǎng)預(yù)定制信息的采集和監(jiān)督研究

        趙志超1劉暢2

        (1 河北中信聯(lián)信息技術(shù)有限公司 河北 石家莊 050091)

        (2 國網(wǎng)冀北電力有限公司秦皇島供電公司 河北 秦皇島 066000)

        針對互聯(lián)網(wǎng)海量數(shù)據(jù)和目標(biāo)對象的信息獲取和狀態(tài)監(jiān)控需求,采用預(yù)定制特征元素集控制信息采集,經(jīng)過去重、正文抽取、凈化去噪、分詞和過濾后,構(gòu)建詞匯/文本向量矩陣,采用隱性語義分析、奇異值分解、正則逼近和偽文本壓縮等處理技術(shù),實(shí)現(xiàn)了對獲取向量信息的相似計(jì)算和排序,得出最佳搜索結(jié)果和監(jiān)測目標(biāo)的狀態(tài)向量,同時(shí)降低了相似文本排序的計(jì)算量。

        信息采集詞匯/文本向量矩陣隱性語義分析

        1 引言

        互聯(lián)網(wǎng)每天都在產(chǎn)生TB以上規(guī)模的數(shù)據(jù),人們每天都在追逐著這些人們制造出來的海量“大數(shù)據(jù)”,知道其中有人們求之難得的,能解決所需問題的信息和知識,卻常??嘤诒贿@個(gè)大海淹沒,沒有順手的方法和工具,能快速、準(zhǔn)確和高效地從這浩瀚的“數(shù)據(jù)洋”中挖取人們需要的數(shù)據(jù),然后再從中提煉滿足人們需要的信息和知識。雖然,有些著名的搜索引擎可用,但是他們找到的數(shù)據(jù)常常也是動輒十萬和百萬條,甚至更多,在這些被排序的數(shù)據(jù)中找到為人們所用的數(shù)據(jù),也是費(fèi)時(shí)耗力且低效的。

        運(yùn)用網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)、語義分析技術(shù)、統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)等方法,對特定需求的目標(biāo)進(jìn)行信息挖掘和狀態(tài)監(jiān)控仍具有實(shí)用意義,可以廣泛應(yīng)用于情報(bào)研究、科技探索、輿情監(jiān)督、行業(yè)市場跟蹤、用戶研究和競爭對手分析等領(lǐng)域,討論的采集和處理方法的目標(biāo)對象均以中文和英文信息表述。

        2 面向主題信息搜索系統(tǒng)的需求

        人們經(jīng)常有從互聯(lián)網(wǎng)挖掘由多元數(shù)據(jù)集限定的,而不是僅僅靠一兩個(gè)詞或語句用搜索引擎完成的,面向特定主題信

        息的搜索采集需求。這些多元數(shù)據(jù)集從多個(gè)方面對人們需要搜尋的主題信息進(jìn)行了限定,當(dāng)各元素之間沒有次序關(guān)系時(shí),構(gòu)成特征元素集合;如果各元素之間具有次序關(guān)系要求,則構(gòu)成特征數(shù)據(jù)向量。經(jīng)過對互聯(lián)網(wǎng)上內(nèi)容信息的按特征元素集信息的采集提取,可以獲得更準(zhǔn)確吻合人們需要主題的信息。這些特征元素集是隨著每次的采集挖掘主題需求不同而改變的,也就是可以靈活調(diào)整和定制的。

        主題特征元素集的構(gòu)成,可以是結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),甚至可以是網(wǎng)站的結(jié)構(gòu)信息。當(dāng)特征元素集是普通文字、數(shù)據(jù)或音視頻數(shù)據(jù)時(shí),人們關(guān)心的是網(wǎng)站內(nèi)容的差異;當(dāng)特征元素集是網(wǎng)站結(jié)構(gòu)信息時(shí),人們關(guān)心的是網(wǎng)站的特定功用,是網(wǎng)站狀態(tài)間的差異。

        通過對特征元素集的搜索、定位和定期比對,可以實(shí)現(xiàn)對重點(diǎn)信息和網(wǎng)站的動態(tài)監(jiān)督。研究準(zhǔn)確和高效地從互聯(lián)網(wǎng)上找到含有人們需要特征元素集的信息,并且能隨時(shí)掌握這些信息的動態(tài)變化的應(yīng)用軟件系統(tǒng),對于快速準(zhǔn)確地情報(bào)分析研究、科技發(fā)展探索、輿情動態(tài)監(jiān)督、行業(yè)市場走向跟蹤、用戶需求趨勢研究和競爭對手動向分析等領(lǐng)域應(yīng)用具有重要意義。

        3 預(yù)定制信息搜索系統(tǒng)構(gòu)成

        根據(jù)上述需求和目前技術(shù)發(fā)展,預(yù)定制信息挖掘系統(tǒng)的實(shí)現(xiàn)需要綜合運(yùn)用搜索引擎技術(shù)、文本處理技術(shù)、自然語言處理、智能分析技術(shù)和網(wǎng)站結(jié)構(gòu)分析等技術(shù),其系統(tǒng)基本構(gòu)成如圖1所示。

        圖1 系統(tǒng)構(gòu)成示意圖

        4 特征主題規(guī)劃

        該模塊確定信息采集的特定目標(biāo)、主題集合和模式等參數(shù),對信息采集模塊的行為進(jìn)行定性控制。主題特征元素集信息可以采用人工錄入,或者由系統(tǒng)反饋的指令,如進(jìn)行深入采集和監(jiān)控采集指令等,實(shí)現(xiàn)連續(xù)自動采集和跟蹤。

        當(dāng)系統(tǒng)采集的信息經(jīng)過處理后,可能需要調(diào)整元素組合集;深入挖取或拓展采集時(shí),當(dāng)設(shè)定的監(jiān)控對象發(fā)生狀態(tài)變化時(shí),或者進(jìn)行必要的停止和持續(xù)追蹤時(shí)或擴(kuò)展挖取時(shí),都需要調(diào)整特征元素集的主題規(guī)劃。

        5 信息采集

        互聯(lián)網(wǎng)信息采集常用爬蟲技術(shù)實(shí)現(xiàn),此類系統(tǒng)可用的開源程序很多,在此基礎(chǔ)上開發(fā)對特征組合信息進(jìn)行動態(tài)配置的爬蟲。系統(tǒng)采用主題和限定爬蟲,根據(jù)特征元素集組合的需求,設(shè)置爬蟲的挖掘行為參數(shù)[1,2]。爬蟲模塊負(fù)責(zé)從互聯(lián)網(wǎng)上采集信息,爬蟲的數(shù)量、抓取速度、起始URL和符合采集要求的URL正則表達(dá)式和爬蟲線程終止條件等的設(shè)置受到特征元素集要求的約束。對獲取的網(wǎng)頁,通過網(wǎng)頁清洗預(yù)處理模塊清除網(wǎng)頁中與特征元素集要求和正文無關(guān)的材料,如廣告和導(dǎo)航條信息等噪聲,提取出相關(guān)網(wǎng)頁內(nèi)容的標(biāo)題、正文、鏈接地址和時(shí)間戳等信息,導(dǎo)入數(shù)據(jù)庫。

        6 采集信息的預(yù)處理

        該模塊主要任務(wù)是將信息采集模塊所獲取的網(wǎng)頁內(nèi)容材料作進(jìn)一步的信息處理,包括文本去重、凈化抽取、文本分詞、虛詞及停用詞的凈化等。

        ⑴文本去重

        互聯(lián)網(wǎng)存在著大量的重復(fù)內(nèi)容,有些網(wǎng)頁是完全一樣的,為了減少后續(xù)工作量、提高搜索質(zhì)量和節(jié)省空間,需要先去除重復(fù)以及近似重復(fù)的文檔。

        此階段采用比較文檔內(nèi)容checksum值的方法來判斷完全相同的文檔,如果2個(gè)文檔的checksum值不匹配,則認(rèn)為這2個(gè)文檔不相同。當(dāng)然,也可能有不同的文檔具有相同的checksum值,但可選擇適當(dāng)?shù)腸hecksum計(jì)算過程,使得不同的文檔產(chǎn)生相同的checksum值的概率很小,從而大大縮減后續(xù)處理的工作量。在后續(xù)的正文抽取、分詞、矢量化的過程中仍會根據(jù)處理的方法進(jìn)行不同層面的去重工作。

        ⑵正文抽取

        人們需要的內(nèi)容常常都在網(wǎng)頁和文檔的正文中,可以根據(jù)網(wǎng)頁及文件存儲結(jié)構(gòu)的格式,利用統(tǒng)計(jì)分析技術(shù)、HtmlParser、PDFBox和Apache的POI等抽取工具從中抽取文本內(nèi)容,并剔除廣告、分割條、導(dǎo)航鏈接、搜索服務(wù)和版權(quán)信息等噪聲[1]。

        網(wǎng)頁凈化過程一般可以分為網(wǎng)頁內(nèi)容結(jié)構(gòu)的表示和網(wǎng)頁內(nèi)容塊的取舍。HTML標(biāo)識語言定義了一套標(biāo)簽來刻畫網(wǎng)頁顯示時(shí)的頁面布局。因此,對于HTML網(wǎng)頁最常用的結(jié)構(gòu)表示方法是構(gòu)造網(wǎng)頁的標(biāo)簽樹。根據(jù)內(nèi)容差異,網(wǎng)頁可以分為主題

        網(wǎng)頁、目錄網(wǎng)頁和圖片網(wǎng)頁3類,其凈化方法各不相同。目錄網(wǎng)頁是將網(wǎng)頁中間區(qū)域的內(nèi)容塊作為網(wǎng)頁的主題內(nèi)容,而邊緣的內(nèi)容塊則通過與主題內(nèi)容計(jì)算相似性的方法來決定取舍。圖片網(wǎng)頁則采用保留網(wǎng)頁中間區(qū)域的圖片型內(nèi)容塊達(dá)到網(wǎng)頁凈化。主題網(wǎng)頁凈化方法為:先識別出網(wǎng)頁中的主題內(nèi)容塊,再依據(jù)主題內(nèi)容在剩余內(nèi)容塊中識別出與主題相關(guān)的內(nèi)容塊,最后區(qū)分出噪音內(nèi)容塊。

        ⑶正文的分詞、過濾

        經(jīng)過去噪后的文本仍然只是數(shù)據(jù)形式,進(jìn)行語義分析需要對其分成具有意義的獨(dú)立詞元組合。英文的分詞可以采用空格和標(biāo)點(diǎn)符號進(jìn)行分割實(shí)現(xiàn),而中文詞法分析是中文信息處理的基礎(chǔ)與關(guān)鍵。采用中國科學(xué)院汁算技術(shù)研究所研制的漢語詞法分析系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS),ICTCLAS采用了層疊隱馬爾可夫模型(Hierarchical Hidden Markov Model),主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識別和新詞識別,同時(shí)支持用戶詞典,支持繁體中文,是目前最好的漢語詞法分析器[3]。

        對去噪后的文本用ICTCLAS進(jìn)行分詞,分詞后根據(jù)得到的詞性標(biāo)注將介詞、助詞、嘆詞、語氣詞、擬聲詞、標(biāo)點(diǎn)符號和停用詞去掉,得到該文本內(nèi)容的特征文檔詞條。

        7 信息分析與處理

        為了避免因使用常見的詞條檢索方法,可能導(dǎo)致作者選定使用的特征元素集中的詞匯隱含意義相同,但字面不同而使文本被漏檢,選用隱性語義分析法(Latent Semantic Analysis, LSA)完成最接近特征元素集的文本集合的采集提取。LSA是一種自然語言處理的方法。其出發(fā)點(diǎn)是假設(shè)文本中的詞匯與詞匯之間存在某種聯(lián)系,即存在某種隱性的語義結(jié)構(gòu),這種隱性的語義結(jié)構(gòu)隱含在文本中詞匯的上下文中[4,5]。

        ⑴構(gòu)建表示詞匯/文本的矩陣

        為了便于分析處理,將經(jīng)過預(yù)處理的文本詞條表示成在向量模型空間中的所有特征元素集詞匯的向量,m個(gè)特征元素集詞匯和n篇文本被表示為詞匯/文本矩陣,其中每一行代表主題規(guī)劃確定的特征元素集的一個(gè)詞匯ti在各文本中的權(quán)重,每一列代表文本集中的一個(gè)文本dj針對主題規(guī)劃確定的特征元素集的參數(shù)向量,如下式所示。

        式中,aij代表特征詞ti在文本dj中的權(quán)重,采用目前廣泛采用的權(quán)重計(jì)算公式TF-IDF公式:

        式中,tfij代表特征詞ti在文本dj中出現(xiàn)的頻率,稱為“詞頻因子”;N表示采集到文本集中全部的文本數(shù);ni表示這些文本中出現(xiàn)特征詞ti的文本頻數(shù);自然對數(shù)log(N/ni)代表特征詞ti反比于特征詞出現(xiàn)的文本頻數(shù),稱為“反文檔頻數(shù)因子”

        [5-6]。

        ⑵對矩陣A的奇異值分解

        隱性語義分析通過重點(diǎn)應(yīng)用了矩陣的奇異值分解(SVD)將詞和文檔映射到隱性語義空間,去除了原始向量空間中的一些“噪音”,提高了信息檢索的精確度。

        不失一般性,假設(shè)詞匯/文本矩陣A是m行n列的一個(gè)稀疏矩陣,已知rank(A)=r??傻肁的奇異值分解為:

        式中:T0的各列正交且長度為1,即T0T0T=I;D0的各列正交且長度為1,即D0D0T=I;S0稱為矩陣A的奇異值標(biāo)準(zhǔn)型,是一個(gè)單值的對角矩陣,即:

        S0=diag(λ1,λ2,…,λm),且有λ1≥λ2≥…≥λr≥λr+1=…=0是A的奇異值。

        ⑶構(gòu)建詞匯/文本矩陣的最佳逼近

        當(dāng)k滿足貢獻(xiàn)率不等式:

        式中,θ為包括原始信息的閾值;選取前k個(gè)最大的奇異值,其余設(shè)置為0,獲得新的對角矩陣S。同時(shí),取T0和D0的前k個(gè)列,分別獲得矩陣T和D,這樣得到的矩陣運(yùn)算結(jié)果記為Ak,是原始矩陣A的一個(gè)近似值,其秩為k??梢宰C明,矩陣Ak是所有秩為k的矩陣中與A用F-范數(shù)評價(jià)時(shí)的最佳逼近,且均方誤差為1-θ[6]。

        LSA通過對詞匯/文本矩陣A進(jìn)行截?cái)嗟钠娈愔捣纸?,得到秩為k的“近似矩陣”,得到的語義空間表示含有原始矩陣A的θ%的關(guān)鍵信息,達(dá)到信息過濾和去除噪聲的目的。

        ⑷構(gòu)建偽文本向量

        系統(tǒng)根據(jù)主題規(guī)劃特征元素集的詞頻信息生成查詢向量q,把其當(dāng)作一個(gè)“偽文本”,則在k維語義空間中可表示為:

        q+=qTT S-1

        這樣,在k維空間中,q+和其他文本向量之間的相似度可用他們向量間夾角的余弦來進(jìn)行計(jì)算,如:

        式中,q+h為查詢向量的第h個(gè)詞匯的權(quán)重;djh為第j個(gè)文本向量的第h個(gè)詞匯的權(quán)重;k為語義空間的維度。cos(q+,dj)的絕對值越接近于1,說明向量q+和dj之間的夾角越小,相互

        關(guān)聯(lián)性越大。

        ⑸按相似度高低排列文本

        通過反復(fù)計(jì)算比較q+和dj(1≤j≤n)文檔向量之間的余弦夾角數(shù)值,最后按相似度高低排列文本,根據(jù)用戶的要求將文本列表提供給用戶。對于監(jiān)控對象,則根據(jù)初始需求確定出目標(biāo)對象的狀態(tài)向量。

        8 反饋展現(xiàn)和跟蹤

        實(shí)際上從特征元素集信息采集的目標(biāo)需求,近似重復(fù)的文檔也是具有一定的保留和參考價(jià)值的。因此,需要將有序文本集提供反饋展示,供用戶選擇,并根據(jù)需要進(jìn)行存儲。

        對關(guān)注目標(biāo)的狀態(tài)監(jiān)控分析需求,狀態(tài)向量前后變化的差異才是需要對比跟蹤的。監(jiān)督跟蹤可以根據(jù)需要設(shè)定為定期的和不定期實(shí)施。實(shí)施中采用決策樹結(jié)構(gòu)[5],將監(jiān)督目標(biāo)對象的初始多維狀態(tài)向量設(shè)定為決策節(jié)點(diǎn),節(jié)點(diǎn)通過率傳達(dá)了目標(biāo)狀態(tài)變化的程度,可供選擇跟蹤決策。獲取的信息和監(jiān)控狀態(tài)都可能成為新的規(guī)劃主題,或者調(diào)整特征元素信息的新需求,繼續(xù)深化進(jìn)行上述過程[6]。

        9 結(jié)束語

        在文檔詞條構(gòu)建向量矩陣過程中,原始文檔中的次序信息損失了,且類似語句結(jié)構(gòu)的語義信息也損失了,但這樣的詞條向量在后續(xù)檢索中仍是非常有效的。

        采用LSA將文本和詞匯的高維表示投影在低維的隱性語義空間中,縮小了問題的規(guī)模,得到詞匯和文本的不再稀疏的低維表示,同時(shí)這種低維表示揭示出了詞匯/文本之間語義上的聯(lián)系。使用k-秩近似矩陣使得原m個(gè)特征元素集偽文本壓縮到k維向量,降低了相似文本夾角余弦計(jì)算量,對于固定的查全率,提高了檢索的查準(zhǔn)率。閾值θ與k的相關(guān),也即與奇異值序列分布相關(guān),適當(dāng)選擇θ可以在查準(zhǔn)率損失不大的情況下,使k的選擇盡量小,從而降低運(yùn)算量。

        [1]羅剛,王振東.自己動手寫網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2010.

        [2]MARMANIS H.智能web算法[M].阿穩(wěn),等,譯.北京:電子工業(yè)出版社,2011.

        [3]劉群,張華平,等.基于多層隱馬模型的漢語詞法分析研究[OL].http://www.ictclas.org/.

        [4]DAVID H.數(shù)據(jù)挖掘原理[M].張銀奎,等譯.北京:機(jī)械工業(yè)出版社,2003.

        [5]PETER H.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].李銳,等譯.北京:人民郵電出版社,2013.

        [6]CHRISTOPHER D M,HINRICH S,PRABHAKAR R.信息檢索導(dǎo)論[M].王斌譯.北京:人民郵電出版社,2010.

        Research on Acquisition and Monitoring of Predetermined Information on Internet

        ZHAO Zhi-chao1LIU Chang2
        (1.Hebei UniWin Information Technology Co.,Ltd.,Shijiazhuang Hebei 050091,China)
        (2.Qinhuangdao Power Supply Company of State Grid Jibei Electric Power Co.,Ltd.,Qinhuangdao Hebei 066000,China)

        Aiming at the requirements of information acquisition and status monitoring of mass data and goal object on Internet,this paper uses the predetermined characteristic element set to control the information acquisition,builds the term-document matrix after reduplication removing,text extraction,purification and de-noising,word segmentation as well as filtering,uses such technologies as latent semantic analysis,singular value decomposition,regularized approximation and pseudo-text compression to implement the similarity calculation and seqencing of acquired vector information,get the best search result and the status vector of monitoring target, and reduce the amount of calculation of similarity text sequencing at the same time.

        information acquisition;term-document matrix;latent semantic analysis

        TP393

        A

        1008-1739(2014)16-69-4

        定稿日期:2014-07-26

        猜你喜歡
        網(wǎng)頁文檔向量
        向量的分解
        有人一聲不吭向你扔了個(gè)文檔
        聚焦“向量與三角”創(chuàng)新題
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        向量垂直在解析幾何中的應(yīng)用
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        国产精品国产自产拍高清| 啪啪无码人妻丰满熟妇| 狠狠色丁香婷婷久久综合2021| 国产伦精品一区二区三区| 大地资源网在线观看免费官网 | 国产极品美女高潮抽搐免费网站 | 久久精品国产精品| 久久精品国产精品青草色艺 | 男女在线免费视频网站| 蜜桃视频第一区免费观看| 人妻仑乱a级毛片免费看| 久久亚洲av成人无码国产| 国产精品美女一级在线观看| 人妻少妇偷人精品一区二区| 日本一道综合久久aⅴ免费| 丰满的少妇xxxxx青青青| 一区欧美在线动漫| 亚洲一区二区综合精品| 日本少妇春药特殊按摩3| 亚洲暴爽av天天爽日日碰| 国产一区二区精品网站看黄| 一区二区三区国产色综合| 亚洲精品无码久久久久去q| 激情综合欧美| 在线观看日韩精品视频网站| 洲色熟女图激情另类图区 | 奇米影视久久777中文字幕| 亚洲国产免费公开在线视频 | 黄污在线观看一区二区三区三州| 一本久久伊人热热精品中文字幕| 99成人精品| 亚洲国产av午夜福利精品一区| 图片小说视频一区二区| 国产午夜精品久久久久免费视| 国产精品无码久久久久久蜜臀AV | 久久综合99re88久久爱| 日韩精品无码视频一区二区蜜桃| 精品一二区| 蜜桃视频一区二区三区四| 屁屁影院ccyy备用地址| 熟妇无码AV|