亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本信息抽取算法研究

        2017-06-03 20:28:20李春輝
        科學(xué)與財(cái)富 2017年15期
        關(guān)鍵詞:源代碼網(wǎng)頁頁面

        (黑龍江工商學(xué)院 黑龍江 哈爾濱 150025)

        隨著商品在線評(píng)論數(shù)量的驟然增加,消費(fèi)者要想找出商品評(píng)論中的有用信息需要消耗大量精力.因此對(duì)這些散落在Html網(wǎng)頁中無結(jié)構(gòu)的信息進(jìn)行提取、分析,不僅能夠幫助消費(fèi)者從海量的文本中快速獲得有效的信息,節(jié)省人力成本,也可以幫助企業(yè)改進(jìn)產(chǎn)品、提高質(zhì)量,從而為電子商務(wù)產(chǎn)品推薦提供一種新的營(yíng)銷模式.為有效的抽取互聯(lián)網(wǎng)上的信息,網(wǎng)絡(luò)文本信息非結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù)、網(wǎng)絡(luò)文本信息采集技術(shù)和細(xì)粒度數(shù)據(jù)挖掘技術(shù)應(yīng)用而生.信息抽取技術(shù)是通過對(duì)網(wǎng)頁進(jìn)行處理,從半結(jié)構(gòu)化或者非結(jié)構(gòu)化的Web頁面中抽取出用戶感興趣的信息和內(nèi)容,并將其轉(zhuǎn)化成清晰的結(jié)構(gòu)形式.

        信息采集技術(shù)是指通過分析網(wǎng)頁Html代碼,獲取網(wǎng)頁內(nèi)的超鏈接信息,并使用廣度優(yōu)先遍歷算法、深度優(yōu)先遍歷算法、增量存儲(chǔ)算法等實(shí)現(xiàn)自動(dòng)連續(xù)的分析鏈接、抓取文件、處理和保存數(shù)據(jù)的過程.細(xì)粒度挖掘技術(shù)深入到產(chǎn)品特征層面,能夠提取到評(píng)價(jià)信息中涉及的評(píng)價(jià)對(duì)象、評(píng)價(jià)詞以及對(duì)應(yīng)的評(píng)價(jià)傾向等意見要素,從而為一些實(shí)際應(yīng)用提供必要的細(xì)節(jié)信息.而目前根據(jù)抽取技術(shù)和依據(jù)理論的不同,主要有RAPIERE 、WHISKt 和SRV基于自然語言的信息抽取,STAI KER,SOFTMEAI Y和WINE基于包裝歸納的信息抽取,WebQLE基于Web查詢的信息抽取,基于文檔結(jié)構(gòu)模型和網(wǎng)頁模板的DOM 信息抽取。

        面對(duì)海量數(shù)據(jù),抽取技術(shù)的性能是一個(gè)十分重要的評(píng)價(jià)指標(biāo),而通過網(wǎng)頁結(jié)構(gòu)分析并使用語言和格式規(guī)則進(jìn)行標(biāo)簽篩選的技術(shù)卻很少.HtmlParser是不依賴于庫文件的輕量級(jí)解析器,通過語言與格式規(guī)則進(jìn)行標(biāo)簽篩選,過濾目標(biāo)數(shù)據(jù),在保持系統(tǒng)抽取效率的基礎(chǔ)上保證抽取算法的準(zhǔn)確性.本文首先介紹了URI 采集以及文本抽取的過程,其次給出了URL采集和文本抽取算法的關(guān)鍵步驟,再次通過舉例實(shí)現(xiàn)了URL采集和文本抽取算法,表明了基于語言和格式規(guī)則的HtmlParser標(biāo)簽解析技術(shù)的性能和優(yōu)勢(shì).采用HtmlParser解析網(wǎng)頁,得到URL采集庫,對(duì)庫中URL所指向的頁面進(jìn)行標(biāo)簽解析從而實(shí)現(xiàn)文本提取的關(guān)鍵部分.

        1 URL信息采集算法

        信息采集過程的算法設(shè)計(jì)思想是:首先由一個(gè)初始URL對(duì)隊(duì)列進(jìn)行初始化,然后從隊(duì)列中取出一個(gè)元素,獲取此元素所指向的Web頁面,對(duì)頁面進(jìn)行網(wǎng)頁源代碼解析,得到目標(biāo)標(biāo)簽中的URL,將其入隊(duì),然后重復(fù)上面的過程,不斷執(zhí)行入隊(duì)一出隊(duì)一解析一獲得URL的循環(huán)操作,直到根據(jù)采集策略停止算法,具體過程

        算法1:URL采集算法

        輸入:初始URL

        輸出:URL采集庫

        1)首先判斷參數(shù)URL是否為Null;

        2)如果為Null,程序退出;否則,根據(jù)URL得

        到Html頁面;

        3)利用頁面解析器HtmlParser解析網(wǎng)頁;

        4)分析Html源代碼中具體URL信息所在節(jié)

        點(diǎn)< a> 標(biāo)簽;

        5)利用標(biāo)簽的href屬性,過濾得到下一

        頁的網(wǎng)頁URL地址;

        6)將步驟5中的URL地址值傳到步驟1,重復(fù)

        1)~6)的步驟;

        7)最后遍歷得到所有的目標(biāo)URL地址,建成

        URL采集庫.

        2 網(wǎng)頁文本內(nèi)容抽取算法

        京東網(wǎng)(www.jd.corn)是國(guó)內(nèi)最受歡迎的電子產(chǎn)品商務(wù)網(wǎng)站之一,以京東網(wǎng)站上用戶評(píng)論數(shù)量最多的某數(shù)碼相機(jī)的評(píng)論數(shù)據(jù)為例,介紹基于HtmlParser的網(wǎng)頁評(píng)論文本提取方法,

        信息抽取具體過程如算法2所示.

        算法2:Web文本信息抽取算法

        輸入:產(chǎn)品評(píng)論的URL地址

        輸出:提取產(chǎn)品的評(píng)論文本

        1)算法人口接受產(chǎn)品評(píng)論的URL地址;

        2)判斷URL參數(shù)是否滿足Web文本信息提

        取算法;

        3)若不滿足程序退出;

        4)若滿足,分析網(wǎng)頁Html源代碼中評(píng)論文

        本所在的目標(biāo)節(jié)點(diǎn)class為comment-content的

        div標(biāo)簽;

        5)利用HtmlParser的Tag Filter過濾,將抽取

        的comment-content的文本用node list容器逐個(gè)遍

        歷,提取出網(wǎng)頁中的評(píng)論文本;

        6)將提取出的評(píng)論文本通過2.3節(jié)的文本內(nèi)

        容去噪算法進(jìn)行數(shù)據(jù)清洗;

        7)將清洗去噪后的文本信息,存人到評(píng)論文本

        數(shù)據(jù)庫.

        3 網(wǎng)頁文本內(nèi)容去噪

        網(wǎng)頁去噪包括兩部分:頁面標(biāo)簽去噪和頁面內(nèi)容去噪.由于Web頁面包含很多美化頁面的Css、用于頁面渲染的JavaScript腳本以及為突出某一主題思想的Flash動(dòng)畫,這些噪音內(nèi)容給網(wǎng)頁信息提取造成了很大的障礙,因此標(biāo)簽去噪顯得尤為重要.而Web網(wǎng)頁提取出的內(nèi)容由于瀏覽器解析,或者內(nèi)容本身的原因,有些是與提取主題無關(guān)的內(nèi)容,所以為了減少數(shù)據(jù)庫存儲(chǔ)負(fù)擔(dān),要對(duì)Web網(wǎng)頁進(jìn)行內(nèi)容去噪.標(biāo)簽去噪,在上文中的網(wǎng)頁文本內(nèi)容爬去的時(shí)候通過過濾標(biāo)簽已經(jīng)做到,本節(jié)著重討論對(duì)網(wǎng)頁文本內(nèi)容去噪,關(guān)鍵技術(shù)用到sun在jdk1.4中加入了java.util.regex包的正則表達(dá)式.定義一個(gè)用來匹配噪音字符串的模式PatternPattern,然后一個(gè)Mathcer實(shí)例在這個(gè)給定的Pattern模式的控制下進(jìn)行字符串匹配工作,從而實(shí)現(xiàn)文本去噪,具體過程如算法3所示.

        算法3:文本內(nèi)容去噪算法

        輸入:提取出的產(chǎn)品評(píng)論文本

        輸出:去噪后的產(chǎn)品評(píng)論文本

        1)算法人口接受產(chǎn)品評(píng)論文本;

        2)判斷評(píng)論文本是否滿足去噪算法的條件,

        (commentStr! =nul1) l! (””.equals(commentStr));

        3)若不滿足程序退出;

        4)若滿足,通過Pattern類的compile方法來編譯正則表達(dá)式:Pattern P=Pattern.compile(”^rAza—z]+MYM”),其中”^[A—za—z]-4-MYM”是26個(gè)不區(qū)分大小寫的英文字母的正則表達(dá)式;

        5)對(duì)傳人的評(píng)論文本commentStr以該正則表達(dá)式為模開展匹配,Matcher m=P.matcher(corn—mentStr);

        6)匹配成功的文本進(jìn)行清洗替換操作,StringnewStr= m.replaceAll(””);

        7)最后輸出去噪后的新文本.

        網(wǎng)絡(luò)評(píng)論的迅速增加,提高了文本抽取的難度,但能輕量解析海量數(shù)據(jù)的方法卻很少.本文以HtmlParser為理論基礎(chǔ),通過對(duì)網(wǎng)頁結(jié)構(gòu)分析使用語言和格式規(guī)則進(jìn)行標(biāo)簽篩選,在保持系統(tǒng)性能的基礎(chǔ)上保證了抽取算法的準(zhǔn)確率和回召率.本文首先通過有向圖形式關(guān)聯(lián)的Web網(wǎng)頁數(shù)據(jù)結(jié)構(gòu),提出并實(shí)現(xiàn)了URL采集算法,然后針對(duì)網(wǎng)頁評(píng)論文本的Html結(jié)構(gòu),提出了網(wǎng)頁文本提取算法,并采用模式匹配對(duì)提取出的網(wǎng)頁文本進(jìn)行去噪處理,下一步將繼續(xù)完善評(píng)論文本的抽取算法,解決由電子商務(wù)網(wǎng)站的網(wǎng)頁源代碼風(fēng)格的不同,而導(dǎo)致網(wǎng)頁解析受限制的問題,從而實(shí)現(xiàn)跨網(wǎng)站的通用文本抽取算法.

        作者簡(jiǎn)介:李春輝(1983.12--),講師,研究方向web信息抽取技術(shù)。

        猜你喜歡
        源代碼網(wǎng)頁頁面
        大狗熊在睡覺
        人工智能下復(fù)雜軟件源代碼缺陷精準(zhǔn)校正
        刷新生活的頁面
        基于TXL的源代碼插樁技術(shù)研究
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        軟件源代碼非公知性司法鑒定方法探析
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        揭秘龍湖產(chǎn)品“源代碼”
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        亚洲日本国产精品久久| 国产未成女年一区二区| 亚洲黄色官网在线观看| 国产精品国三级国产a| 久久久久免费看成人影片| 推油少妇久久99久久99久久 | 久久久精品毛片免费观看| 亚洲精品tv久久久久久久久久| 成在人线av无码免费| 韩国三级大全久久网站| 日韩av一区二区三区高清| 国产a国产片国产| 馬与人黃色毛片一部| 国产一区二区三区高清视频| 天堂av网手机线上天堂| 狠狠色综合7777久夜色撩人 | www插插插无码视频网站| 亚洲伊人久久大香线蕉影院| 中文字幕久久熟女人妻av免费| 国产毛片黄片一区二区三区| 久久久久久久岛国免费观看| 精品少妇爆乳无码aⅴ区| 小黄片免费在线播放观看| 国产国语亲子伦亲子| 美女大量吞精在线观看456| 成人特黄特色毛片免费看| 国产精品国三级国产a| 亚洲色婷婷一区二区三区| 亚洲午夜无码久久yy6080| 免费在线观看草逼视频| 丰满少妇作爱视频免费观看| 亚洲成色在线综合网站| 水蜜桃视频在线观看免费18| 亚洲国产国语在线对白观看| 中文字幕一区二区三区人妻少妇| 亚洲日韩区在线电影| 精品一区二区三区a桃蜜| 日本19禁啪啪吃奶大尺度| 亚洲男人天堂2017| 视频一区视频二区亚洲| 亚洲成av人在线观看网址|