文本信息抽取算法研究

2017-06-03 20:28:20李春輝

科學(xué)與財(cái)富 2017年15期

（黑龍江工商學(xué)院黑龍江哈爾濱 150025）

隨著商品在線評(píng)論數(shù)量的驟然增加，消費(fèi)者要想找出商品評(píng)論中的有用信息需要消耗大量精力.因此對(duì)這些散落在Html網(wǎng)頁中無結(jié)構(gòu)的信息進(jìn)行提取、分析，不僅能夠幫助消費(fèi)者從海量的文本中快速獲得有效的信息，節(jié)省人力成本，也可以幫助企業(yè)改進(jìn)產(chǎn)品、提高質(zhì)量，從而為電子商務(wù)產(chǎn)品推薦提供一種新的營(yíng)銷模式.為有效的抽取互聯(lián)網(wǎng)上的信息，網(wǎng)絡(luò)文本信息非結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù)、網(wǎng)絡(luò)文本信息采集技術(shù)和細(xì)粒度數(shù)據(jù)挖掘技術(shù)應(yīng)用而生.信息抽取技術(shù)是通過對(duì)網(wǎng)頁進(jìn)行處理，從半結(jié)構(gòu)化或者非結(jié)構(gòu)化的Web頁面中抽取出用戶感興趣的信息和內(nèi)容，并將其轉(zhuǎn)化成清晰的結(jié)構(gòu)形式.

信息采集技術(shù)是指通過分析網(wǎng)頁Html代碼，獲取網(wǎng)頁內(nèi)的超鏈接信息，并使用廣度優(yōu)先遍歷算法、深度優(yōu)先遍歷算法、增量存儲(chǔ)算法等實(shí)現(xiàn)自動(dòng)連續(xù)的分析鏈接、抓取文件、處理和保存數(shù)據(jù)的過程.細(xì)粒度挖掘技術(shù)深入到產(chǎn)品特征層面，能夠提取到評(píng)價(jià)信息中涉及的評(píng)價(jià)對(duì)象、評(píng)價(jià)詞以及對(duì)應(yīng)的評(píng)價(jià)傾向等意見要素，從而為一些實(shí)際應(yīng)用提供必要的細(xì)節(jié)信息.而目前根據(jù)抽取技術(shù)和依據(jù)理論的不同，主要有RAPIERE 、WHISKt 和SRV基于自然語言的信息抽取，STAI KER，SOFTMEAI Y和WINE基于包裝歸納的信息抽取，WebQLE基于Web查詢的信息抽取，基于文檔結(jié)構(gòu)模型和網(wǎng)頁模板的DOM 信息抽取。

面對(duì)海量數(shù)據(jù)，抽取技術(shù)的性能是一個(gè)十分重要的評(píng)價(jià)指標(biāo)，而通過網(wǎng)頁結(jié)構(gòu)分析并使用語言和格式規(guī)則進(jìn)行標(biāo)簽篩選的技術(shù)卻很少.HtmlParser是不依賴于庫文件的輕量級(jí)解析器，通過語言與格式規(guī)則進(jìn)行標(biāo)簽篩選，過濾目標(biāo)數(shù)據(jù)，在保持系統(tǒng)抽取效率的基礎(chǔ)上保證抽取算法的準(zhǔn)確性.本文首先介紹了URI 采集以及文本抽取的過程，其次給出了URL采集和文本抽取算法的關(guān)鍵步驟，再次通過舉例實(shí)現(xiàn)了URL采集和文本抽取算法，表明了基于語言和格式規(guī)則的HtmlParser標(biāo)簽解析技術(shù)的性能和優(yōu)勢(shì).采用HtmlParser解析網(wǎng)頁，得到URL采集庫，對(duì)庫中URL所指向的頁面進(jìn)行標(biāo)簽解析從而實(shí)現(xiàn)文本提取的關(guān)鍵部分.

1 URL信息采集算法

信息采集過程的算法設(shè)計(jì)思想是：首先由一個(gè)初始URL對(duì)隊(duì)列進(jìn)行初始化，然后從隊(duì)列中取出一個(gè)元素，獲取此元素所指向的Web頁面，對(duì)頁面進(jìn)行網(wǎng)頁源代碼解析，得到目標(biāo)標(biāo)簽中的URL，將其入隊(duì)，然后重復(fù)上面的過程，不斷執(zhí)行入隊(duì)一出隊(duì)一解析一獲得URL的循環(huán)操作，直到根據(jù)采集策略停止算法，具體過程

算法1：URL采集算法

輸入：初始URL

輸出：URL采集庫

1）首先判斷參數(shù)URL是否為Null；

2）如果為Null，程序退出；否則，根據(jù)URL得

到Html頁面；

3）利用頁面解析器HtmlParser解析網(wǎng)頁；

4）分析Html源代碼中具體URL信息所在節(jié)

點(diǎn)< a> 標(biāo)簽；

5）利用標(biāo)簽的href屬性，過濾得到下一

頁的網(wǎng)頁URL地址；

6）將步驟5中的URL地址值傳到步驟1，重復(fù)