亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Delphi的Web文本獲取方法

2016-03-21 12:58:52劉建培

計(jì)算機(jī)時(shí)代 2016年3期

劉建培

摘要：提出基于delphi的Web文本獲取方法，從網(wǎng)頁(yè)中獲取Web頁(yè)面格式的源文件（.html文件），分析它的結(jié)構(gòu)信息，處理它的控制符，通過分析過濾源文件的格式來提取網(wǎng)頁(yè)中的文本信息。利用標(biāo)點(diǎn)符號(hào)對(duì)文本信息進(jìn)行章節(jié)、段落、句子等預(yù)處理，將文本信息轉(zhuǎn)換成句子序列，讓用戶快速地定位到需要了解的內(nèi)容，從而讓用戶遠(yuǎn)離釣魚網(wǎng)站、惡意廣告、欺詐信息以及在瀏覽網(wǎng)頁(yè)內(nèi)容時(shí)產(chǎn)生的騷擾，提高互聯(lián)網(wǎng)體驗(yàn)。

關(guān)鍵詞： Delphi；文本獲??； HTML；控制符

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1006-8228（2016）03- -03

A Web text acquisition method

Liu Jianpei

（Educational technology center of Guangdong university of finance & economics， Guangzhou， Guangdong 510320， China）

Abstract： In this paper， a method of Web text acquisition with Delphi is proposed， which obtains the source files of the Web page format （.Html file） from the Web page， analyzes its structure information， deals with its control character， and extracts the text information from the Web page by analyzing and filtering the source files formats. The method makes use of punctuation marks to preprocess the text information for sections， paragraphs and sentences， converts the text information into sentence sequences， which allows the users to quickly navigate to the contents needed to know， allows the users to stay away from phishing sites， malicious advertising， fraud information and the harassment generated by browsing the content of Web pages， and improves their Internet experience.

Key words： Delphi； text acquisition； HTML； control character

0 引言

互聯(lián)網(wǎng)時(shí)代，各式各樣的站點(diǎn)中積累了豐富的文檔資料，其中不僅有名目繁多的技術(shù)資料和新聞資訊，還有眾多用戶的觀點(diǎn)和評(píng)論。人們?yōu)g覽網(wǎng)頁(yè)文檔資料獲得所需要的信息，也難免受到釣魚網(wǎng)站、惡意廣告、欺詐信息及各種騷擾，用戶為個(gè)人隱私及數(shù)據(jù)安全而煩惱。本文提出基于delphi的Web文本獲取，快速地定位需要了解的內(nèi)容，從而讓用戶遠(yuǎn)離煩惱，提高互聯(lián)網(wǎng)體驗(yàn)。

1 實(shí)現(xiàn)步驟

⑴ 獲取論壇文檔：輸入一個(gè)論壇文檔的網(wǎng)址，獲取網(wǎng)頁(yè)源碼，對(duì)網(wǎng)頁(yè)源碼過濾，最終獲取文檔文本。

⑵ 文本處理：能利用標(biāo)點(diǎn)符號(hào)對(duì)文檔進(jìn)行章節(jié)、段落、句子等預(yù)處理工作，將文檔轉(zhuǎn)換成句子序列。

2 獲取Web文本

系統(tǒng)首先在線從網(wǎng)頁(yè)中獲取Web頁(yè)面[4]格式的源文件，通過分析過濾源文件（.html文件）的格式，提取網(wǎng)頁(yè)中的文本信息。

網(wǎng)頁(yè)信息是用HTML（Hypertext Markup Language）語(yǔ)言書寫的，我們要對(duì)其中的文本信息進(jìn)行提取，必須首先分析它的結(jié)構(gòu)信息[5]。對(duì)網(wǎng)頁(yè)進(jìn)行分析之后，可以得出指導(dǎo)我們進(jìn)行文本內(nèi)容提取的特征。

⑴ 由文本和tag串組成。對(duì)于客戶端接收到的信息，除去視頻信息、音頻信息等二進(jìn)制數(shù)據(jù)外，剩余的文本信息可分為兩部分：一是起控制作用的標(biāo)識(shí)符，屬于HTML語(yǔ)法的一部分，成為Tag String，它們的特點(diǎn)是由“<”和“>”以及它們中間的字串組成，如，<BR>等；二是文本字符串，就是瀏覽網(wǎng)頁(yè)時(shí)真正看到的文字信息。這些文字信息才是網(wǎng)頁(yè)的真正內(nèi)容。<br>⑵ 結(jié)構(gòu)信息明顯。對(duì)于普通的文本文檔，識(shí)別標(biāo)題、小標(biāo)題、段首句等結(jié)構(gòu)信息是一項(xiàng)十分困難的工作，然而在HTML中，由于有控制標(biāo)識(shí)符表明這些結(jié)構(gòu)信息，識(shí)別它們就變得十分的簡(jiǎn)單，在分類過程中可以參考這些信息。<br>在HTML文檔中出現(xiàn)的各種控制符號(hào)，我們不可能也沒必要把所有的都考慮進(jìn)去，為了簡(jiǎn)化分析處理過程而又能滿足提取網(wǎng)頁(yè)文本內(nèi)容的需要，我們僅考慮下面的控制符。<br>⑶ 標(biāo)題：即Web頁(yè)面源代碼中用<TITLE>和標(biāo)記的文字。實(shí)際瀏覽時(shí)，它會(huì)出現(xiàn)在瀏覽器界面最上方標(biāo)題欄中。標(biāo)題中的內(nèi)容與網(wǎng)頁(yè)的主題關(guān)系非常密切，起著概括全篇的重要作用。

⑷ 關(guān)鍵字：在網(wǎng)頁(yè)的頭部說明中可以使用形式說明本頁(yè)的關(guān)鍵字，這種信息在論文類文章中經(jīng)常出現(xiàn)，而且一旦出現(xiàn)，就可以直接根據(jù)這些關(guān)鍵字確定文章類別。這些詞匯對(duì)文章類別的決定程度遠(yuǎn)高于其他單詞，通常，這些關(guān)鍵字都是專業(yè)詞匯。

⑸ 頁(yè)面描述：與關(guān)鍵字類似，在網(wǎng)頁(yè)的頭部說明中可以使用的形式來描述頁(yè)面內(nèi)容，類似于文章摘要，簡(jiǎn)要說明本頁(yè)的內(nèi)容。因此，在這種頁(yè)面描述中出現(xiàn)的詞匯同文章類別的關(guān)系要比正文中的詞匯同正文的關(guān)系更密切。

在Delphi中，要用到第三方控件TLegHtmlParser，用它來解析網(wǎng)頁(yè)，主要用于html網(wǎng)頁(yè)的轉(zhuǎn)換以及網(wǎng)頁(yè)內(nèi)容的抽取，關(guān)鍵代碼：

procedure TForm1.LegHtmlParser1Text （Sender：

TObject； Token： String）；

//獲取html文本

begin

if Token <> #160 then //html轉(zhuǎn)義字符不等于不斷開空格

begin

richedit1.Text：=richedit1.Text+Token+' '；

CanBreak：=true

end

end；

procedure TForm1.LegHtmlParser1Tag （Sender：

TObject； HtmlTag： String； Attributes： TStringList）；

//處理html標(biāo)識(shí)符

begin

if （（CompareText （HtmlTag， 'br'）=0） or

（CompareText （HtmlTag， 'p'）=0） or

（CompareText （HtmlTag， '/p'）=0） or

（CompareText （Copy （HtmlTag， 1， 1）， 'h'）=0） or

（CompareText （Copy （HtmlTag， 1， 2）， '/h'）=0））

and CanBreak then

begin

richedit1.lines.add （''）；

CanBreak：=false

end

end；

3 文本處理

文本處理的主要任務(wù)是對(duì)文檔進(jìn)行章節(jié)、段落、句子等劃分，主要以標(biāo)點(diǎn)符號(hào)為劃分依據(jù)。符號(hào)對(duì)于語(yǔ)法或者語(yǔ)義的影響可能比較大，但是對(duì)于文本處理而言，符號(hào)就是句子間隔，將輸入的原文本按照其所屬章節(jié)、段落和句子等信息進(jìn)行標(biāo)記。

另外中心主旨的句式多為陳述句，像感嘆句、疑問句等特殊句式，一般不直接表達(dá)文章的中心主旨，考慮這些因素，因此在文檔處理分析時(shí)，不對(duì)該類句式進(jìn)行處理。在進(jìn)行文檔劃分時(shí)，還應(yīng)該考慮到全角、半角標(biāo)點(diǎn)標(biāo)號(hào)的區(qū)別，為保證文本標(biāo)識(shí)的準(zhǔn)確性，還要處理文本的各種標(biāo)點(diǎn)符號(hào)，識(shí)別文本的結(jié)構(gòu)，最終達(dá)到以句子為單位對(duì)文本進(jìn)行分隔的目的。

處理各種標(biāo)點(diǎn)符號(hào)的代碼本文不一一列舉，在此僅列舉分段、分句的代碼：

intpcount：=0； //段落數(shù)

s：=0； //句子數(shù)統(tǒng)計(jì)

line：=0； //行數(shù)

startposp：=0； //當(dāng)前段落位置

startposs：=0； //當(dāng)前句子位置

toendp：=length（richedit1.Text）； //當(dāng)前段落結(jié)束位置

foundatp：=richedit1.FindText（#13，startposp，toendp，

[stMatchCase]）； //判斷是否段落結(jié)束

while foundatp<>-1 do //段落沒結(jié)束，則句子處理

begin

intscount：=0； //句子數(shù)

toends：=foundatp-startposs； //當(dāng)前句子結(jié)束位置

foundats：=richedit1.FindText（'。'，startposs，toends，

[stMatchCase]）； //判斷是否句子結(jié)束

while foundats<>-1 do //句子沒結(jié)束，則字符處理

begin

richedit1.SelStart：=startposs； //選取字符開始位置

richedit1.SelLength：=foundats+2-startposs； //字符長(zhǎng)度

if length（trim（richedit1.SelText））>=4 then

//判斷是字符，則處理字符

begin

intscount：=intscount+1； //句子統(tǒng)計(jì)

stringgrid1.RowCount：=line+1； //列數(shù)加1

stringgrid1.Rows[line].add（trim（richedit1.SelText））；

//把字符寫入當(dāng)前列

stringgrid4.RowCount：=line+2； //換列

line：=line+1； //換行

end；

startposs：=foundats+2； //當(dāng)前句子位置

toends：=foundatp-startposs； //下一句子結(jié)束位置

foundats：=richedit1.FindText（'。'，startposs，toends，

[stMatchCase]）； //判斷下一句是否結(jié)束

end；

if intscount<>0 then

begin

intpcount：=intpcount+1； //段落加1，統(tǒng)計(jì)段落數(shù)

richedit2.Lines.Add（'第'+inttostr（intpcount）+'段被分

解為'+inttostr（intscount）+'個(gè)句子'）； //輸出“第X段被分解為X個(gè)句子”

s：=s+intscount； //句子加1，統(tǒng)計(jì)句子數(shù)

end；

startposp：=foundatp+2； //當(dāng)前段落位置

toendp：=length（richedit1.Text）+3-startposp；

//下一段落結(jié)束位置

foundatp：=richedit1.FindText（#13，startposp，toendp，

[stMatchCase]）； //判斷下一段落是否結(jié)束

end；

SetOptimalGridCellWidth（stringgrid1，[]）；

//設(shè)置輸出網(wǎng)格的合適列寬

richedit2.Lines.add（'文檔共分為'+inttostr（intpcount）+'段，'

+inttostr（s）+'句。'）； //輸出“文檔共分為X段X句”

4 結(jié)束語(yǔ)

本系統(tǒng)采用Delphi 7.0進(jìn)行設(shè)計(jì)，Delphi是全新的可視化編程環(huán)境，為我們提供了一種方便、快捷的Windows應(yīng)用程序開發(fā)工具。通過Delphi開發(fā)Web文本獲取，分析過濾源文件的格式來提取網(wǎng)頁(yè)中的文本信息，將文本信息轉(zhuǎn)換成句子序列，讓用戶快速地定位需要了解的內(nèi)容，從而讓用戶遠(yuǎn)離煩惱，提高互聯(lián)網(wǎng)體驗(yàn)。

參考文獻(xiàn)（References）：

[1] （美）Steve Teixeira Xavier Pacheco著.Delphi 6開發(fā)人員指

南[M].機(jī)械工業(yè)出版社，2002.

[2] （美）Marco Cantu著.Delphi 7從入門到精通[M].電子工業(yè)出

版社，2003.

[3] 王秀娟編著.Delphi 4.0/5.0 高級(jí)類參考詳解[M].清華大學(xué)

出版社，1999.

[4] 韓客松，王永成，騰偉.Web頁(yè)面中文文本主題的自動(dòng)提取研

究[J].情報(bào)學(xué)報(bào)，2001.4：33-36

[5] 王繼成，武港山.一種篇章結(jié)構(gòu)指導(dǎo)的中文Web文檔自動(dòng)摘

要方法[J].計(jì)算機(jī)研究與發(fā)展，2003.40（3）：398-404

計(jì)算機(jī)時(shí)代2016年3期

計(jì)算機(jī)時(shí)代的其它文章: GPS+WIFI室內(nèi)外混合定位服務(wù)系統(tǒng)研究; 一種融合角點(diǎn)特征匹配的人臉優(yōu)化識(shí)別方法; 硅基納米波導(dǎo)中皮秒脈沖整形數(shù)值模擬; 基于HTML5跨平臺(tái)高校就業(yè)信息服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn); 計(jì)算機(jī)化考試的改革探索與實(shí)踐研究; 推進(jìn)河南教育信息化建設(shè)進(jìn)程對(duì)策研究