亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘在江西鎢產(chǎn)業(yè)技術(shù)預(yù)見領(lǐng)域的應(yīng)用

        2012-03-28 02:35:56鄧林玲
        合作經(jīng)濟(jì)與科技 2012年21期
        關(guān)鍵詞:數(shù)據(jù)挖掘信息

        □文/鄧林玲

        (江西理工大學(xué)江西·贛州)

        一、研究背景

        隨著互聯(lián)網(wǎng)的普及,基于互聯(lián)網(wǎng)的新知識(shí)經(jīng)濟(jì)迅速發(fā)展,互聯(lián)網(wǎng)知識(shí)經(jīng)濟(jì)的是否發(fā)達(dá)或者說全民對(duì)互聯(lián)網(wǎng)的普及應(yīng)用率已經(jīng)成為衡量一個(gè)國(guó)家文明程度和現(xiàn)代化水平高低的新指標(biāo)之一。同時(shí),互聯(lián)網(wǎng)的作用已從最初的簡(jiǎn)單應(yīng)用發(fā)展成為各種信息流的主要傳輸渠道。尤其重要的是,傳統(tǒng)產(chǎn)業(yè)正在或已經(jīng)開始與互聯(lián)網(wǎng)結(jié)緣,并利用它鞏固和擴(kuò)大自己的市場(chǎng)份額?;ヂ?lián)網(wǎng)最大的優(yōu)點(diǎn)是能夠迅速、自由、準(zhǔn)確地在全球范圍廣泛傳播任何信息。對(duì)有色金屬產(chǎn)業(yè)的科學(xué)創(chuàng)新而言,如何從海量的冶金礦業(yè)網(wǎng)站數(shù)據(jù)中提取有關(guān)市場(chǎng)行情的資料,以及從各大有色金屬網(wǎng)站中得到有關(guān)最新資訊、行業(yè)動(dòng)態(tài)、發(fā)展趨勢(shì)等信息,更加顯示出其深遠(yuǎn)的意義性。

        二、Web數(shù)據(jù)挖掘具體流程

        Web數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘方法的一種,最大不同于其他傳統(tǒng)方法的是Web數(shù)據(jù)挖掘是在對(duì)海量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行收集并進(jìn)行闡明的基礎(chǔ)之上,通過采取一種最適合其數(shù)據(jù)類型的數(shù)據(jù)挖掘算法,最終做出分析與評(píng)價(jià),預(yù)測(cè)出所需要的有價(jià)信息,為決策者降低決策風(fēng)險(xiǎn)及為其做出正確的決策提供參考。

        一般來說,一次典型的Web數(shù)據(jù)挖掘具體做法如下:

        (一)問題定義:操作者通過和需求者的協(xié)調(diào)溝通,初步了解需求者的目的,并進(jìn)一步對(duì)該需求提出清晰定義,為后期工作制定總體方向。

        (二)準(zhǔn)備Web數(shù)據(jù)源:定義了問題之后,第二步就是在了解Web相關(guān)知識(shí)的基礎(chǔ)上從互聯(lián)網(wǎng)上各類網(wǎng)站找出所需的數(shù)據(jù)信息網(wǎng)站。

        (三)分析Web數(shù)據(jù)特征:互聯(lián)網(wǎng)上來源不同的數(shù)據(jù)具有完全不同的數(shù)據(jù)特征,甚至對(duì)于相同來源的數(shù)據(jù),其數(shù)據(jù)特征也不盡相同。因此,對(duì)數(shù)據(jù)信息網(wǎng)站中各類數(shù)據(jù)的特征進(jìn)行分析是非常有必要的。

        (四)選擇抽取技術(shù):對(duì)于具有不同數(shù)據(jù)特征的數(shù)據(jù),其相對(duì)應(yīng)的算法也是不一樣的,這一步就是要根據(jù)其不同數(shù)據(jù)特征,選取一種或多種合適的算法。

        (五)設(shè)計(jì)程序:確定了一種或者多種合適的算法之后,還需要把這一算法以計(jì)算機(jī)程序語言的方式加以實(shí)現(xiàn)。

        (六)Web數(shù)據(jù)預(yù)處理:檢查數(shù)據(jù)的一致完整性、去除數(shù)據(jù)中的噪聲、刪除無效的數(shù)據(jù)、填補(bǔ)因各種原因丟失的域、規(guī)范數(shù)據(jù)的格式,最后對(duì)獲得的數(shù)據(jù)進(jìn)行再加工。

        (七)綜合評(píng)價(jià)與知識(shí)運(yùn)用:對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析和評(píng)價(jià),首先需要選取最合適的模型并將其構(gòu)建出來,最終把通過該模型分析評(píng)價(jià)獲得結(jié)果,并應(yīng)用到需求系統(tǒng)中去。

        有關(guān)鎢信息網(wǎng)站的Web數(shù)據(jù)挖掘具體流程如圖1所示。(圖1)

        圖1Web數(shù)據(jù)挖掘流程

        三、網(wǎng)站W(wǎng)eb數(shù)據(jù)結(jié)構(gòu)特征分析

        由于包含有鎢信息的網(wǎng)站中的Web數(shù)據(jù)并非都如專業(yè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)一樣具有很完善的結(jié)構(gòu)性,相比之下Web數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)非常少。一些有色金屬的網(wǎng)站中的Web數(shù)據(jù)看似具有結(jié)構(gòu)化數(shù)據(jù)具備的一些特征,但其實(shí)只是形式上的表現(xiàn),而非真正內(nèi)容上的結(jié)構(gòu)化。由于有關(guān)鎢信息的網(wǎng)站涉及面非常廣泛,所以其數(shù)據(jù)的結(jié)構(gòu)特征互不相同且非常復(fù)雜。

        網(wǎng)頁文件本身其實(shí)是一種特殊的文本文件,要想通過瀏覽器讓其顯示網(wǎng)站中的內(nèi)容,就需要在這種特殊的文本文件中加入標(biāo)記符。目前大部分網(wǎng)站的編程語言都是采用超文本標(biāo)記語言(HTML)來標(biāo)記網(wǎng)頁中的各個(gè)部分以顯示內(nèi)容的,這種HTML中特有的標(biāo)記符通常被人們稱為HTML標(biāo)簽,即把關(guān)鍵詞用尖括號(hào)包圍起來表示,比如〈html〉。由于元素內(nèi)容是要通過被放在兩個(gè)標(biāo)簽之間來實(shí)現(xiàn)的,所以HTML標(biāo)簽通常以成對(duì)的形式出現(xiàn),例如把元素內(nèi)容加在開始標(biāo)簽〈b〉和結(jié)束標(biāo)簽〈/b〉之間形成整體。但在一些特殊情況下,HTML標(biāo)簽有時(shí)也會(huì)單獨(dú)出現(xiàn),例如〈p〉、〈br〉等,還有如〈font〉之類用于顯示效果的標(biāo)記符。正是由于這些屬性的存在,HTML語言不能成為完全的結(jié)構(gòu)化語言。通過對(duì)Web中數(shù)據(jù)的分析,可以發(fā)現(xiàn)其數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)為樹狀結(jié)構(gòu),一般稱其為文檔對(duì)象化模型樹(DOMtree),如圖2所示。(圖2)

        圖2DOM樹模型

        四、有關(guān)鎢的網(wǎng)站網(wǎng)頁的數(shù)據(jù)抽取

        鎢的網(wǎng)站網(wǎng)頁數(shù)據(jù)抽取算法步驟如下:

        (一)對(duì)Web頁面進(jìn)行聚類處理。通常情況下,一個(gè)網(wǎng)站發(fā)布后,其中往往會(huì)含有很多個(gè)網(wǎng)頁。這些頁面數(shù)據(jù)的內(nèi)容雖然不盡相同,但其數(shù)據(jù)結(jié)構(gòu)是非常相似甚至相同的。因此,可以試著以其中的某一個(gè)頁面為基礎(chǔ)新建一個(gè)模板,其他的頁面都以這個(gè)模板中數(shù)據(jù)的結(jié)構(gòu)作為參考進(jìn)行比較,最終將具有相同或者相似數(shù)據(jù)結(jié)構(gòu)的頁面給按類別聚集到一起。

        (二)構(gòu)造包裝器進(jìn)行數(shù)據(jù)抽取。分析HTML標(biāo)記并以HTML語言半結(jié)構(gòu)化的特征為出發(fā)點(diǎn)預(yù)先制定一個(gè)映射規(guī)則,然后在此基礎(chǔ)上構(gòu)造一個(gè)映射包裝器對(duì)數(shù)據(jù)進(jìn)行抽取。包裝器按照事先預(yù)先制定的映射規(guī)則,從來自于Web的數(shù)據(jù)源中抽取需要的數(shù)據(jù)信息,并進(jìn)一步對(duì)其形式進(jìn)行轉(zhuǎn)化處理,使之成為一種能被進(jìn)一步處理的數(shù)據(jù),最后以某種數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)方式將其儲(chǔ)存起來。

        (三)獲取Web頁文本代碼。在經(jīng)常使用的眾多代碼獲取方法中選擇出一種或幾種方法來獲取Web頁動(dòng)態(tài)文本。本文擬采用和WebClient類和XMLHTTP類對(duì)URL中的文本代碼進(jìn)行讀取。

        (四)對(duì)經(jīng)過再處理的文本代碼進(jìn)行數(shù)據(jù)抽取。在遵守包裝器的抽取法則的前提下,本文擬采用反序索引的方法對(duì)數(shù)據(jù)進(jìn)行排序,抽取出其中有價(jià)值的數(shù)據(jù)。

        (五)對(duì)抽取的數(shù)據(jù)進(jìn)行再處理。將其中的亂碼和不必要的空格去除,并且將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,為下一步將其保存到數(shù)據(jù)庫(kù)中做好準(zhǔn)備工作。

        (六)將數(shù)據(jù)信息儲(chǔ)存到數(shù)據(jù)庫(kù)中。以上工作全部完成后,即可以把所獲得的最終數(shù)據(jù)儲(chǔ)存到一個(gè)新建的專門數(shù)據(jù)庫(kù)之中。

        (七)對(duì)結(jié)果進(jìn)行分析與評(píng)價(jià)。最后用Web數(shù)據(jù)挖掘工具對(duì)獲得信息進(jìn)行分析與評(píng)價(jià)是必不可少的過程,此部分工作提高了最終信息的質(zhì)量且使所獲得的信息具有可用性,從而滿足最終的需求。

        五、結(jié)論與建議

        (一)通過對(duì)有關(guān)鎢礦的網(wǎng)站數(shù)據(jù)分析,發(fā)現(xiàn)我們要尋找的有用數(shù)據(jù)信息通常存在于〈table〉〈/table〉、〈td〉〈/td〉標(biāo)簽中,且在這些標(biāo)簽中的表格同時(shí)是數(shù)據(jù)列表和網(wǎng)頁布局。通過對(duì)HTML中表格數(shù)據(jù)的研究不難發(fā)現(xiàn),一個(gè)網(wǎng)頁中的數(shù)據(jù)區(qū)域通常都是由相類似的數(shù)據(jù)表格所組成的。因此,可以尋求一種遍歷和通過計(jì)算DOM樹模型中各相鄰節(jié)點(diǎn)之間的相似度來挖掘網(wǎng)頁數(shù)據(jù)區(qū)域的算法。

        (二)用數(shù)據(jù)挖掘工具獲得信息與知識(shí)始終是為了滿足需求者的需求,因此對(duì)挖掘出來的信息與知識(shí)進(jìn)行解釋是必不可少的過程,尤其是針對(duì)非專業(yè)的需求者,如何以一種易于理解的方式將挖掘出來的數(shù)據(jù)匯總成可以獨(dú)立使用的結(jié)果并加以闡明,是關(guān)鍵的一步。利用合適的工具和技術(shù)對(duì)挖掘出來的信息進(jìn)行分析與評(píng)價(jià),最終使得到的信息具有直接可用性。

        [1]邢平平,施鵬飛.數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)數(shù)據(jù)中的有效應(yīng)用.計(jì)算機(jī)工程與應(yīng)用,2001.2.

        [2]楊杰,葉晨洲,陳念貽.數(shù)據(jù)挖掘平臺(tái)及其應(yīng)用.系統(tǒng)仿真學(xué)報(bào),2001.13.6.

        [3]蘇衛(wèi).數(shù)據(jù)挖掘工具的應(yīng)用與標(biāo)準(zhǔn)化[J].計(jì)算機(jī)工程(增刊),2008.30.

        [4]王闖舟.PMML實(shí)現(xiàn)高速便捷的數(shù)據(jù)挖掘[J].金融電子化,2007.4.

        猜你喜歡
        數(shù)據(jù)挖掘信息
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會(huì)信息
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        中文字幕国产欧美| 亚洲国产亚综合在线区| 亚洲小说图区综合在线| 亚洲欧美日韩国产综合一区二区 | 国产色无码精品视频国产| 98bb国产精品视频| 日韩精品不卡一区二区三区 | 国产免费一区二区三区在线观看| 国产丝袜免费精品一区二区| 少妇人妻无一区二区三区| 国产99视频精品免视看7| 国产无遮挡又黄又爽又色| 国产成人精品日本亚洲直播| 蜜桃在线高清视频免费观看网址| 亚洲亚洲人成综合丝袜图片| 国产精品麻花传媒二三区别| 精品黄色av一区二区三区| 人妻少妇精品视中文字幕免费| 亚洲精品成人av在线| 欧美日韩另类视频| 精品在线视频免费在线观看视频 | 久久亚洲中文字幕无码| 亚洲综合国产成人丁香五月小说| 久久亚洲免费精品视频| 欧美大屁股xxxx高跟欧美黑人 | 白白色视频这里只有精品| 亚洲熟妇自偷自拍另欧美| 国产精品密播放国产免费看 | 91精品福利观看| 亚洲一本之道高清在线观看| 国产精品一区二区久久国产| 欧美国产精品久久久乱码| 亚洲欧美日韩高清一区二区三区 | 熟女人妻中文字幕一区| 亚洲免费国产中文字幕久久久| 欧美最猛性xxxxx免费| 亚洲 暴爽 AV人人爽日日碰| 日本岛国一区二区三区四区| 成年女人a毛片免费视频| 一本久道久久综合久久| 国产一区精品二区三区四区|