亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云環(huán)境中web信息抓取技術(shù)的研究及應(yīng)用

        2016-09-12 02:34:37魏利峰紀(jì)建偉王曉斌
        電子設(shè)計工程 2016年4期
        關(guān)鍵詞:中間件本體軟件

        魏利峰,紀(jì)建偉,王曉斌

        (1.沈陽航空航天大學(xué) 遼寧 沈陽 110136;2.沈陽農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院,遼寧 沈陽 110866)

        云環(huán)境中web信息抓取技術(shù)的研究及應(yīng)用

        魏利峰1,2,紀(jì)建偉2,王曉斌1

        (1.沈陽航空航天大學(xué) 遼寧 沈陽 110136;2.沈陽農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院,遼寧 沈陽 110866)

        云平臺的出現(xiàn)改變了傳統(tǒng)的行業(yè)發(fā)展模式,基于互聯(lián)網(wǎng)的信息共享與合作發(fā)展為代表的團(tuán)隊共贏模式加快了網(wǎng)絡(luò)數(shù)據(jù)發(fā)展的速度,因而帶來了互聯(lián)網(wǎng)的大數(shù)據(jù)現(xiàn)象。對互聯(lián)網(wǎng)信息的有效使用和動態(tài)感知,能夠確定本部門的發(fā)展戰(zhàn)略,是網(wǎng)絡(luò)信息應(yīng)用研究的核心任務(wù)。通過對Web網(wǎng)頁信息抓取技術(shù)的方式對網(wǎng)絡(luò)信息系統(tǒng)進(jìn)行研究,提出使用垂直搜索技術(shù)是在適應(yīng)云平臺環(huán)境中大數(shù)據(jù)現(xiàn)象的對策,得出了新聞型與數(shù)據(jù)密集型網(wǎng)頁信息變化的動態(tài)掌握方式。

        大數(shù)據(jù)與云環(huán)境;中間件層;軟件服務(wù);信息抓取

        雖然云時代悄然而知,但是現(xiàn)實中的互聯(lián)網(wǎng)數(shù)據(jù)還有更新速度快,用戶無法感知;信息推送不及時,造成有效信息浪費的現(xiàn)象。面對云環(huán)境與大數(shù)據(jù)的挑戰(zhàn),經(jīng)厲信息網(wǎng)絡(luò)浪潮中的駕馭,梳理出云時代的信息特點是:1)信息的快速傳播特性,快速實現(xiàn)大規(guī)模信息傳遞;大集合的管理思想;信息的批量傳送;盡可能實現(xiàn)信息的快速交付;2)個性化技術(shù)支持與服務(wù)特性,信息傳播的目的性和針對性符合用戶需要,即信息使用的有效性。

        如何更有效地組織和獲取網(wǎng)絡(luò)數(shù)據(jù),如何將網(wǎng)頁中用戶感興趣的信息準(zhǔn)確的抽取出來,并以具有語義的結(jié)構(gòu)化的形式保存下來,以供用戶查詢分析,形成決策的支持。研究人員開創(chuàng)了Web信息抽取這個研究領(lǐng)域,本文對信息搜索技術(shù)原理進(jìn)行比較,發(fā)現(xiàn)一種能夠應(yīng)用在中間件層的網(wǎng)絡(luò)信息抓取技術(shù)。并將其應(yīng)用于云平臺中的教學(xué)管理體系中,作為云教學(xué)發(fā)展的雛形。遵從軟件工程思想,在云平臺與網(wǎng)絡(luò)使用者中間,建立中間件層的軟件服務(wù)。為教學(xué)信息的云管理拓寬了道路。

        1 信息搜索的研究

        1.1 信息抽取技術(shù)的發(fā)展現(xiàn)狀

        在網(wǎng)絡(luò)信息量不多的時代,工作人員獲得數(shù)據(jù)往往是從互聯(lián)網(wǎng)中進(jìn)行廣泛的數(shù)據(jù)挖掘,如谷歌和百度提供了強(qiáng)有力的搜索引擎,成為早期信息挖掘的工具。目前互聯(lián)網(wǎng)的發(fā)展趨勢是網(wǎng)站的信息量爆發(fā)式增長,云存儲與共享合作的現(xiàn)象不斷出現(xiàn);專業(yè)集中發(fā)展,網(wǎng)站的信息不斷更新,有超出個人接受能力的趨勢。研究云環(huán)境與大數(shù)據(jù)中的信息搜索技術(shù)具有很強(qiáng)的實用性。

        從數(shù)據(jù)挖掘的觀點看,Web信息抽取是Web數(shù)據(jù)挖掘的重要組成部分。Web挖掘主要分3類:Web結(jié)構(gòu)挖掘(主要為超鏈接的分析)、Web使用記錄挖掘(日志挖掘)、Web內(nèi)容挖掘。從搜索方向上劃分,有平行搜索和垂直搜索,在云環(huán)境中要完成時間最少和資源利用最高[1],選擇垂直搜索。其中垂直搜索技術(shù)是深度的對某一行業(yè)的專業(yè)搜索引擎,是對網(wǎng)頁庫中的某類專門信息的一次整合[2],定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化的數(shù)據(jù)。垂直信息抽取技術(shù)的應(yīng)用研究更具有意義。垂直信息搜索可以根據(jù)特定用戶群的需要抓取網(wǎng)站中的業(yè)務(wù)元數(shù)據(jù),供用戶查詢或其他應(yīng)用程序所利用,也可用于提供信息推薦,垂直搜索技術(shù)具有更加廣泛的應(yīng)用價值。

        1.2 信息抽取技術(shù)的相關(guān)原理

        使用信息搜索需要掌握spider、網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)或元數(shù)據(jù)采集技術(shù)、分詞、索引、Xhtml。下面介紹本體的概念定義,基于知識本體模型的基本概念以字、詞為名稱的語言載體,是表達(dá)知識的最小語義單元[3]。本體(ontology)是對自然存在及其本質(zhì)的研究,本體所反映的是事物本質(zhì)的,科學(xué)的內(nèi)涵?;靖拍钜揽棵Q、屬性、關(guān)系和行為描述彼此間的語義關(guān)聯(lián)。在計算機(jī)科學(xué)中,人工智能領(lǐng)域的學(xué)者最先將本體的概念從哲學(xué)中借用過來。形式化是指本體是機(jī)器可讀的(即能被計算機(jī)處理),而不是完全用自然語言表達(dá)。

        定義本體的方法:用人工的方式書寫某個領(lǐng)域的本體(包括對象的模式信息、常值、關(guān)鍵字的描述信息,其中常值和關(guān)鍵字提供了語義項的描述信息)。下面是一個用于抽取數(shù)碼相機(jī)信息的應(yīng)用本體的片段 (取自于BYU信息抽取小組開發(fā)的信息抽取系統(tǒng)的Demo)。

        上面的代碼是本體定義的例子,即本體是具體事件名稱和具有的特征組成的集合,定義本體以后,抽取系統(tǒng)根據(jù)邊界分割符和啟發(fā)式規(guī)則信息將源文檔分割為多個描述某一事物不同實例的無結(jié)構(gòu)的文本塊,然后根據(jù)本體中常值和關(guān)鍵字的描述信息產(chǎn)生抽取規(guī)則,對每個無結(jié)構(gòu)的文本塊進(jìn)行抽取獲得各個語義項的值,最后將抽取出的結(jié)果放入根據(jù)本體描述信息生成的數(shù)據(jù)庫中。圖1所示為使用了本體方式的軟件Netget對中國網(wǎng)絡(luò)教育熱門招生專業(yè)的信息抓取結(jié)果。

        圖1 中國網(wǎng)絡(luò)教育最熱門專業(yè)抓取結(jié)果Fig.1 China’s most popular professional online education crawl results

        2 網(wǎng)絡(luò)體系的分層結(jié)構(gòu)

        基于云計算的網(wǎng)絡(luò)教育與培訓(xùn)的網(wǎng)絡(luò)架構(gòu),是資源共享,以服務(wù)為核心,滿足業(yè)務(wù)業(yè)務(wù)的彈性需求,網(wǎng)絡(luò)中使用了虛擬化技術(shù)、動態(tài)集群和資源的按需調(diào)度等關(guān)鍵技術(shù)為應(yīng)用提供彈性擴(kuò)展的能力,云計算的3層服務(wù)模式,即軟件即服務(wù)、平臺即服務(wù)、基礎(chǔ)架構(gòu)即服務(wù)的層次關(guān)系。依據(jù)國際標(biāo)準(zhǔn)化組織制定的網(wǎng)絡(luò)分層的結(jié)構(gòu),任何網(wǎng)絡(luò)系統(tǒng)的通信是由網(wǎng)絡(luò)層到應(yīng)用層的逐級遞交的。就教學(xué)網(wǎng)絡(luò)系統(tǒng)云平臺的組成中,應(yīng)用服務(wù)器的集群研究[4],運(yùn)輸層執(zhí)行的任務(wù)出現(xiàn)了集聚的趨勢,由虛擬社區(qū)、微博、微信、郵件、等信息傳輸信息的形式越來越多,而使用者往往有記住密碼的重要任務(wù)。如果將信息需求按客戶群推送,能夠達(dá)到事半功倍的功效,信息推送的任務(wù)由管理單位的管理階層完成,在云教學(xué)時代軟件服務(wù)擔(dān)當(dāng)著關(guān)鍵的任務(wù)。在軟件體系中,實際的網(wǎng)絡(luò)應(yīng)用往往需要擴(kuò)充中間件層的功能,如圖2所示。

        圖2 應(yīng)用網(wǎng)絡(luò)的分層結(jié)構(gòu)Fig.2 Layered structure of network application

        應(yīng)用于教學(xué)的教學(xué)網(wǎng)絡(luò)平臺層[5]為了保證適應(yīng)性和復(fù)用性,在平臺的中間件層定義了具體的可添加組件部分。軟件系統(tǒng)中間件層提供對上級管理部門的信息發(fā)現(xiàn)與傳送,包括教學(xué)活動支持服務(wù)軟件、通訊支持服務(wù)軟件,形成教學(xué)單位對云教學(xué)資源動態(tài)變化的感知能力。將信息資源變化實時報告,通知有關(guān)部門形成信息流達(dá)到教學(xué)體系共享協(xié)同運(yùn)作是云教學(xué)服務(wù)與發(fā)展的上策,在云教學(xué)體系中,在中間件層使用Netget軟件提供的垂直信息抓取技術(shù),附加在支持服務(wù)模塊中,將云教學(xué)的共享功能達(dá)到及時的資源更新和信息服務(wù)。

        3 大數(shù)據(jù)與云環(huán)境下信息抽取技術(shù)的實現(xiàn)

        云環(huán)境下的服務(wù)器集群,也是任務(wù)集中管理與分工合作的網(wǎng)絡(luò)平臺的升級,如何完成中間件層的任務(wù),分散在多個服務(wù)器運(yùn)行不同的軟件是一種非常合理的布署,一種實現(xiàn)規(guī)范是:管理軟件使用J2EE開發(fā)Web程序,使用Servlet作為J2EE規(guī)范中用來處理HTTP請求的唯一元素,一個J2EE集群包含多個同步運(yùn)行的JAVA進(jìn)程,每個JAVA進(jìn)程都可以獨立提供服務(wù),也可以聯(lián)合提供服務(wù);一個J2EE集群包含一個代理服務(wù)器,對外提供統(tǒng)一的訪問入口;J2EE集群通常包含一個管理服務(wù)器用來管理集群的運(yùn)作。第二種實現(xiàn)的方案是:管理者運(yùn)行第三方軟件,隨時跟蹤網(wǎng)絡(luò)資源的動態(tài)變化。

        信息抓取任務(wù)可以對同一個網(wǎng)站定義多個抓取任務(wù)形成同一個類別,開放大學(xué)學(xué)生活動區(qū)午間直播課信息抓取記錄。實現(xiàn)“即搜——即發(fā)”的教師活動,即時抓取、即刻分發(fā)。實現(xiàn)了遠(yuǎn)距離的,短時間的,及時的教學(xué)信息的使用。圖3是對開放大學(xué)午間直播課及教研活動信息抓取。

        圖3 開放大學(xué)午間直播課與教研活動信息抓取結(jié)果Fig.3 Open University courses and research activities Midday broadcast information crawl results

        對中國網(wǎng)絡(luò)教育熱門專業(yè)變化的感知,有助于院校招生人數(shù)的調(diào)控。對午間直播課程的時間信息抓取實現(xiàn)了開放大學(xué)教學(xué)活動的一體化設(shè)計。訪問網(wǎng)站需要頻繁的點擊網(wǎng)頁的動作,使用信息抓取技術(shù),建立多個抓取任務(wù),每個任務(wù)執(zhí)行只需點擊運(yùn)行按鈕運(yùn)行幾秒鐘,實現(xiàn)高效率管理;也可以作為教學(xué)網(wǎng)站階段性的數(shù)據(jù)調(diào)查分析,長期跟蹤網(wǎng)站公布的數(shù)據(jù)變化。在云平臺與環(huán)境中,運(yùn)行信息抓取任務(wù)達(dá)到同時獲得關(guān)鍵數(shù)據(jù),為管理者決策提供了信息決策依據(jù)。

        4 結(jié)束語

        大數(shù)據(jù)處理的應(yīng)用不斷增加[6],根據(jù)不同的應(yīng)用環(huán)境實現(xiàn)一個高速高效的,使用方便的信息抓取陣列,在信息應(yīng)用為主的行業(yè)中,為智能化管理提供拓寬了途徑[7]。云環(huán)境下的教育平臺,以中間件層思想指導(dǎo)下,信息抓取與通訊軟件聯(lián)合使用于服務(wù)軟件中,云平臺信息流無延遲傳輸將達(dá)到普及。

        [1]閆歌,于炯,樣興耀.云計算環(huán)境下科學(xué)工作流兩階段任務(wù)調(diào)度策略[J].計算機(jī)應(yīng)用,2013(4):1006-1009.

        [2]張建,程錦.網(wǎng)絡(luò)化制造資源垂直搜索引擎的研究與應(yīng)用[J].計算機(jī)應(yīng)用,2007(5):1116.

        [3]高一波,趙先章,孫碩,等.面向垂直搜索引擎的基于知識的語義關(guān)聯(lián)算法[J].計算機(jī)工程,2009(11):184-186.

        [4]吳少剛,陳曉玲.J2EE應(yīng)用服務(wù)器集群性能研究[J].計算機(jī)工程與設(shè)計,2007(18):4410-4412,4416.

        [5]孫磊,戴紫珊.安全服務(wù)云框架研究[J].計算機(jī)應(yīng)用2012 (1):13.

        [6]趙燁,王明磊,李新友.OCR在大數(shù)據(jù)量文檔處理系統(tǒng)中的應(yīng)用[J].計算機(jī)應(yīng)用2000(8):336-338.

        [7]李琪,秦會斌,楊永舒,等.基于Android平臺的智能家居系統(tǒng)設(shè)計[J].電子設(shè)計工程,2014(24):52-54,57.

        Research and application of web information extraction technology in cloud environment

        WEI Li-feng1,2,JI Jian-wei2,WANG Xiao-bin1
        (1.Shenyang Aerospace University,Shenyang 110136,China;2.College of Information and Electrical Engineering,Shenyang Agricultural University,Shenyang 110866,China)

        The emergence of cloud computing platform,change the development mode of traditional industries,the Internet information sharing and cooperative development as the representative of the team win mode to speed up the development of network data based on the speed of the resulting data,the phenomenon of the Internet.Effective use and dynamic perception of Internet information,to determine the development strategy of the Department,is the core task of research on Application of network information.This paper makes research on the Web Webpage information capture technology,proposes to use vertical search technology is on the countermeasures adapt to large data phenomena cloud environment,provides a method of dynamic news and data intensive Webpage information change control.

        big data and cloud environments;middleware;software services;information extraction

        TN91

        A

        1674-6236(2016)04-0029-03

        2015-03-24 稿件編號:201503342

        魏利峰(1978—),男,內(nèi)蒙古通遼人,博士研究生,講師。研究方向:信息管理與信息系統(tǒng)、WEB技術(shù)。

        猜你喜歡
        中間件本體軟件
        Abstracts and Key Words
        禪宗軟件
        英語文摘(2021年10期)2021-11-22 08:02:26
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        軟件對對碰
        RFID中間件技術(shù)及其應(yīng)用研究
        電子制作(2018年14期)2018-08-21 01:38:10
        基于VanConnect中間件的設(shè)計與開發(fā)
        電子測試(2018年10期)2018-06-26 05:54:02
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        談軟件的破解與保護(hù)
        精品(2015年9期)2015-01-23 01:36:01
        中間件在高速公路領(lǐng)域的應(yīng)用
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        牛牛在线视频| 精品国产麻豆一区二区三区| 亚洲天堂av在线一区| 国产自拍高清在线观看| 在线人成免费视频69国产| 中文字幕第八页| 在线看片免费人成视久网不卡| 丁香花五月六月综合激情| 成人午夜性a级毛片免费| 久青草国产在线观看| 国产肥熟女视频一区二区三区| 国产一区二区三区亚洲avv| 国自产精品手机在线观看视频| 国产欧美精品在线一区二区三区| 国产精品一区二区三区蜜臀| 麻豆69视频在线观看| 女人让男人桶爽30分钟| 国产成人77亚洲精品www| 日本二区三区视频在线观看| 一个色综合中文字幕人妻激情视频| 欧美天天综合色影久久精品| 国产高清精品自在线看| 91精品福利一区二区三区| 在线播放五十路熟妇| 久久亚洲中文字幕无码| 中文字幕午夜AV福利片| 国产丝袜爆操在线观看| а天堂中文最新一区二区三区| 女同亚洲女同精品| 中文字幕精品乱码一二三区| 国产高颜值女主播在线| 先锋影音av最新资源| 午夜福利视频男同女同| 亚洲女同av在线观看| 亚欧色一区w666天堂| a在线免费| 亚洲一区二区岛国高清| 国产欧美va欧美va香蕉在| 无码人妻丰满熟妇精品区| 成人黄网站免费永久在线观看| 无码人妻久久久一区二区三区|