亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        創(chuàng)新驅(qū)動大數(shù)據(jù)檢索系統(tǒng)的智慧發(fā)展

        2017-07-03 14:27:35王春源曹民和
        海峽科學(xué) 2017年5期
        關(guān)鍵詞:代理人社群檢索

        王春源 曹民和

        ?

        創(chuàng)新驅(qū)動大數(shù)據(jù)檢索系統(tǒng)的智慧發(fā)展

        王春源 曹民和

        東莞理工學(xué)院粵臺產(chǎn)業(yè)科技學(xué)院

        在大數(shù)據(jù)時代,物聯(lián)網(wǎng)、云計算、人工智能等信息新技術(shù)不斷進步,這些新技術(shù)的連結(jié)目標與信息撿索方向大致相同,但產(chǎn)生了信息太多、系統(tǒng)太復(fù)雜、成本相對太高、一般人不易切入等問題,因此設(shè)計一個新的信息網(wǎng)絡(luò)傳播架構(gòu)來解決這些問題,成為一個重要課題。本研究在互聯(lián)網(wǎng)上,以文檔文件為信息主體,并以個人化智能代理人為實施方式,提出一個全自動的信息目錄處理系統(tǒng),對內(nèi)是一個可不斷優(yōu)化的信息檢索智慧工具,對外連結(jié)時是一個可與其他系統(tǒng)兼容的可大可小分布式大數(shù)據(jù)檢索智慧平臺,依靠創(chuàng)新方法來解決大數(shù)據(jù)時代的信息撿索。

        大數(shù)據(jù) 物聯(lián)網(wǎng) 智慧代理人 分布式信息檢索系統(tǒng)

        1 概述

        綜觀大數(shù)據(jù)與信息檢索發(fā)展歷史,可說是洋洋大觀。對于信息檢索技術(shù),傳統(tǒng)上有基于XML的搜索引擎,XML以卷標方式處理網(wǎng)頁HTML文件的數(shù)據(jù),以卷標當作檢索目標,大幅度縮小了檢索范圍,提高查詢效率[1]?;贑BR(Content-Based Retrieval)處理MPEG-7的多重與分層多媒體的檢索技術(shù),可直接對多媒體內(nèi)容進行剖析,并采用多種檢索手段,除了對多媒體內(nèi)容特征進行檢索外,還提供了樣本圖樣進行相似性檢索[2]?;谧匀徽Z言檢索(Natural Language Search)技術(shù),以知識庫、信息庫、語義分析、知識管理、知識檢索等工具形成智能搜索方法,為每一搜索提供具人性化特征的準確結(jié)果[3-4]。

        基于智慧代理人的信息檢索技術(shù)[5],智慧代理人具有智能性、代理性、移動性、主動性、協(xié)作性等特點,具體表現(xiàn)在:

        (1)智慧代理人能在任何時候、任何機器上,代理或引導(dǎo)用戶搜索信息。

        (2)智慧代理人能進行機械學(xué)習,具有從經(jīng)驗中不斷學(xué)習的能力,適當進行自我調(diào)節(jié),提高處理問題能力。

        (3)可以根據(jù)用戶的行為,了解和掌握用戶的興趣與需求,借由豐富的知識與推理能力,對用戶的需求進行分析,因此可處理復(fù)雜、高難度的檢索任務(wù)。

        (4)理解用戶用自然語言表達出的對信息的需求,在一定程度上消除用戶在輸入檢索關(guān)鍵詞的障礙,因此能縮小并精準接近用戶檢索需求。

        (5)智慧代理人能在復(fù)雜的檢索環(huán)境中獨立規(guī)劃信息檢索步驟,建立自己的檢索模型,在用戶不參與或不在線的情況下,能獨立、有效、有針對性地發(fā)現(xiàn)與檢索用戶需要的信息資源。

        (6)可以靈活使用網(wǎng)上各種資源與服務(wù),可與其他智慧代理人合作,或“變身”到其他系統(tǒng)中去“工作”,進行收集數(shù)據(jù)的任務(wù)。

        (7)將搜索來的信息整理或包裝成用戶的檔案或服務(wù)器中,轉(zhuǎn)化成可視化資源,讓用戶可以隨時使用這些信息。

        (8)可用郵件、網(wǎng)頁或其他方法將整理過的信息推送出去,或提供出來給其他系統(tǒng),形成一個“數(shù)聯(lián)網(wǎng)”信息供應(yīng)點。

        隨著大數(shù)據(jù)的迅速發(fā)展,基于Hadoop的分布式海量信息處理模式逐漸形成[6],Hadoop提供一個分布式儲存和計算的軟件框架,具有開源共享、高效率、彈性可擴張的特點,非常適合于海量數(shù)據(jù)環(huán)境。圍繞著Hadoop架構(gòu)發(fā)展出來的知名技術(shù)有:Hadoop Common提供Hadoop最底層模塊。HDFS(Hadoop Distributed File System)是Hadoop的基石,提供高吞吐、高容錯、適合在廉價機器上運作的文件系統(tǒng)。YARN是Hadoop的資源協(xié)調(diào)器,解決資源利用效率低與不能兼容異構(gòu)等多種問題。MapReduce實現(xiàn)了Hadoop的編程模型,用戶可以通過Java、C++、Python、PHP等多種語言進行編程。Spark對迭代計算很有優(yōu)勢,改善了MapReduce框架的計算性能。Hbase源于谷歌的Bigtable論文,善于大規(guī)模數(shù)據(jù)的隨機實時讀寫訪問。Zoopkeeper的分布式服務(wù)框架解決了系統(tǒng)中數(shù)據(jù)一致性的問題。Hive將簡單的SQL查詢功能與MapReduce整合,大大降低學(xué)習成本與使用門檻。Pig與Hive類似,不同的是提供了查詢用的高層的領(lǐng)域抽象語言,Pig Latin也可將其查詢轉(zhuǎn)變?yōu)镸apReduce的作業(yè)。Impala自建一個異于MapReduce之框架,定位是OLAP的實時查詢。Mahout是一個機械學(xué)習數(shù)據(jù)挖掘庫,利用MapReduce編程實現(xiàn)了K-means、Native Bayes、Collaborative Filtering等經(jīng)典機械學(xué)系算法。

        本研究提出的分布式大數(shù)據(jù)檢索架構(gòu),不同于但設(shè)法兼容于現(xiàn)有的Hadoop大數(shù)據(jù)工具及其他信息檢索技術(shù),有以下幾個特點:

        (1)以文本文件目錄為主,基本上不移動信息儲藏位置。

        (2)對信息封裝,擁有獨一的流水號,將信息生成時間與其預(yù)期生命周期當作信息數(shù)據(jù)的一部分。

        (3)大量使用人工智能處理信息,個人部分在計算機內(nèi)部進行,系統(tǒng)平臺部分在服務(wù)器端處理。

        (4)它是一個類似Hadoop的分散系統(tǒng),不同之處有:①系統(tǒng)處理信息以目錄為主;②以文字形成的目錄為主,形成一個可大可小的分布式系統(tǒng);③提倡開源精神,使外部信息系統(tǒng)與個人桌上信息系統(tǒng)結(jié)合,形成一個動態(tài)連鎖搜尋系統(tǒng)。

        (5)強調(diào)信息時效的使用與供需對接的實現(xiàn)。

        (6)與其他系統(tǒng)自動結(jié)合。

        這些特點或多或少結(jié)合了先前人工智能檢索與Hadoop的一些理論與做法,但不同的是,本研究強調(diào)開源與簡單處理原則,使大量一般人能參與;強調(diào)可大可小原則,不必形成一個網(wǎng)網(wǎng)相通的總系統(tǒng);強調(diào)供需配對原則,加強系統(tǒng)的實用性;強調(diào)所有信息在時間與生命周期下有效運作原則;強調(diào)智能代理人自動處理原則,尤其包括個人的有效信息整理服務(wù);強調(diào)社群服務(wù)原則,對一個社群形成自動協(xié)作服務(wù)的效能。

        本研究分別討論分布式大數(shù)據(jù)檢索程序、檢索文件格式設(shè)計、檢索目錄分散處理方式、使用智能代理人配對,最后是結(jié)論。

        2 分布式大數(shù)據(jù)檢索程序

        如圖1所示,本研究架構(gòu)的撿索實施程序,是以個人智能代理人為核心,個人智能代理人對五類主要系統(tǒng)做雙向信息交流,分別是個人桌上電腦、個人手機電腦、個人網(wǎng)頁、個人數(shù)據(jù)庫、小社群數(shù)聯(lián)網(wǎng)系統(tǒng)、其他大數(shù)據(jù)系統(tǒng)。在這個系統(tǒng),更強調(diào)個人有效信息的整理與小社群數(shù)聯(lián)網(wǎng)系統(tǒng)的架設(shè)與使用。小社群數(shù)聯(lián)網(wǎng)系統(tǒng)形成之后,當然可以與其他小社群數(shù)連網(wǎng)整合為較大的數(shù)聯(lián)網(wǎng)系統(tǒng),對于同一規(guī)范下的系統(tǒng)整合較容易,對于規(guī)范不同或版本不同的整合就需要做一轉(zhuǎn)換,由于整個信息系統(tǒng)是以一種封裝式的方式包裹信息,這種轉(zhuǎn)換相對容易,由小社群數(shù)聯(lián)網(wǎng)系統(tǒng)來負責處理,當然也可以由個人智慧代理人處理。圖1中其他大數(shù)據(jù)系統(tǒng)部分,由于包羅甚廣,包含了許多的物聯(lián)網(wǎng)系統(tǒng),這些系統(tǒng)信息轉(zhuǎn)換之中會產(chǎn)生許多一致性的問題或其他種種問題,來YARN是Hadoop的資源協(xié)調(diào)器,解決Hadoop資源利用效率低與不能兼容異構(gòu)的問題,但是與其他大數(shù)據(jù)系統(tǒng)不同的是,本研究的信息架構(gòu)以目錄為主,所有信息產(chǎn)生一獨立代碼,使用信息內(nèi)處理方式,且能由智慧代理人不斷自動處理,預(yù)期可以相當程度地解決這些難題,因此資料檢索文件格式是本研究的重點,下一節(jié)對本研究資料檢索文件格式做一較詳細之說明。

        圖1 分布式大數(shù)據(jù)檢索程序

        3 檢索文件格式設(shè)計

        本文研究的資料檢索文件格式有下列特點:

        (1)信息分為配對信息與知識信息。配對信息是為協(xié)助完成智慧代理人找到最佳合作伙伴設(shè)計的,知識信息則不斷提供有時效的信息知識。

        (2)信息也分原生信息與整理后信息,原生信息必須注明信息有效時間,或稱之為生命周期,整理后信息需對信息原始來源與時效做一還原處理。

        (3)所有信息以目錄為主,因此必須有連結(jié)網(wǎng)址,Metadata字段則可適當放入延伸信息。

        (4)一筆信息數(shù)據(jù)根據(jù)其原始數(shù)據(jù)內(nèi)容的生命周期,產(chǎn)生了自己的生命周期,已過了生命周期的數(shù)據(jù),基本上由配對信息轉(zhuǎn)入知識信息的歷史信息,或加以刪除。

        表1為一個檢索文件格式范例。如表1所示,信息目錄儲存是以文字型態(tài)儲存,最后面的Metadata信息,基本上放入與連結(jié)或搜尋無關(guān),但與該筆資料有關(guān)的信息,內(nèi)容不拘。表中第1筆與第2筆信息為原創(chuàng)信息,第3筆數(shù)據(jù)為非原創(chuàng)信息,包裹有其他原創(chuàng)信息,可以使用不斷遞迭展開方式取得全部為原創(chuàng)信息的檢索檔,也可不展開但配合其Metadata自行形成一筆有價值的數(shù)據(jù)。文本文件的儲存型態(tài)隨使用語言的不同可以做修改,比如Python語言就可用字典(Dictionary)的型態(tài)儲存。有了檢索文件格式之后,下一節(jié)就是如何去使用這種格式的目錄文件了。

        表1 檢索文檔格式設(shè)計表列(1)

        表2 檢索文檔格式設(shè)計表列(2)

        4 檢索目錄分散處理方式

        由上一節(jié)的數(shù)據(jù)格式可以看出,本研究主要是通過一個網(wǎng)頁目錄的處理,來完成對大數(shù)據(jù)信息的處理。由圖1可以看出,信息處理可以分為三部分:個人智慧代理人目錄處理、小社群數(shù)聯(lián)網(wǎng)系統(tǒng)目錄整合、其他大數(shù)據(jù)系統(tǒng)聯(lián)機目錄轉(zhuǎn)換,下面分別對這三種處理方式做一說明:

        4.1 個人智慧代理人目錄處理

        個人智慧代理人的主要任務(wù)是從小社群數(shù)聯(lián)網(wǎng)系統(tǒng)取回目錄數(shù)據(jù),自動根據(jù)用戶需求整理數(shù)據(jù),并且發(fā)布。對于連接到的網(wǎng)站,進入其中找出其內(nèi)容來整理,也是個人智慧代理人的重要工作之一。

        4.2 小社群數(shù)聯(lián)網(wǎng)系統(tǒng)目錄整合

        個人智慧代理人原創(chuàng)的信息在這里登綠,小社群數(shù)聯(lián)網(wǎng)一方面負責將各原創(chuàng)目錄分類整理成一大目錄,同時也負責與其他小社群數(shù)聯(lián)網(wǎng)做交換,不斷構(gòu)建更完整的目錄體系。其他對過期數(shù)據(jù)的處理與對Metadata以及其他如信息安全過濾也都在這里進行。

        4.3 其他大數(shù)據(jù)系統(tǒng)聯(lián)機目錄轉(zhuǎn)換

        與其他大數(shù)據(jù)系統(tǒng)聯(lián)機并轉(zhuǎn)換數(shù)據(jù)的工作主要是對原始數(shù)據(jù)的取得,并轉(zhuǎn)換為本系統(tǒng)的信息格式,這部分工作可由其他大數(shù)據(jù)系統(tǒng)協(xié)助完成,也可由智慧代理人完成,完成之后自動將源目錄上傳到小社群數(shù)聯(lián)網(wǎng)系統(tǒng)。

        本研究最大的價值就是完成一個網(wǎng)上信息的分類目錄,有了目錄等于知道信息資源存放的位置,于是才可進一步對連結(jié)的內(nèi)容進行分析整理,其中之一就是配對的進行,下一節(jié)對這個目錄本身的配對字段做一應(yīng)用上的處理。

        5 使用智能代理人配對

        本研究的另一個特點是使用智慧代理人完成需求配對,配對是一個針對資源進行整合的動作,具備實用價值,有下面三個重點:

        5.1 根據(jù)用戶需求進行搜尋

        智慧代理人在前一節(jié)中主要的目標,是形成一個有效精準的分類目錄,這個目錄預(yù)期將相當龐大,這是圖1中小社群數(shù)聯(lián)網(wǎng)系統(tǒng)要做的工作。但是對用戶而言,關(guān)心的只是自己可能會用到的信息,因此可能只會用到總目錄其中千分之一或更少的部分,因此這是客戶端智慧代理人工作,就是如何調(diào)整搜尋方式,使用戶可以接觸到要用的目錄,或進一步爬出內(nèi)容來整理。

        5.2 在時效范圍內(nèi)進行配對信息整理

        善用表1和表2信息的有效時間、需求與提供關(guān)鍵詞,客戶端智慧代理人能夠不斷整理出依據(jù)不同有效時間條件下,用戶能夠?qū)拥馁Y源。

        5.3 將配對信息以適當?shù)姆绞酵ㄖ脩?/p>

        在表2中,每筆原生數(shù)據(jù)都有數(shù)據(jù)原創(chuàng)人聯(lián)絡(luò)方式,在整理出可配對信息后,可以依據(jù)事先設(shè)定的方式,通知用戶。

        配對的實用價值可能是能夠推動大量資源,用來開發(fā)智慧代理人的重要推動力量。本研究的架構(gòu)是一個開源廉價的架構(gòu),因此適合大眾加入從事大數(shù)據(jù)的開發(fā)與使用。

        6 結(jié)論

        總的來說,物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)的技術(shù)與架構(gòu)已逐漸趨于成熟。本研究將這些現(xiàn)有技術(shù)放到一個更簡單的架構(gòu)中,讓大量的人可以參與。本研究也提出配對的作業(yè),使整個運作更有實用價值。未來的重點研發(fā)工作是使智慧代理人進一步自動化與智慧化,更方便地在使用智慧代理人過程中教育和訓(xùn)練智慧代理人,使之成為用戶專屬對外溝通的信息工具。

        [1] 孔令波, 唐世渭, 楊冬青, 等. XML數(shù)據(jù)索引技術(shù)[J].軟件學(xué)報, 2005,16(12): 2063-2079.

        [2] 鄭烇,肖碧宇.基于MPEG-7的視頻檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2010,19(10): 1-6.

        [3] 錢兵,王永成,高凱.面向搜索引擎的自然語言理解的設(shè)計與實現(xiàn)[J].計算機應(yīng)用研究,2006, 23(12): 260-262.

        [4] 陳俊嵋.自然語言識別在WWW搜索引擎中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù), 2004(s1): 37-39.

        [5] 朱永海. 信息檢索新技術(shù)解析[J].現(xiàn)代教育技術(shù),2007, 17(4): 80-82.

        [6] 范東來. Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項目實戰(zhàn)[M]. 北京: 人民郵電出版社, 2016.

        猜你喜歡
        代理人社群檢索
        中華全國專利代理人協(xié)會簡介
        專利代理(2019年3期)2019-12-30 08:23:54
        中華全國專利代理人協(xié)會簡介
        專利代理(2019年4期)2019-12-27 00:56:54
        2019年第4-6期便捷檢索目錄
        社群短命七宗罪
        中華全國專利代理人協(xié)會推薦的2018年第四期訴訟代理人名單
        專利代理(2019年1期)2019-04-13 02:10:50
        2016年第一期訴訟代理人名單
        專利代理(2016年1期)2016-05-17 06:14:38
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        母嬰電商的社群玩法
        VC靠邊!社群股權(quán)眾籌來了
        人類的遷徙行為與社群合作之演化
        青青草视频在线视频播放| 日本一卡2卡3卡四卡精品网站 | av网站免费线看| 亚洲一区二区精品久久岳| 一本色道88久久加勒比精品| 国产免费久久精品99久久| 国产精品免费大片| 二区久久国产乱子伦免费精品| 中文字幕一区二区三区精品在线 | 丁香五月缴情在线| 97在线观看| 欧美日韩国产成人综合在线影院| 搞黄色很刺激的网站二区| 日韩在线 | 中文| 亚洲精华国产精华液的福利| 精品一区二区三区四区少妇| 街拍丝袜美腿美女一区| 国产高清av在线播放| 亚洲va在线∨a天堂va欧美va| 吃下面吃胸在线看无码| 亚洲av乱码一区二区三区人人| 波多野结衣爽到高潮大喷| 欧美色aⅴ欧美综合色| 日本草逼视频免费观看| 亚洲一区二区三区四区地址 | 少妇太爽了在线观看| 看黄色亚洲看黄色亚洲 | 熟妇人妻丰满少妇一区| 精品久久久久久综合日本| 51久久国产露脸精品国产| 国产欧美日本亚洲精品一4区| 丁香婷婷六月综合缴清| 人妻体内射精一区二区三四| 欧洲亚洲综合| 国产精品美女自在线观看| 久久黄色视频| 色爱区综合五月激情| 好看午夜一鲁一鲁一鲁| 国产成人精品一区二区20p| 又污又爽又黄的网站| 无码熟妇人妻AV不卡|