亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵詞的云計(jì)算語(yǔ)義文本自適應(yīng)分類

        2014-09-29 10:32:12沈佳杰
        計(jì)算機(jī)工程 2014年7期
        關(guān)鍵詞:語(yǔ)義分類數(shù)據(jù)庫(kù)

        沈佳杰,江 紅,王 肅

        (華東師范大學(xué)信息科學(xué)技術(shù)學(xué)院,上海 200241)

        1 概述

        隨著互聯(lián)網(wǎng)和云計(jì)算技術(shù)的發(fā)展,越來(lái)越多的應(yīng)用被部署到了云端。如何在保證分類準(zhǔn)確度的情況下,提高文本在云計(jì)算環(huán)境下的分類效率以及減少對(duì)于整體網(wǎng)絡(luò)帶寬的開(kāi)銷,從而高效地在云計(jì)算環(huán)境下對(duì)文本進(jìn)行分類成為一個(gè)亟需解決的問(wèn)題。

        本文提出一個(gè)云計(jì)算環(huán)境下的基于語(yǔ)義的中文文本關(guān)鍵詞自適應(yīng)分類算法,通過(guò)對(duì)于文本關(guān)鍵詞傳輸而不是文本本身的傳輸,減少云計(jì)算環(huán)境下對(duì)于分類通信的代價(jià)。

        2 文本處理技術(shù)及云計(jì)算簡(jiǎn)介

        2.1 集中式情況下常見(jiàn)的關(guān)鍵詞提取技術(shù)

        對(duì)于集中式文本關(guān)鍵詞提取算法大致可分成以下2步:

        步驟1對(duì)于文本進(jìn)行預(yù)處理,如分詞,并對(duì)詞語(yǔ)進(jìn)行詞性標(biāo)注。

        步驟2使用一定的規(guī)則對(duì)文本中的信息進(jìn)行關(guān)鍵詞的提取。

        對(duì)于步驟1分詞已經(jīng)有了很多不同的算法[1-2],而對(duì)于步驟2,現(xiàn)在比較主流的關(guān)鍵詞提取算法有基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法、基于語(yǔ)義的關(guān)鍵詞提取算法[3-4]以及基于詞語(yǔ)網(wǎng)絡(luò)的關(guān)鍵詞提取算法[5-6],并且相關(guān)的語(yǔ)義提取技術(shù)也已經(jīng)應(yīng)用到了很多的領(lǐng)域,如語(yǔ)義的相似性[7]、語(yǔ)義與頻率的關(guān)系[8],以及對(duì)于網(wǎng)頁(yè)關(guān)鍵詞的抽取。

        本文介紹基于語(yǔ)義的任務(wù)調(diào)度算法。基于文本語(yǔ)義的關(guān)鍵詞提取算法相較于一般的關(guān)鍵詞提取算法,其最大的區(qū)別在于這種算法不僅關(guān)心詞語(yǔ)在文本中的位置和數(shù)量信息,還需要結(jié)合語(yǔ)言本身的特點(diǎn),如詞語(yǔ)的詞性和語(yǔ)法的信息。對(duì)于基于其他方法的關(guān)鍵詞提取算法還可以參考文獻(xiàn)[9]。圖1展示了一種基于語(yǔ)義的關(guān)鍵詞提取算法[4]。

        圖1 基于語(yǔ)義的關(guān)鍵詞提取算法

        2.2 集中式情況下中文文本分類算法

        針對(duì)文本分類的算法,在集中式條件下已進(jìn)行了很多相關(guān)方面的研究,如機(jī)器學(xué)習(xí)[10]、統(tǒng)計(jì)方法[11]、語(yǔ)義的方法、關(guān)鍵詞[12]和推理網(wǎng)絡(luò)[13]。但是如何在分布式的環(huán)境下,構(gòu)建相應(yīng)的文本分類算法依然是一個(gè)值得研究的問(wèn)題。

        2.3 云計(jì)算

        云計(jì)算是現(xiàn)在研究的熱點(diǎn)問(wèn)題,對(duì)于如何在云計(jì)算環(huán)境下進(jìn)行程序的開(kāi)發(fā)和部署以及云計(jì)算的定義已經(jīng)有很多的文獻(xiàn)對(duì)這個(gè)問(wèn)題進(jìn)行討論,如對(duì)于云計(jì)算進(jìn)行綜述[14-15],對(duì)云計(jì)算關(guān)鍵技術(shù)進(jìn)行總結(jié)[16-17]。如何在云計(jì)算的情況下對(duì)已知的算法進(jìn)行改造依然是一個(gè)值得研究的問(wèn)題。

        3 云計(jì)算文本分類算法

        3.1 算法假設(shè)以及定義

        本文中算法的假設(shè)以及定義如下:

        假設(shè)1計(jì)算傳輸?shù)拇鷥r(jià)與傳輸?shù)奈谋咀謹(jǐn)?shù)成正比,本地的計(jì)算代價(jià)較網(wǎng)絡(luò)傳輸代價(jià)忽略不計(jì)。

        假設(shè)1說(shuō)明了云計(jì)算網(wǎng)絡(luò)的開(kāi)銷代價(jià)與傳輸內(nèi)容的數(shù)量有關(guān),而文本應(yīng)用中主要的傳輸內(nèi)容為文字,所以需要盡量減少傳輸?shù)奈淖謹(jǐn)?shù)。

        假設(shè)2文本提取的關(guān)鍵詞字?jǐn)?shù)小于文本本身的字?jǐn)?shù)。

        假設(shè)3隨著正確關(guān)鍵詞數(shù)量的增多,文本的語(yǔ)義描述越明確,但是正確關(guān)鍵詞與傳輸關(guān)鍵詞字?jǐn)?shù)的比值將變小,當(dāng)全文傳輸時(shí)其比值接近于0。

        對(duì)假設(shè)2和假設(shè)3,為了保證在每一個(gè)代理的關(guān)鍵詞提取算法可以優(yōu)先找出比較的重要關(guān)鍵詞,并且對(duì)應(yīng)的文本分類算法可以根據(jù)正確關(guān)鍵詞進(jìn)行有效的分類,而關(guān)鍵詞僅僅只是文本中的一部分,所以關(guān)鍵詞的字?jǐn)?shù)將小于文本本身的字?jǐn)?shù)。

        假設(shè)4閱讀文本的人足夠聰明,可以有效地分辨文本關(guān)鍵詞和文本的類別。

        定義1人工判斷和自動(dòng)判斷均判斷為關(guān)鍵詞的數(shù)與傳輸字?jǐn)?shù)的比值,稱為單位傳輸準(zhǔn)確數(shù),記為:

        其中,A為人工及機(jī)器都判斷為關(guān)鍵詞的數(shù)量;n為傳輸?shù)奈淖謧€(gè)數(shù)。

        定義2文本整體分類算法傳輸所需的字?jǐn)?shù)與關(guān)鍵詞分類算法所需傳輸?shù)淖謹(jǐn)?shù)差值,叫做關(guān)鍵詞整體差,記為:

        其中,Talli代表全文分類算法需要傳輸?shù)淖謹(jǐn)?shù);Tkeywordi代表關(guān)鍵詞提取分類算法需要傳輸?shù)淖謹(jǐn)?shù)。

        定義3人工提取和自動(dòng)提取均判斷為關(guān)鍵詞的數(shù)量與人工提取和自動(dòng)提取均判斷為關(guān)鍵詞的數(shù)量、人工提取為非關(guān)鍵詞而自動(dòng)提取為關(guān)鍵詞的數(shù)量之和的比值,稱為知識(shí)點(diǎn)的查準(zhǔn)率[4],記為:

        其中,B表示人工判斷不是關(guān)鍵詞而機(jī)器判斷是關(guān)鍵詞的數(shù)量。

        定義4人工提取和自動(dòng)提取均判斷為關(guān)鍵詞的數(shù)量與人工提取和自動(dòng)提取均判斷為關(guān)鍵詞的數(shù)量、人工提取為關(guān)鍵詞而自動(dòng)提取為非關(guān)鍵詞的數(shù)量之和的比值,稱為召回率[4],記為:

        其中,C表示人工判斷是關(guān)鍵詞而機(jī)器判斷不是關(guān)鍵詞的數(shù)量。

        定義5查準(zhǔn)率與召回率的乘積的2倍與2個(gè)和的比值稱為查準(zhǔn)率P和召回率R的調(diào)和[4],記為:

        其中,P為查準(zhǔn)率;R為召回率。

        定義6節(jié)點(diǎn)查準(zhǔn)率P和召回率R的調(diào)和與該節(jié)點(diǎn)傳輸文字?jǐn)?shù)之間的比值稱為單位查準(zhǔn)率P和召回率R的調(diào)和,記為:

        其中,n為傳輸?shù)淖址麛?shù)。

        定義7本文中提出的算法,根據(jù)詞性的不同確定詞語(yǔ)的重要性,對(duì)于詞性重要性定義的權(quán)值如下:當(dāng)wi為名詞時(shí), posi=0.8;當(dāng)wi為簡(jiǎn)略語(yǔ)時(shí), posi=0.9;當(dāng)wi為處所詞時(shí), posi=0.7;當(dāng)wi為動(dòng)詞時(shí), posi=0.2;當(dāng)wi為形容詞時(shí),posi=0.2;當(dāng)wi為副詞時(shí),posi=0.2;當(dāng)wi為介詞時(shí),posi=0.2;當(dāng)wi為狀態(tài)詞時(shí),posi=0.2;當(dāng)wi為連詞時(shí),posi=0.1;當(dāng)wi為方位詞時(shí),posi=0.1;當(dāng)wi為時(shí)間詞時(shí),posi=0.1;其他情況時(shí),posi=0.01。其中,wi為第i個(gè)詞的詞性;posi為第i個(gè)詞的權(quán)值。

        3.2 算法步驟描述

        本文中的算法主要涉及4個(gè)主要的步驟,包括對(duì)于本地代理文本關(guān)鍵詞提取、中心端進(jìn)行關(guān)鍵詞信息匯總、和中心端輸出全局分類結(jié)果。本文中的云計(jì)算環(huán)境下的語(yǔ)義提取算法步驟如下:

        步驟1使用本地關(guān)鍵詞提取算法對(duì)本地代理文本進(jìn)行關(guān)鍵詞提取。

        步驟1.1輸入每一篇文本需要提取的關(guān)鍵詞數(shù)。

        步驟1.2使用本地關(guān)鍵詞提取算法對(duì)每一篇文檔提取關(guān)鍵詞及其相應(yīng)的屬性,如關(guān)鍵詞以及相應(yīng)的數(shù)量等。

        步驟1.3將關(guān)鍵詞及相應(yīng)信息上傳到中心端進(jìn)行統(tǒng)計(jì)。

        步驟2中心端對(duì)進(jìn)行代理關(guān)鍵詞的數(shù)據(jù)進(jìn)行匯總。

        步驟2.1中心數(shù)據(jù)端匯總不同的代理關(guān)鍵詞信息,調(diào)用信用分配算法對(duì)每一個(gè)關(guān)鍵詞分配一個(gè)信用值。

        步驟2.2根據(jù)代理上傳關(guān)鍵詞及其生成信用值,生成目標(biāo)類別以及關(guān)鍵詞列表。

        步驟2.3將目標(biāo)類別及關(guān)鍵詞列表傳輸?shù)矫恳粋€(gè)代理。

        步驟3根據(jù)中心傳來(lái)的關(guān)鍵詞及類別信息進(jìn)行文本分類。

        步驟3.1接受來(lái)自中心數(shù)據(jù)庫(kù)的關(guān)鍵詞列表及目標(biāo)類別。

        步驟3.2根據(jù)中心數(shù)據(jù)庫(kù)的關(guān)鍵詞列表以及目標(biāo)類別,比對(duì)本地文本關(guān)鍵詞進(jìn)行性分類。

        步驟3.3將分類結(jié)果上傳中心數(shù)據(jù)庫(kù)。

        步驟4根據(jù)各個(gè)代理分類信息,中心端輸出全局分類結(jié)果。

        3.3 算法性質(zhì)證明

        定理1基于關(guān)鍵詞的分類算法的傳輸效率嚴(yán)格優(yōu)于傳統(tǒng)的基于文本分類的方法。

        在軍工局資助下,北極星近幾年一直在穩(wěn)步推進(jìn)新型鉬-99生產(chǎn)技術(shù)的研發(fā)工作。這種技術(shù)以鉬的穩(wěn)定同位素為原料,而不是以傳統(tǒng)技術(shù)使用的濃縮鈾為原料,因此可以消除與濃縮鈾相關(guān)的擴(kuò)散和環(huán)境風(fēng)險(xiǎn)。

        證明:

        由于假設(shè)2,提取出的關(guān)鍵詞長(zhǎng)度要嚴(yán)格小于文本傳輸?shù)淖謹(jǐn)?shù),又因?yàn)榧僭O(shè)1,隨著字?jǐn)?shù)的增加傳輸代價(jià)也將增加,所以對(duì)于字?jǐn)?shù)比較少的關(guān)鍵詞分類方法其傳輸效率較高。

        定理2當(dāng)關(guān)鍵詞提取的數(shù)量大于某一個(gè)常數(shù)時(shí),隨著關(guān)鍵詞提取數(shù)量的增加,查準(zhǔn)率P和召回率R的調(diào)和將單調(diào)上升。

        證明:

        將式(3)、式(4)代入式(5),得:

        隨著關(guān)鍵詞提取數(shù)量的增加,又根據(jù)假設(shè)3、假設(shè)4,在關(guān)鍵詞提取的過(guò)程中A,B,C將變大,而S是一個(gè)常量,又因?yàn)椋?/p>

        將式(9)代入式(7),得:

        又因?yàn)锳單調(diào)遞增,所以原式單調(diào)上升。

        證明:

        將式(10)代入式(6),得:

        從定理2和推論中可以看到,只要關(guān)鍵詞提取算法足夠好(即滿足假設(shè)3),通過(guò)關(guān)鍵詞提取的技術(shù)可有效地對(duì)各個(gè)代理中文本的關(guān)鍵詞,即準(zhǔn)確度較高的關(guān)鍵詞先提取出來(lái),就可以在傳輸?shù)倪^(guò)程中只傳輸前面有用的信息以代替對(duì)于文本全文的傳輸,從而達(dá)到通過(guò)傳輸少量關(guān)鍵詞對(duì)文本進(jìn)行分類的目的。

        定理3隨著每一個(gè)代理關(guān)鍵詞提取數(shù)量的增加,中心數(shù)據(jù)庫(kù)本文分類的準(zhǔn)確率將上升,但是每增加一個(gè)關(guān)鍵詞,中心數(shù)據(jù)庫(kù)分類準(zhǔn)確率的增加量將減少。

        證明:

        整個(gè)正確關(guān)鍵詞的數(shù)學(xué)期望,滿足以下公式:

        其中,Ek為提取關(guān)鍵詞數(shù)為k時(shí)正確關(guān)鍵詞的期望;pk為第k個(gè)關(guān)鍵詞是正確關(guān)鍵詞的概率。

        當(dāng)提取關(guān)鍵詞k時(shí),正確關(guān)鍵詞的數(shù)學(xué)期望為:

        由于在假設(shè)2中,隨著正確關(guān)鍵詞數(shù)量的增加,文本語(yǔ)義的描述越明確,又因?yàn)殡S著關(guān)鍵詞提取數(shù)量的增加正確的關(guān)鍵詞數(shù)也會(huì)增加,所以當(dāng)每一個(gè)節(jié)點(diǎn)提取以及傳輸?shù)街行臄?shù)據(jù)庫(kù)的關(guān)鍵詞數(shù)增加時(shí),對(duì)每一篇文本的內(nèi)容理解將會(huì)更加明確,從而提高在中心數(shù)據(jù)庫(kù)中的文本分類效果。

        又因?yàn)檎_關(guān)鍵詞與傳輸關(guān)鍵詞字?jǐn)?shù)的比值將變小,當(dāng)全文傳輸時(shí)其比值接近于0,所以每增加一個(gè)關(guān)鍵詞,產(chǎn)生正確關(guān)鍵詞的可能性變小,中心數(shù)據(jù)庫(kù)分類準(zhǔn)確率的增加量也將減少。

        由定理3可知,雖然隨著各個(gè)代理關(guān)鍵詞增加,中心數(shù)據(jù)庫(kù)文本的分類準(zhǔn)確率將增加,但是每增加一個(gè)關(guān)鍵詞,中心數(shù)據(jù)庫(kù)分類準(zhǔn)確率的增加量將減少。這樣當(dāng)整個(gè)云計(jì)算系統(tǒng)網(wǎng)絡(luò)性能較差時(shí),則可以通過(guò)減少各個(gè)代理對(duì)文本提取的關(guān)鍵詞數(shù)量,從而減少網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)量,最大程度保證分類的效率。而網(wǎng)絡(luò)條件較好時(shí),通過(guò)對(duì)提取的關(guān)鍵詞進(jìn)行調(diào)整,改變網(wǎng)絡(luò)中數(shù)據(jù)的傳輸量以及中心數(shù)據(jù)庫(kù)文本的分類準(zhǔn)確率,實(shí)現(xiàn)算法自適應(yīng)當(dāng)前云計(jì)算系統(tǒng)網(wǎng)絡(luò)狀態(tài)的目的。

        4 實(shí)驗(yàn)分析

        4.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)組成

        本實(shí)驗(yàn)環(huán)境是Matlab2010b,實(shí)驗(yàn)的主要目的是為了證明本文算法的準(zhǔn)確性。首先實(shí)驗(yàn)中比較了基于語(yǔ)義關(guān)鍵分類算法與基于統(tǒng)計(jì)的關(guān)鍵詞分類算法對(duì)不同代理以及中心數(shù)據(jù)庫(kù)關(guān)鍵詞提取能力(主要比較查準(zhǔn)率、召回率以及查準(zhǔn)率P和召回率R的調(diào)和)。其次本文中的實(shí)驗(yàn)比較改進(jìn)分類算法與集中式基于統(tǒng)計(jì)和語(yǔ)義分類算法的分類準(zhǔn)確率。最后通過(guò)對(duì)比提取關(guān)鍵詞個(gè)數(shù)與關(guān)鍵詞整體差的關(guān)系,說(shuō)明改進(jìn)的分類算法可以有效地提高云計(jì)算分布式網(wǎng)絡(luò)環(huán)境下網(wǎng)絡(luò)的傳輸效率。本實(shí)驗(yàn)數(shù)據(jù)主要由人民日?qǐng)?bào)1998年語(yǔ)料庫(kù)中隨機(jī)抽出120篇文章進(jìn)行統(tǒng)計(jì),整個(gè)數(shù)據(jù)集將隨機(jī)劃分成2個(gè)集合來(lái)模擬2個(gè)代理集合,每一個(gè)代理分別有60篇文章,與此同時(shí),將原先的120篇文章作為集中式實(shí)驗(yàn)的素材。其中對(duì)于各種不同詞語(yǔ)詞性權(quán)值的定義,如定義7所示。

        4.2 實(shí)驗(yàn)結(jié)果

        為了比較不同的關(guān)鍵詞提取方法在云計(jì)算分布式情況下的影響,分別使用基于語(yǔ)義的關(guān)鍵詞提取和基于統(tǒng)計(jì)的關(guān)鍵詞提取,對(duì)2個(gè)代理進(jìn)行關(guān)鍵詞提取,并在中心數(shù)據(jù)庫(kù)匯總并以此為依據(jù)進(jìn)行文本分類。

        表1展示了2個(gè)代理對(duì)關(guān)鍵詞提取的查準(zhǔn)率、召回率以及查準(zhǔn)率和召回率的調(diào)和。如表1所示,對(duì)于2個(gè)代理基于語(yǔ)義的關(guān)鍵詞提取方法和基于統(tǒng)計(jì)的關(guān)鍵詞提取算法,基本符合本文的假設(shè)3,隨著關(guān)鍵詞個(gè)數(shù)的增加,其查準(zhǔn)率、召回率以及兩者的調(diào)和單調(diào)遞增,而且基于語(yǔ)義的關(guān)鍵詞提取算法明顯優(yōu)于基于統(tǒng)計(jì)的文本提取算法,所以在代理關(guān)鍵詞提取算法選擇中,選擇基于語(yǔ)義的關(guān)鍵詞提取算法性能優(yōu)于基于統(tǒng)計(jì)的關(guān)鍵詞提取算法,且隨著關(guān)鍵詞個(gè)數(shù)的增加,查準(zhǔn)率P和召回率R的調(diào)和也將單調(diào)上升,這與定理2中的結(jié)論一致。表2展示了中心數(shù)據(jù)庫(kù)合成關(guān)鍵詞的查準(zhǔn)率、召回率以及查準(zhǔn)率和召回率的調(diào)和。

        表1 各個(gè)代理關(guān)鍵詞的提取結(jié)果

        表2 各個(gè)中心數(shù)據(jù)庫(kù)的關(guān)鍵詞合成結(jié)果

        圖2展示了在2個(gè)代理中隨機(jī)選取5篇文章,其關(guān)鍵詞的權(quán)值分布情況??梢钥吹讲煌恼碌年P(guān)鍵詞分布是不同的,如圖2(a)中第1篇、第2篇和圖2(b)中第1篇、第2篇的關(guān)鍵詞權(quán)值分布差別比較明顯,說(shuō)明只需要提取部分關(guān)鍵詞便可以將文本描述清楚,而圖1(a)中的第4篇和第5篇和圖2(b)中的第3篇和第5篇權(quán)值的差別不大,所以對(duì)于這一類的文本則需要提取更多的關(guān)鍵詞,以求達(dá)到更加好的文本分類效果。

        圖2 2個(gè)代理中5篇文章關(guān)鍵詞權(quán)值比較

        圖3主要展示了關(guān)鍵詞提取算法代理和中心數(shù)據(jù)庫(kù)中單位查準(zhǔn)率P和召回率R的調(diào)和與提取關(guān)鍵詞個(gè)數(shù)之間的關(guān)系。如圖3(a)主要展示了2個(gè)代理的單位查準(zhǔn)率P和召回率R的調(diào)和,隨著提取關(guān)鍵詞個(gè)數(shù)的增加,每一個(gè)代理單位查準(zhǔn)率與召回率的調(diào)和減少。圖3(b)主要展示了中心數(shù)據(jù)庫(kù)的單位查準(zhǔn)率P和召回率R的調(diào)和,隨著提取關(guān)鍵詞個(gè)數(shù)的增加,中心數(shù)據(jù)庫(kù)端單位查準(zhǔn)率與召回率的調(diào)和也減少,這與推論的結(jié)果一致。對(duì)比圖3(a)和圖3(b)可知,2個(gè)代理的單位查準(zhǔn)率P和召回率R的調(diào)和是中心數(shù)據(jù)庫(kù)的2倍,其主要原因是中心數(shù)據(jù)庫(kù)的通信量是每一個(gè)代理的2倍,而中心數(shù)據(jù)庫(kù)中關(guān)鍵詞的質(zhì)量則與每一個(gè)代理的質(zhì)量大體相當(dāng)。

        圖3 查準(zhǔn)率P和召回率R的調(diào)和

        圖4主要展示基于關(guān)鍵詞的中文文本分類算法的準(zhǔn)確率與集中式條件下基于語(yǔ)義的中文文本分類算法和統(tǒng)計(jì)算法的中文文本分類算法的準(zhǔn)確率比較。如圖4(a)所示,隨著關(guān)鍵詞提取數(shù)的增加,每一個(gè)代理對(duì)于文本的分類準(zhǔn)確率提高,接近于基于語(yǔ)義分類方法的準(zhǔn)確率,并在提取關(guān)鍵詞大于一定數(shù)量后,其準(zhǔn)確率升值超過(guò)了集中式的基于統(tǒng)計(jì)的文本分類方法。如圖4(b)所示,隨著關(guān)鍵詞提取數(shù)量的增加,中心數(shù)據(jù)庫(kù)的分類準(zhǔn)確率上升,但是每多提取一個(gè)關(guān)鍵詞,其準(zhǔn)確率的上升量卻在減少,這與定理3的結(jié)論一致。圖4說(shuō)明了無(wú)論在代理端,還是在中心數(shù)據(jù)庫(kù)端,在每一個(gè)代理提取的關(guān)鍵詞數(shù)量達(dá)到一定數(shù)量之后,可以近似代替集中式的語(yǔ)義提取文本分類方法。

        圖4 算法準(zhǔn)確率比較

        圖5展示了每一個(gè)代理和中心數(shù)據(jù)庫(kù)提取關(guān)鍵詞數(shù)與關(guān)鍵詞整體差之間的關(guān)系。如圖5(a)所示,隨著關(guān)鍵詞提取數(shù)量的增加,每一個(gè)代理提取的關(guān)鍵詞個(gè)數(shù)增加,每一個(gè)代理的關(guān)鍵詞整體差隨之下降。如圖5(b)所示,隨著關(guān)鍵詞提取數(shù)量的增加,中心數(shù)據(jù)庫(kù)的關(guān)鍵詞整體差也隨之下降,這與定理1的結(jié)論一致。綜合圖5(a)、圖5(b)雖然代理和中心數(shù)據(jù)庫(kù)的關(guān)鍵詞整體差,即使提取的關(guān)鍵詞數(shù)達(dá)到了20個(gè),其中心數(shù)據(jù)庫(kù)關(guān)鍵詞整體差依然高達(dá)1.75×105,說(shuō)明改進(jìn)的關(guān)鍵詞提取分類算法可以有效地減少網(wǎng)絡(luò)的傳輸量,從而在保證分類效果的前提下,減少云計(jì)算對(duì)網(wǎng)絡(luò)傳輸?shù)拈_(kāi)銷。

        圖5 關(guān)鍵詞提取數(shù)與關(guān)鍵詞整體差之間的關(guān)系

        5 結(jié)束語(yǔ)

        本文展示了一個(gè)云計(jì)算環(huán)境下基于語(yǔ)義關(guān)鍵詞提取的分布式中文文本分類方法。通過(guò)理論推導(dǎo)和實(shí)驗(yàn),證明了相對(duì)于傳統(tǒng)的集中式文本分類方法,本文方法可以在近似保證分類效果的前提下,有效地減少云計(jì)算網(wǎng)絡(luò)的傳輸開(kāi)銷。但是本文方法并沒(méi)有具體說(shuō)明在提取關(guān)鍵詞數(shù)量和文本分類準(zhǔn)確率的定量關(guān)系,僅對(duì)中文文本做了實(shí)驗(yàn),該方法是否對(duì)其他語(yǔ)言依然有效尚無(wú)定論,下一步工作將對(duì)這些方面進(jìn)行研究。

        [1]何國(guó)斌,趙晶璐.漢語(yǔ)文本自動(dòng)分詞算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(3):125-130.

        [2]吳晶晶,荊繼武,聶曉峰,等.一種快速中文分詞詞典機(jī)制[J].中國(guó)科學(xué)院研究生院學(xué)報(bào),2009,26(5):704-710.

        [3]傅 鸝,涂春梅,付春雷,等.基于語(yǔ)義的成語(yǔ)檢索系統(tǒng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(13):147-149.

        [4]王立霞,淮曉永.基于語(yǔ)義的中文文本關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2012,38(1):1-3.

        [5]Turney P D.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proc.of the 40th Annual Meeting on Association for Computational Linguistics.[S.l.]:ACM Press,2002:417-424.

        [6]Turney P D.Learning Algorithms for Keyphrase Extraction[J].Information Retrieval,2000,2(4):303-336.

        [7]Turney P D.Similarity of Semantic Relations[J].Computational Linguistic,2006,32(3):279-416.

        [8]Turney P D,Pantel P.From Frequency to Meaning:Vector Space Models of Semantics[J].Journal of Artificial Intelligence Research,2010,37(1):141-188.

        [9]鄭家恒,盧嬌麗.關(guān)鍵詞抽取方法的研究[J].計(jì)算機(jī)工程,2005,31(18):194-195.

        [10]蘇金樹(shù),張博鋒,徐 昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859.

        [11]姜 遠(yuǎn),周志華.基于詞頻分類器集成的文本分類方法[J].計(jì)算機(jī)研究與發(fā)展,2006,43(10):1681-1687.

        [12]羅 杰,陳 力,夏德麟,等.基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2006,23(4):32-34.

        [13]李曉黎,劉繼敏,史忠植.概念推理網(wǎng)及其在文本分類中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2000,37(9):1032-1038.

        [14]Armbrust M,Fox A,Griffith R,et al.A View of Cloud Computing[J].Communications of the ACM,2010,53(4):50-58.

        [15]Buyya R,Yeo C S,Venugopal S.Market-oriented Cloud Computing:Vision,Hype,and Reality for Delivering IT Services as Computing Utilities[C]//Proc.of the 10th IEEE International Conference on High Performance Computing and Communications.[S.l.]:IEEE Press,2008:5-13.

        [16]陳 康,鄭緯民.云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5):1337-1348.

        [17]陳 全,鄧倩妮.云計(jì)算以及其關(guān)鍵性技術(shù)[J].計(jì)算機(jī)應(yīng)用,2009,29(9):2562-2567.

        猜你喜歡
        語(yǔ)義分類數(shù)據(jù)庫(kù)
        分類算一算
        語(yǔ)言與語(yǔ)義
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        中文幕无线码中文字蜜桃| 蜜臀av一区二区三区免费观看| 国产区女主播在线观看| 亚洲人成无码网站在线观看| 亚洲 欧美 国产 日韩 精品| 亚洲第一区无码专区| 青青视频在线播放免费的| 多毛小伙内射老太婆| 亚洲亚洲人成综合网络| 国产啪精品视频网站丝袜| 一本色道久久综合亚洲精品蜜臀 | 在线免费欧美| 伊人久久综合狼伊人久久 | 国产三级av在线播放| 亚洲av无码一区二区三区在线| 国产品精品久久久久中文| 99久久婷婷国产精品综合网站| 狠狠躁18三区二区一区| 日本无遮挡吸乳呻吟视频| 8090成人午夜精品无码| 丝袜美腿制服诱惑一区二区| 丰满少妇a级毛片| 国产喷水福利在线视频| 亚洲av成人一区二区三区色 | 亚洲爆乳精品无码一区二区三区| 亚洲人成亚洲精品| 中国免费av网| 手机在线播放av网址| 国产农村妇女精品一二区| 99在线精品国产不卡在线观看| 日韩精品国产一区在线| 男女无遮挡高清性视频| 先锋影音av最新资源| 国产精品丝袜美女在线观看| av在线一区二区三区不卡| 疯狂做受xxxx国产| 亚洲另类国产综合第一| 一区二区视频网站在线观看| 真实夫妻露脸自拍视频在线播放| 久久av高潮av无码av喷吹| 久久亚洲国产精品123区|