李亞松, 王玉龍
(1 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876; 2 東信北郵信息技術(shù)有限公司,北京 100191)
一種新詞自動(dòng)提取方法*
李亞松1,2, 王玉龍1,2
(1 北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876; 2 東信北郵信息技術(shù)有限公司,北京 100191)
當(dāng)前網(wǎng)絡(luò)語(yǔ)料會(huì)不斷出現(xiàn)大量新詞已經(jīng)成為一種普遍的趨勢(shì),這里面包含大量網(wǎng)友創(chuàng)造的新詞,以及一些社會(huì)熱點(diǎn)形成的新詞。同時(shí)社交網(wǎng)絡(luò)產(chǎn)生的社交性語(yǔ)料存在大量口語(yǔ)化、簡(jiǎn)稱和隨意的表達(dá)。這些都對(duì)中文分詞的準(zhǔn)確性造成了困擾。本文提出了一種新詞自動(dòng)提取方法,旨在能準(zhǔn)確快速地在特定的語(yǔ)料里提取新詞,生成特定領(lǐng)域詞典,更準(zhǔn)確地對(duì)網(wǎng)絡(luò)語(yǔ)料進(jìn)行中文分詞。通過(guò)從語(yǔ)料中提取候選詞,計(jì)算候選詞的支持度和置信度,通過(guò)閾值刷選出新詞,從而實(shí)現(xiàn)從海量文本中準(zhǔn)確且快速的提取新詞。
新詞提?。恢С侄?;置信度;離散度;GINI指數(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展和網(wǎng)民規(guī)模不斷膨脹,新詞大量出現(xiàn)在網(wǎng)絡(luò)并迅速滲入人們的日常生活,這已經(jīng)成為一種語(yǔ)言現(xiàn)象。網(wǎng)絡(luò)輿情監(jiān)控的一個(gè)基本任務(wù)就是從大量的網(wǎng)絡(luò)語(yǔ)料數(shù)據(jù)中快速地識(shí)別大量出現(xiàn)的攜帶新詞的新話題、熱點(diǎn)話題、突發(fā)事件[1]。同時(shí),在諸如信息檢索、自動(dòng)分詞、詞典編纂以及機(jī)器翻譯等眾多中文信息處理領(lǐng)域,新詞提取的效果,在很大程度上影響著這些中文信息處理領(lǐng)域的效果,由于中文自身的特點(diǎn),它不像英文那樣在詞與詞之間有明顯的空格間隔,如何將不斷涌現(xiàn)的新詞準(zhǔn)確提取出來(lái)已經(jīng)是中文信息處理中至關(guān)重要的一步。因此,有效的提取新詞,將對(duì)提高中文信息處理相關(guān)領(lǐng)域的效果起到重要的作用。
文獻(xiàn)[2]提到基于監(jiān)督方法提取候選新詞,包括基于隱馬爾可夫模型、決策樹、支持向量機(jī)模型。這些方法一方面需要人工標(biāo)注的訓(xùn)練語(yǔ)料,一方面模型本身比較復(fù)雜,所以難以應(yīng)用于大規(guī)模語(yǔ)料的新詞提取。文獻(xiàn)[3]公開了一種結(jié)合內(nèi)部聚合度和外部離散信息熵的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法,包括對(duì)網(wǎng)絡(luò)語(yǔ)料庫(kù)包含的所有文本句子進(jìn)行切詞處理,并將切分出來(lái)的所有互不相同的字串作為候選字串;對(duì)在網(wǎng)絡(luò)語(yǔ)料庫(kù)中出現(xiàn)的頻率超過(guò)固定閾值的候選字串,計(jì)算其內(nèi)部聚合度和外部離散信息熵,并根據(jù)該候選字串的內(nèi)部聚合度和外部離散信息熵進(jìn)一步判斷候選目標(biāo)詞串是否為網(wǎng)絡(luò)新詞。該技術(shù)方案實(shí)現(xiàn)較復(fù)雜,當(dāng)判斷一個(gè)候選字串是否為新詞時(shí)需考慮兩個(gè)因素:內(nèi)部聚合度和外部離散信息熵。當(dāng)針對(duì)于互聯(lián)網(wǎng)上的海量文本時(shí),該技術(shù)方案所產(chǎn)生的計(jì)算量較大,并不能快速、有效的發(fā)現(xiàn)和提取新詞。
因此,如何從海量文本中準(zhǔn)確且快速的提取新詞,仍是一個(gè)值得深入研究的技術(shù)問(wèn)題。
本文提出的新詞自動(dòng)提取方法基本思路是從語(yǔ)料中提取所有的候選詞,再結(jié)合候選詞的支持度,置信度和離散度篩選出新詞。具體如下。
(1)對(duì)文本句子進(jìn)行切詞處理,并將其中字?jǐn)?shù)長(zhǎng)度不大于S+1的候選詞提取出來(lái),然后將提取出的所有互不相同的候選詞保存在候選詞庫(kù)中。
(2)計(jì)算候選詞庫(kù)中每個(gè)候選詞的支持度,并將所有支持度大于支持度閾值的候選詞構(gòu)成一個(gè)頻繁詞組。
(3)為頻繁詞組中的每個(gè)候選詞構(gòu)建一個(gè)子詞組,并將候選詞和頻繁詞組中的所有其它候選詞相比較,如果候選詞中包含有其它候選詞時(shí),則將其它候選詞保存在該候選詞的子詞組中,然后根據(jù)候選詞和子詞組中每個(gè)子詞在知識(shí)庫(kù)中出現(xiàn)的頻數(shù),計(jì)算候選詞的置信度,當(dāng)候選詞的置信度大于置信度閾值時(shí),則保留該候選詞。
(4)最后結(jié)合候選詞的離散度進(jìn)行刷選,當(dāng)候選詞的離散度大于離散度閾值時(shí),則候選詞是提取的新詞。
根據(jù)上面所述的基本思路,本文所設(shè)計(jì)的新詞自動(dòng)提取方法包括如下步驟。
步驟1:對(duì)語(yǔ)料庫(kù)包含的所有文本句子進(jìn)行切詞處理,可以通過(guò)標(biāo)點(diǎn)符號(hào),將語(yǔ)料庫(kù)中的所有文本句子分割成多個(gè)短句,并將每個(gè)短句中字?jǐn)?shù)長(zhǎng)度不大于S+1的候選詞提取出來(lái),然后將提取出的所有互不相同的候選詞保存在候選詞庫(kù)中,其中,S是預(yù)先設(shè)定的新詞的字?jǐn)?shù)長(zhǎng)度上限;由于新詞的字?jǐn)?shù)長(zhǎng)度上限一般為4,所以可以優(yōu)選S=4。
例如對(duì)于短句“小說(shuō)劇情精彩”來(lái)說(shuō),當(dāng)截詞窗口的寬度width為1時(shí),所截取的字?jǐn)?shù)長(zhǎng)度為1的候選詞有小、說(shuō)、劇、情、精、彩;當(dāng)截詞窗口的寬度width為2時(shí),所截取的字?jǐn)?shù)長(zhǎng)度為2的候選詞有小說(shuō)、說(shuō)劇、劇情、情精、精彩;當(dāng)截詞窗口的寬度width為3時(shí),所截取的字?jǐn)?shù)長(zhǎng)度為3的候選詞有小說(shuō)劇、說(shuō)劇情、劇情精、情精彩;當(dāng)截詞窗口的寬度width為4時(shí),所截取的字?jǐn)?shù)長(zhǎng)度為4的候選詞有小說(shuō)劇情、說(shuō)劇情精、劇情精彩;當(dāng)截詞窗口的寬度width為5時(shí),所截取的字?jǐn)?shù)長(zhǎng)度為5的候選詞有小說(shuō)劇情精、說(shuō)劇情精彩。
步驟2:根據(jù)候選詞在知識(shí)庫(kù)中出現(xiàn)的頻數(shù)與相同字?jǐn)?shù)長(zhǎng)度的所有候選詞在知識(shí)庫(kù)中出現(xiàn)的頻數(shù)的比值,計(jì)算候選詞庫(kù)中每個(gè)候選詞的支持度,并將所有支持度大于支持度閾值的候選詞構(gòu)成一個(gè)頻繁詞組。
步驟3:為頻繁詞組中的每個(gè)候選詞C構(gòu)建一個(gè)子詞組Z(C),并將候選詞C和頻繁詞組中的所有其它候選詞相比較,如果候選詞C中包含有其它候選詞時(shí),則將其它候選詞保存在候選詞C的子詞組Z(C)中,然后根據(jù)候選詞C以及子詞組Z(C)中每個(gè)子詞在知識(shí)庫(kù)中出現(xiàn)的頻數(shù),計(jì)算頻繁詞組中的每個(gè)候選詞C的置信度,當(dāng)候選詞C的置信度大于置信度閾值時(shí),則候選詞 C是提取的新詞。
例如,當(dāng)候選詞C是“電影院”時(shí),其字?jǐn)?shù)長(zhǎng)度n(C) =3,從頻繁詞組中找到其子詞:電影、影院,即候選詞C的子詞組Z(C):{電影,影院}。
計(jì)算候選詞C的置信度:
其中,p(C)是候選詞C在知識(shí)庫(kù)中出現(xiàn)的頻數(shù),F(xiàn)是Z(C)中的子詞數(shù),z(C)1,z(C)2… z(C)F分別是候選詞C的子詞組Z(C)中包含的所有子詞,p(z(C)1,p(z(C)2…p(z(C)F分別是z(C)1,z(C)2… z(C)F在知識(shí)庫(kù)中出現(xiàn)的頻數(shù),分別是候選詞C與其子詞的置信度,從候選詞C與其子詞的置信度中挑選出最小值作為候選詞C的置信度conf(C)。
步驟4:從候選詞庫(kù)中找出候選詞C的所有左鄰字和右鄰字,并根據(jù)候選詞C的每個(gè)左或右鄰字在所有左或右鄰字中的出現(xiàn)概率,計(jì)算候選詞C的離散度,然后判斷候選詞C的離散度是否大于離散度閾值,如果是,則說(shuō)明候選詞C是提取的新詞。
根據(jù)候選詞C的字?jǐn)?shù)長(zhǎng)度n(C),從候選詞庫(kù)中挑選出所有字?jǐn)?shù)長(zhǎng)度為n(C)+1且以候選詞C為前綴或后綴的其它候選詞,如果候選詞C是挑選出的候選詞的前綴,則將挑選出的候選詞中的最后一個(gè)字保存到候選詞C的右鄰字組中,如果候選詞C是挑選出的候選詞的后綴,則將挑選出的候選詞中的最前一個(gè)字保存到候選詞C的左鄰字組中。
例如,對(duì)于候選詞“劇情”來(lái)說(shuō),從候選詞庫(kù)中找到其它候選詞“說(shuō)劇情”、“劇情精”,則將“說(shuō)”保存到候選詞的左鄰字組中,將“精”保存到候選詞的右鄰字組中。
比較候選詞C的左鄰字和右鄰字的GINI指數(shù)值大小,并將其中的最小值作為候選詞C的離散度。
還值得一提的是,支持度閾值、置信度閾值或離散度閾值可以預(yù)先設(shè)置,或者根據(jù)候選詞C的字?jǐn)?shù)長(zhǎng)度來(lái)分別計(jì)算。當(dāng)根據(jù)候選詞C的字?jǐn)?shù)長(zhǎng)度來(lái)分別計(jì)算時(shí),支持度閾值、置信度閾值或離散度閾值的計(jì)算公式是:
為了進(jìn)一步提高新詞提取的準(zhǔn)確度,當(dāng)候選詞C的字?jǐn)?shù)長(zhǎng)度為2時(shí),支持度閾值、置信度閾值或離散度閾值還可以在上述計(jì)算公式的基礎(chǔ)上,進(jìn)一步調(diào)整:,其中,是候選詞的字?jǐn)?shù)長(zhǎng)度為2時(shí)的支持度、置信度或離散度閾值, M2是候選詞庫(kù)中字?jǐn)?shù)長(zhǎng)度為2的候選詞的總數(shù),α2(k)是第k個(gè)字?jǐn)?shù)長(zhǎng)度為2的候選詞的支持度、置信度或離散度, k是區(qū)間[1,M2]范圍內(nèi)的一個(gè)整數(shù)。
步驟5:將步驟4提取的新詞和現(xiàn)有詞庫(kù)進(jìn)行比較,當(dāng)所述提取的新詞不存在于現(xiàn)有詞庫(kù)中時(shí),所述提取的新詞是系統(tǒng)最終自動(dòng)提取的新詞。
使用中國(guó)移動(dòng)手機(jī)閱讀的用戶評(píng)論文本數(shù)據(jù)(大小為350 MB),運(yùn)用本文方法進(jìn)行測(cè)試,通過(guò)調(diào)試支持度、置信度、離散度閾值,最終得到的結(jié)果示例如表1所示。
表1為提取出的兩字詞示例,可見該方法能很容易識(shí)別“蕭炎”、“若曦”、“林暮”等電子圖書中出現(xiàn)的人名,同時(shí)也能識(shí)別出“腹黑”、“蘿莉”、“坑爹”、“淚奔”等網(wǎng)絡(luò)流行詞,在未展示的提取出的新詞里,還發(fā)現(xiàn)了“菇?jīng)觯ü媚铮?、“雞凍(激動(dòng))”等網(wǎng)友大量使用的帶錯(cuò)別字的新詞,以及“威5”、“宮1”這種漢字與數(shù)字或英文的組詞。從實(shí)驗(yàn)結(jié)果上看,該方法能識(shí)別的新詞非常豐富,并且準(zhǔn)確性很高。
表1 候選詞示例
續(xù)表
與現(xiàn)有技術(shù)相比,本文提出的方法簡(jiǎn)單可行,且計(jì)算量小。在考慮置信度的基礎(chǔ)上,還可以進(jìn)一步結(jié)合離散度,從而大大提高了新詞提取的準(zhǔn)確度。支持度閾值、置信度閾值或離散度閾值還可以根據(jù)候選詞的字?jǐn)?shù)長(zhǎng)度以及所有相同字?jǐn)?shù)長(zhǎng)度的候選詞的支持度、置信度或離散度來(lái)靈活設(shè)置,從而使得該方法在各個(gè)應(yīng)用場(chǎng)景中更具有通用性。
[1] 王偉,徐鑫. 基于聚類的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)和分析[J]. 現(xiàn)在圖書情報(bào)技術(shù), 2009(3):74-79.
[2] 張海軍,史樹敏,朱朝勇,等.中文新詞識(shí)別技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2010,37(3):6-16.
11月28日,由中國(guó)工程建設(shè)標(biāo)準(zhǔn)化協(xié)會(huì)信息通信專業(yè)委員會(huì)主辦,中國(guó)數(shù)據(jù)中心工作組(CDCC)、綜合布線工作組聯(lián)合承辦的2014中國(guó)數(shù)據(jù)中心年度論壇在北京新云南皇冠假日酒店勝利閉幕。
論壇中揭曉了“2014年度中國(guó)優(yōu)秀數(shù)據(jù)中心評(píng)選”活動(dòng)中各大獎(jiǎng)項(xiàng)。參評(píng)數(shù)據(jù)中心項(xiàng)目共65個(gè),其中15個(gè)數(shù)據(jù)中心獲得中國(guó)數(shù)據(jù)中心標(biāo)準(zhǔn)化示范項(xiàng)目獎(jiǎng),7個(gè)數(shù)據(jù)中心獲得中國(guó)數(shù)據(jù)中心標(biāo)準(zhǔn)化示范項(xiàng)目入圍獎(jiǎng)。相對(duì)于2013年度評(píng)選,2014年度各大獎(jiǎng)項(xiàng)競(jìng)爭(zhēng)更為激烈,在申報(bào)項(xiàng)目總數(shù)大大增加的情況下(2013年度為46個(gè),2014年度為65個(gè)),獲獎(jiǎng)項(xiàng)目數(shù)量和去年相同。
其中,憑借出色表現(xiàn),百度M1數(shù)據(jù)中心獲得了數(shù)據(jù)中心年度能效獎(jiǎng)。中國(guó)移動(dòng)國(guó)際信息港一期數(shù)據(jù)中心、中國(guó)聯(lián)通呼和浩特基地?cái)?shù)據(jù)機(jī)房樓A-2樓及油機(jī)樓C-2樓提出的基礎(chǔ)設(shè)施代維服務(wù)獲得了年度運(yùn)維獎(jiǎng)。國(guó)家超級(jí)計(jì)算機(jī)廣州中心、京東商城華東云數(shù)據(jù)中心分別獲得了數(shù)據(jù)中心專業(yè)設(shè)計(jì)獎(jiǎng)和數(shù)據(jù)中心設(shè)計(jì)理念獎(jiǎng)。優(yōu)秀金融數(shù)據(jù)中心獎(jiǎng)花落中國(guó)農(nóng)業(yè)銀行河北省分行數(shù)據(jù)中心、臨商銀行生產(chǎn)數(shù)據(jù)中心。云基地深圳鹽田港數(shù)據(jù)中心、Telehouse BDA 數(shù)據(jù)中心二期工程獲得了數(shù)據(jù)中心施工質(zhì)量獎(jiǎng)。優(yōu)秀企業(yè)數(shù)據(jù)中心獎(jiǎng)在2014年度評(píng)選中再度空缺。
評(píng)選委員會(huì)主席由中國(guó)工程標(biāo)準(zhǔn)化協(xié)會(huì)專家技術(shù)委員會(huì)委員、中國(guó)數(shù)據(jù)中心工作組組長(zhǎng)、中國(guó)數(shù)據(jù)中心專家委員會(huì)主任委員鐘景華先生擔(dān)任,評(píng)選委員會(huì)委員由來(lái)自于設(shè)計(jì)院、行業(yè)用戶在內(nèi)的100多位資深專家組成。評(píng)選委員會(huì)自4月起專門召開了多次會(huì)議,商討評(píng)選方案及評(píng)估模型。評(píng)選以大量的數(shù)據(jù)采集為依據(jù),以完善的評(píng)估模型為基礎(chǔ),在深度分析報(bào)告基礎(chǔ)上對(duì)部分?jǐn)?shù)據(jù)中心項(xiàng)目進(jìn)行現(xiàn)場(chǎng)實(shí)際考核,并先后召開了初評(píng)會(huì)、專家現(xiàn)場(chǎng)答辯會(huì),最終評(píng)選出2014年度中國(guó)各大優(yōu)秀數(shù)據(jù)中心,以確保評(píng)選過(guò)程完整全面,真正凝聚不同領(lǐng)域內(nèi)精英的專業(yè)智慧。
近日在寧波舉行的2014國(guó)際電線電纜及材料設(shè)備展上,江蘇亨通線纜科技有限公司攜綜合布線、4G基站、數(shù)據(jù)中心、電梯電纜、軌道交通用線纜五大解決方案搶灘全球市場(chǎng),成為展會(huì)一大亮點(diǎn)。
亨通線纜是亨通集團(tuán)旗下一家專業(yè)生產(chǎn)和銷售線纜產(chǎn)品的高新技術(shù)企業(yè)。此次參展,亨通線纜通過(guò)樣品展示、資料分發(fā)以及技術(shù)人員的現(xiàn)場(chǎng)講解及交流互動(dòng)等方式,詳細(xì)介紹了亨通線纜的最新產(chǎn)品及解決方案,進(jìn)一步提升了公司品牌的知名度和影響力。同時(shí),該公司還充分利用本次參展機(jī)會(huì),與前來(lái)參觀的客戶和經(jīng)銷商充分交流與洽談,了解同行先進(jìn)企業(yè)的產(chǎn)品特點(diǎn),以便更好地完善自身產(chǎn)品結(jié)構(gòu),發(fā)揮自身優(yōu)勢(shì)。
日11月25日,Polycom公司再度推出實(shí)時(shí)會(huì)議、云跨界和云媒體中心三大解決方案,以一站式的方式將視頻在云技術(shù)框架下的應(yīng)用和功能提升到一個(gè)全新高度,給用戶帶來(lái)更大價(jià)值,并推動(dòng)企業(yè)云平臺(tái)的更多潛能。
云媒體解決方案是繼實(shí)時(shí)會(huì)議解決方案和云視頻解決方案的又一次革命性突破,可以為企業(yè)級(jí)實(shí)時(shí)安全會(huì)議協(xié)作、內(nèi)部及外部應(yīng)用以及全面深入的資源和知識(shí)管理分享,提供一站式解決方案以及跨界的應(yīng)用。在知識(shí)分享方面,云媒體能夠?qū)崿F(xiàn)企業(yè)賦予授權(quán)的員工將工作相關(guān)的視頻上傳,以讓其他人觀看學(xué)習(xí)。云媒體還能提供在線培訓(xùn)、在線答疑、線上考試、證書頒發(fā)等,通過(guò)全媒體、嵌入式的應(yīng)用,將信息嵌入到用戶的網(wǎng)站,還可以與企業(yè)的OA等內(nèi)部系統(tǒng)集成,實(shí)現(xiàn)資源共享最大化,真正體現(xiàn)云時(shí)代的應(yīng)用和體驗(yàn)。
經(jīng)過(guò)嚴(yán)格的篩選,Avaya為小米公司部署了Avaya Aura Contact Center解決方案,涵蓋了Avaya Open Queue網(wǎng)絡(luò)服務(wù)、Avaya Aura Workforce Optimization人力優(yōu)化應(yīng)用、Avaya Experience Portal,以及統(tǒng)一通信客戶端Avaya one-X communicator。Avaya專業(yè)服務(wù)部門還提供了系統(tǒng)部署和開發(fā)支持服務(wù),涉及統(tǒng)一通信客戶端與第三方軟電話的整合,以及社交媒體的整合,包括小米即時(shí)通信系統(tǒng)“米聊”和匯聚了大批米粉的官方社區(qū)。
小米公司高級(jí)客服總監(jiān)楊京津說(shuō):“與傳統(tǒng)的呼叫中心模式不同,小米的客服中心是一個(gè)綜合了業(yè)務(wù)、產(chǎn)品和服務(wù)的平臺(tái),整合了硬件產(chǎn)品、軟件產(chǎn)品和售后服務(wù),因此需要一個(gè)穩(wěn)定的、強(qiáng)有力的系統(tǒng)提供保障。Avaya解決方案為我們提供了出色的跨渠道客戶體驗(yàn)管理,系統(tǒng)的開放性還為小米的自主創(chuàng)新提供了有力支持?!?/p>
愛立信與IBM日前宣布,將合作研究5G相控陣天線設(shè)計(jì),使網(wǎng)絡(luò)能夠?yàn)榭蛻籼峁┑臄?shù)據(jù)傳輸速率較現(xiàn)在提升多個(gè)數(shù)量級(jí)。
愛立信與IBM將合作研究利用相控陣天線技術(shù)開發(fā)原型系統(tǒng),服務(wù)更多移動(dòng)用戶,在同一頻段上提供更多的新增服務(wù),同時(shí)提供高出今天多個(gè)數(shù)量級(jí)的數(shù)據(jù)傳輸速率。這些技術(shù)革新實(shí)現(xiàn)后,將可以把100個(gè)無(wú)線接收器高度集成在一張信用卡大小的芯片上,從而極大促進(jìn)這些技術(shù)應(yīng)用于室內(nèi)及人口密集城區(qū)的高容量小蜂窩網(wǎng)絡(luò)。
11月28日,中國(guó)綜合布線工作組宣布,“2014年度中國(guó)綜合布線十大品牌”評(píng)選活動(dòng)正式落幕。最終,康普公司、美國(guó)康寧公司、羅格朗中國(guó)、耐克森綜合布線系統(tǒng)(亞太區(qū))、美國(guó)泛達(dá)網(wǎng)絡(luò)、南京普天天紀(jì)樓宇智能有限公司、羅森伯格亞太電子有限公司、施耐德電氣(中國(guó))有限公司、美國(guó)西蒙公司、泰科電子(上海)有限公司安普布線系統(tǒng)等10家企業(yè)榮獲“2014年度中國(guó)綜合布線十大品牌”稱號(hào)。
在當(dāng)日舉行的“2014年度數(shù)據(jù)中心工程標(biāo)準(zhǔn)化建設(shè)年度論壇”上,綜合布線工作組組長(zhǎng)、中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司數(shù)據(jù)所副所長(zhǎng)張曉微女士揭曉了十大品牌評(píng)選活動(dòng)結(jié)果。十家獲獎(jiǎng)企業(yè)的高層代表蒞臨論壇,并就綜合布線市場(chǎng)發(fā)展、數(shù)據(jù)中心布線之道、布線技術(shù)創(chuàng)新等話題,進(jìn)行了交流。
本次論壇活動(dòng),由中國(guó)工程建設(shè)標(biāo)準(zhǔn)化協(xié)會(huì)信息通信專業(yè)委員會(huì)主辦,中國(guó)數(shù)據(jù)中心工作組、綜合布線工作組聯(lián)合承辦。包括協(xié)會(huì)領(lǐng)導(dǎo)、設(shè)計(jì)院專家、數(shù)據(jù)中心領(lǐng)域技術(shù)專家、領(lǐng)導(dǎo)廠商專家、新聞媒體等在內(nèi)的1000名代表出席了本次論壇。
11月20日,“2014(第八屆)中國(guó)光通信發(fā)展與競(jìng)爭(zhēng)力論壇暨2014中國(guó)|全球光通信最具競(jìng)爭(zhēng)力企業(yè)10強(qiáng)評(píng)選活動(dòng)頒獎(jiǎng)典禮(ODC)”在北京隆重舉行。ODC論壇由中國(guó)通信學(xué)會(huì)光通信委員會(huì)、亞太光通信委員會(huì)主辦,已經(jīng)成功舉辦了8屆,影響力已經(jīng)得到業(yè)界同仁的廣泛認(rèn)同。
在今年的評(píng)選活動(dòng)中,華為、烽火、長(zhǎng)飛、亨通、DSM等眾多企業(yè)分別在全球及中國(guó)光纖光纜、光傳輸、光器件和品牌榜單中榮獲獎(jiǎng)項(xiàng)。
本屆論壇圍繞“面向下一代光網(wǎng)絡(luò)”主題,工信部科技委常務(wù)副主任韋樂(lè)平、中國(guó)通信學(xué)會(huì)副理事長(zhǎng)兼秘書長(zhǎng)張新生、工信部通信科技委專職常委、亞太光通信委員會(huì)主任委員、《網(wǎng)絡(luò)電信》雜志社主編毛謙、北京郵電大學(xué)原校長(zhǎng)林金桐、運(yùn)營(yíng)商高層代表張成良、唐雄燕、武漢郵科院副院長(zhǎng)、中國(guó)通信學(xué)會(huì)光通信委員會(huì)主任委員余少華、華為傳送網(wǎng)副總裁王麗彪等各企業(yè)高層代表發(fā)表了各自在不同角度的觀點(diǎn),并在圓桌論壇中與業(yè)內(nèi)同仁展開熱烈討論。
此次評(píng)選由NTR網(wǎng)絡(luò)電信信息研究院、亞太光通信委員會(huì)共同主辦,由國(guó)內(nèi)通信領(lǐng)域和經(jīng)濟(jì)學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域的權(quán)威專家組成。各項(xiàng)大獎(jiǎng)根據(jù)參評(píng)企業(yè)的生產(chǎn)規(guī)模、市場(chǎng)表現(xiàn)、產(chǎn)品性能、售后服務(wù)、增長(zhǎng)速度和企業(yè)管理及文化等方面共73項(xiàng)要素指標(biāo)進(jìn)行評(píng)選,對(duì)參選企業(yè)的競(jìng)爭(zhēng)力進(jìn)行了客觀、系統(tǒng)的分析,為光通信行業(yè)競(jìng)爭(zhēng)力分析提供了參考依據(jù)。
New method for the auto-extraction of new words
LI Ya-song1,2, WANG Yu-long1,2
(1 Beijing University of Posts and Telecommunications Networking and Switching Technology, State Key Laboratory, Beijing 100876, China; 2 EBUPT Information Technology Co., Ltd., Beijing 100191, China)
It has been a widespread tendency that large amount of new words are emerging in web text corpus. Among these are many new words created by netizens or arising from social focuses, and are also many colloquial expressions, abbreviations in the social intercourse corpus created by SNS. All the above cases together make it diff cult for words segmentation. In this essay a new extraction method for new words is proposed, aiming to extract new words in a certain corpus, to generate a dictionary and to segment the Chinese expressions more accurately. The new method f rstly extracts candidate words from the corpus, and then calculates its support and conf dence, sifts the new words out, and f nally extracts new words accurately and rapidly from huge text data.
new words extraction; support; conf dence; dispersion; GINI index
TN915
A
1008-5599(2014)12-0083-04
2014-11-01
國(guó)家973計(jì)劃項(xiàng)目(編號(hào):2013CB329102);國(guó)家自然科學(xué)基金資助項(xiàng)目(No. 61372120, 61271019, 61101119, 61121001);長(zhǎng)江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃資助(編號(hào):IRT1049);教育部科學(xué)技術(shù)研究重點(diǎn)(重大)項(xiàng)目資助(編號(hào):MCM20130310);北京高等學(xué)校青年英才計(jì)劃項(xiàng)目(編號(hào):YETP0473)。