亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向電子商務(wù)的關(guān)鍵信息抽取方法

        2012-12-31 00:00:00袁璐王楷娥
        商場(chǎng)現(xiàn)代化 2012年32期

        [摘 要]本文以知網(wǎng)知識(shí)庫(kù)為基礎(chǔ),運(yùn)用語(yǔ)義分析方法,通過語(yǔ)義的相似度計(jì)算實(shí)現(xiàn)在電子文檔中抽取到有用的關(guān)鍵句和關(guān)鍵信息。

        [關(guān)鍵詞]電子商務(wù) 語(yǔ)義 關(guān)鍵信息 抽取

        一、前言

        近年,我國(guó)電子商務(wù)投資規(guī)模和發(fā)展處于快速增長(zhǎng)和爆發(fā)時(shí)期,電子商務(wù)已經(jīng)成為企業(yè)和個(gè)人商務(wù)活動(dòng)中不可或缺的組成部分。面對(duì)海量的商品信息,消費(fèi)者如何從這些電子文檔中快速有效的找到有用的信息,成為信息檢索領(lǐng)域的重要研究方向。信息抽取是一個(gè)有效的解決方法,是具有較高實(shí)用價(jià)值的關(guān)鍵技術(shù)。從已有研究看,運(yùn)用語(yǔ)義方法做信息抽取還相對(duì)較少,而信息抽取不可能完全擺脫自然語(yǔ)言模型的影響,語(yǔ)義關(guān)系仍然是實(shí)現(xiàn)信息抽取的基礎(chǔ),比較其他信息抽取技術(shù),能夠提高查全率和查準(zhǔn)率,并降低復(fù)雜度。本文將通過語(yǔ)義分析方法,對(duì)電子商務(wù)網(wǎng)站的自由文本做相應(yīng)處理和語(yǔ)義相似度計(jì)算,實(shí)現(xiàn)關(guān)鍵信息抽取。

        二、相似度計(jì)算

        大部分基于語(yǔ)義做自然語(yǔ)言處理的研究,都是以知網(wǎng)為基礎(chǔ)。知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。在知網(wǎng)中,詞匯語(yǔ)義的描述被定義為義項(xiàng)(概念),每一個(gè)詞可以表達(dá)為幾個(gè)義項(xiàng),義項(xiàng)又是由一種知識(shí)表示語(yǔ)言來描述的,這種知識(shí)表示語(yǔ)言所用的詞匯稱作義原。其語(yǔ)義樹并不涵蓋所有詞語(yǔ),而將描述詞匯語(yǔ)義的義原用樹狀結(jié)構(gòu)組織起來,義原根據(jù)義原之間的屬性關(guān)系分為多棵義原樹,樹與樹之間存在一定的關(guān)系,形成網(wǎng)狀知識(shí)結(jié)構(gòu)。其義原數(shù)量很少,但組合起來可以表達(dá)數(shù)以萬計(jì)詞語(yǔ)。所以將詞語(yǔ)相似度計(jì)算轉(zhuǎn)換為義原相似度計(jì)算可以提高計(jì)算效率,有利于知識(shí)庫(kù)的擴(kuò)展。

        1.詞語(yǔ)相似度計(jì)算

        根據(jù)知網(wǎng)的義項(xiàng)描述和義原結(jié)構(gòu),算法可做如下表達(dá),設(shè)定兩個(gè)詞語(yǔ)■有n個(gè)義項(xiàng)表示■,…,■,■有m個(gè)義項(xiàng)表示,■…,■,本計(jì)算中默認(rèn)所有義項(xiàng)的相似度最大值為詞語(yǔ)之間相似度,具體表達(dá)式為:

        ■ (1)

        其中■為■和■的相似度,■為■和■的相似度。這樣就通過計(jì)算義項(xiàng)的相似度值得到義項(xiàng)所對(duì)應(yīng)的詞語(yǔ)之間的相似度,最后由計(jì)算義原相似度來實(shí)現(xiàn)。這樣就將相似度計(jì)算由詞語(yǔ)轉(zhuǎn)換為義項(xiàng)最終轉(zhuǎn)換為基本單位義原。通過計(jì)算語(yǔ)義距離及義原之間相對(duì)位置關(guān)系得到義原相似度。知網(wǎng)結(jié)構(gòu)中,語(yǔ)義距離是影響義原相似度的基本因素,于是得到經(jīng)驗(yàn)公式通過語(yǔ)義距離計(jì)算義原之間相似度:

        ■(2)

        其中p為義原;d為義原層次結(jié)構(gòu)中路徑長(zhǎng)度;為可調(diào)節(jié)參數(shù)。

        分析發(fā)現(xiàn),義原的相對(duì)位置也是義原之間相對(duì)關(guān)系的很大影響因素,對(duì)(2)式做出改進(jìn),加入義原相對(duì)位置的影響因素h(義原在義原樹中的深度):

        ■(3)

        具體處理文本時(shí)總結(jié)發(fā)現(xiàn),實(shí)詞在文本中表達(dá)本質(zhì)含義,而虛詞主要作為詞語(yǔ)之間的連接等。所以,為提高效率,本文在計(jì)算相似度時(shí)只計(jì)算實(shí)詞部分。

        依據(jù)知網(wǎng)結(jié)構(gòu),將實(shí)詞相似度計(jì)算用下面的計(jì)算完成。

        (1) 第一獨(dú)立義原計(jì)算:對(duì)兩個(gè)義項(xiàng)計(jì)算第一獨(dú)立義原相似度可由式(3)的計(jì)算方法算出,這里記第一獨(dú)立義原為:■。

        (2) 其他獨(dú)立義原計(jì)算:相似度記作■,計(jì)算表達(dá)式如下:

        ■(4)

        (3) 關(guān)系義原計(jì)算:兩個(gè)義項(xiàng)的相似度記為■,計(jì)算表達(dá)式如下:

        ■(5)

        (4) 符號(hào)義原計(jì)算:相似度記作■,基于在義原結(jié)構(gòu)中表示形式相同的原因,符號(hào)義原計(jì)算與關(guān)系義原計(jì)算相近,如下式:

        ■(6)

        于是,兩個(gè)義項(xiàng)語(yǔ)義表達(dá)式的整體相似度記為

        ■(7)

        鑒于知網(wǎng)結(jié)構(gòu)和描述,第一獨(dú)立義原之外的其他義原相似度是相對(duì)獨(dú)立的,對(duì)公式進(jìn)行改進(jìn):

        ■(8)

        至此可計(jì)算出兩個(gè)實(shí)詞的相似度。

        2.句子相似度計(jì)算

        這里計(jì)算句子相似度計(jì)算時(shí)只計(jì)算實(shí)詞,包括動(dòng)詞(Verb)、名詞(Noun)、代詞(Pron)、副詞(Adv)、形容詞(Adj)、數(shù)詞(Num)、量詞(Quan)等。即,一個(gè)句子可根據(jù)上述分類得到如下集合:{Verb,Noun,Pron,Adv,Adj,Num,Quan}

        設(shè)句子Sen經(jīng)過分詞之后包含m 個(gè)詞:

        ■(9)

        再根據(jù)實(shí)詞分類,得到分類集合:

        ■(10)

        根據(jù)各個(gè)實(shí)詞在句子中所做的成分及作用分析,句子之間相同詞性的詞匯之間相似度可以衡量句子之間的相似度,這里設(shè)兩個(gè)句子的實(shí)詞分類集合分別為:

        ■。

        設(shè)動(dòng)詞集合V的兩個(gè)集合為:

        ■(11)

        ■(12)

        設(shè)句子■和■的相似度矩陣為■,

        ■(13)

        其中■為兩詞相似度。

        兩句子動(dòng)詞集合的相似度:

        ■(14)

        根據(jù)這種方法,即可得到其他分類集合的相似度。那么全句的相似度如下表示(為權(quán)系數(shù)):

        ■(15)

        三、關(guān)鍵句抽取算法

        對(duì)于目前我們所遇到的絕大多數(shù)電子商務(wù)網(wǎng)頁(yè)中的電子文本都具有一定的模式,它的特點(diǎn)是基本符合對(duì)商品描述的基本模式,一般包含的基本信息是:品牌、質(zhì)地、顏色、細(xì)節(jié)等。而這些梗概信息也正是要抽取的關(guān)鍵元素。通過對(duì)大量文本的觀察、統(tǒng)計(jì)發(fā)現(xiàn),在一個(gè)完整的文本中,會(huì)存在一個(gè)句子完全包含這些關(guān)鍵元素,即關(guān)鍵句。抽取的基本思想是,一個(gè)完整文本中的句子,與其它句子或者相關(guān),或者完全不相關(guān)。關(guān)鍵句作為信息量最大的句子與其他句子一定具有相關(guān)性;非關(guān)鍵句之間則是相互獨(dú)立的。根據(jù)這個(gè)思想,關(guān)鍵句的抽取有如下算法:輸入:包含自由文本的文檔 ;輸出:代表該文檔的關(guān)鍵信息

        步驟:

        Step1 將輸入的文檔進(jìn)行句子劃分,得到其句子集D(W)。

        Step2 對(duì)D(W)的每一個(gè)句子進(jìn)行分詞處理,過濾虛詞,形成實(shí)詞集合W{ W1 , W2 ,…, Wn },其中Wi, i=1,2,…n, 為第i個(gè)句子對(duì)應(yīng)的實(shí)詞集合。

        Step3利用公式(15)計(jì)算任意兩個(gè)由詞集合表示的句子■的語(yǔ)義相似度,設(shè)為■

        Step4 對(duì)每個(gè)句子與其他所有句子的語(yǔ)義相似度值求和,設(shè)句子■對(duì)應(yīng)和值為■則■,n為句子數(shù)目。

        Step5 計(jì)算■,并將其對(duì)應(yīng)的句子作為關(guān)鍵句輸出。

        四、實(shí)驗(yàn)結(jié)果及分析

        為評(píng)價(jià)本算法性能,本實(shí)驗(yàn)使用中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所研制的ICTCLAS系統(tǒng)的中文分詞和詞性標(biāo)注功能,用Java語(yǔ)言實(shí)現(xiàn)算法。使用的語(yǔ)料為電子商務(wù)網(wǎng)頁(yè)上摘錄的200段文本。以召回率和準(zhǔn)確率作為算法評(píng)價(jià)指標(biāo):

        ■(16)

        ■(17)

        具體實(shí)驗(yàn)結(jié)果如圖所示。

        從實(shí)驗(yàn)結(jié)果看,本文算法對(duì)處理文本的類型具有一定的依賴性,對(duì)于主題比較鮮明的文本具有較高的抽取率。而對(duì)于同類型語(yǔ)料,不同語(yǔ)料數(shù)量的測(cè)試結(jié)果差別不大,因此算法對(duì)語(yǔ)料輸入數(shù)量并不敏感,可見本算法能夠保持較高的穩(wěn)定性。體現(xiàn)了語(yǔ)義在自然語(yǔ)言處理中的優(yōu)勢(shì)。

        參考文獻(xiàn):

        [1]董振東,董強(qiáng).知網(wǎng)[EB/OL]. http://www.keenage.com., 2003-

        07-12.

        [2]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[A].第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集[C],臺(tái)北: [s n], 2002. 59-76

        [3]牛之賢,白鵬洲,段富.基于框架語(yǔ)義標(biāo)注的自由文本信息抽取研究[J].計(jì)算機(jī)工程與應(yīng)用.2008,44(25) 143~145

        [4]金博,史彥君.基于語(yǔ)義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào), Mar,2005,Vol.45,No.2 292~297

        [5]ZHANG Hua-ping,Yu Hong-kui,Xiong De-yi,etal. HHMM-based Chinese lexical analyzer ICTCLAS[A]. 41st Annual Meeting of the Association for Computational Linguistics[C]. Sapporo: [s n],2003

        亚洲天堂成人av在线观看| 精品久久久久久蜜臂a∨| 天堂av无码大芭蕉伊人av孕妇黑人| 国产精品丝袜美女久久| 精品含羞草免费视频观看| 女人张开腿让男桶喷水高潮| 好爽…又高潮了毛片免费看| 激,情四虎欧美视频图片| 福利视频偷拍一区二区| 熟妇人妻无乱码中文字幕真矢织江| 日本aⅴ大伊香蕉精品视频| 久久99热精品这里久久精品| 国产精品久久久精品三级18| 中文字幕丰满人妻av| 丰满多毛的大隂户毛茸茸| 女人被做到高潮免费视频| 日韩中文字幕无码av| 国产高清一区二区三区三州| 精品无码国产自产拍在线观看 | 欧洲多毛裸体xxxxx| 欧洲乱码伦视频免费| 亚洲国产成人av二区| 欧美人与动牲交a精品| 97欧美在线| 久久精品网站免费观看| 国产精品久久无码不卡黑寡妇 | 丝袜美腿亚洲综合一区| 99国产精品99久久久久久| 欧美v亚洲v日韩v最新在线| 国产精品一区二区三级| 丝袜美腿亚洲综合在线播放 | 日韩女同在线免费观看| 啦啦啦中文在线观看日本 | 亚洲欧洲一区二区三区波多野| 精品国产免费一区二区久久| 精品久久久bbbb人妻| 国产成人综合久久精品免费 | 中文字幕高清一区二区| 中文字幕av久久亚洲精品| 中国凸偷窥xxxx自由视频| 亚州AV成人无码久久精品|