亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文數(shù)字家庭語義詞典的構(gòu)建與應(yīng)用研究

        2013-12-23 06:27:32劉平峰朱孔真聶規(guī)劃
        關(guān)鍵詞:數(shù)字家庭詞典實(shí)例

        劉平峰,朱孔真,聶規(guī)劃

        (武漢理工大學(xué)經(jīng)濟(jì)學(xué)院,湖北 武漢430070)

        由于數(shù)字家庭業(yè)務(wù)不斷發(fā)展,數(shù)字家庭服務(wù)運(yùn)營(yíng)平臺(tái)上聚集了大量來自不同提供商的各種服務(wù)資源,為使用戶在海量資源中貼切表達(dá)需求,更準(zhǔn)確地尋找自己喜歡的資源,這就要求實(shí)現(xiàn)服務(wù)資源關(guān)聯(lián)互動(dòng),向用戶智能推薦服務(wù)資源。然而不同服務(wù)資源提供商對(duì)資源的描述廣泛存在一義多詞和一詞多義的語義異構(gòu)問題,例如在電視購(gòu)物中的自行車、單車、腳踏車等一義多詞現(xiàn)象,在多媒體點(diǎn)播中的“非誠(chéng)勿擾”一詞既是一部電影,也是一個(gè)綜藝節(jié)目等一詞多義現(xiàn)象。這造成了數(shù)字家庭資源目錄和內(nèi)容描述術(shù)語間的關(guān)聯(lián)關(guān)系難以識(shí)別,降低了服務(wù)資源推薦的準(zhǔn)確率。

        目前比較成熟的推薦技術(shù)有基于內(nèi)容過濾推薦技術(shù)[1]、協(xié)同過濾推薦技術(shù)[2]和基于知識(shí)的推薦技術(shù)[3]等,但是這些推薦技術(shù)均未考慮到語義異構(gòu)問題,基于語義相似度的推薦是解決該問題的辦法。由于基于語義的推薦技術(shù)[4]具有推薦層次高、精度高等優(yōu)勢(shì),但其中語義相似度和語義相關(guān)度的計(jì)算依賴于領(lǐng)域語義詞典[5]。綜觀國(guó)內(nèi)外語義詞典的相關(guān)研究成果,國(guó)際上現(xiàn)有的通用WordNet 語義詞典雖然提供了大量的術(shù)語間的語義關(guān)系,并提供接口,具有可操作性,但卻無法支持中文環(huán)境下的語義計(jì)算[6];國(guó)內(nèi)現(xiàn)有的語義詞典HowNet 雖然提供了一些中文術(shù)語間的語義關(guān)系,但它是通用詞典,沒有提供數(shù)字家庭服務(wù)中的相關(guān)術(shù)語,并且未提供接口,可擴(kuò)展性和可操作性受到限制,無法適應(yīng)中文環(huán)境下面向數(shù)字家庭運(yùn)營(yíng)的服務(wù)資源推薦語義的計(jì)算要求[7]。因此,構(gòu)建中文數(shù)字家庭(以下簡(jiǎn)稱CDHome)語義詞典,為數(shù)字家庭服務(wù)資源推薦提供語義計(jì)算的接口,以提高推薦精度和質(zhì)量,是亟待解決的問題。

        1 語義詞典設(shè)計(jì)

        1.1 語義詞典結(jié)構(gòu)

        語義詞典結(jié)構(gòu)的設(shè)計(jì)是開發(fā)語義詞典的重點(diǎn)。通常在描述一個(gè)服務(wù)資源時(shí),只需要了解它的同類資源、構(gòu)成部件和資源屬性即可。鑒于WordNet 的廣泛應(yīng)用性和影響力,以及WordNet以同義詞集合作為最基本構(gòu)造單位的特點(diǎn)[8],最符合解決數(shù)據(jù)表達(dá)異構(gòu)問題的需要,CDHome 語義詞典的詞庫(kù)結(jié)構(gòu)采用了類WordNet 的結(jié)構(gòu)。

        如圖1 所示,在CDHome 語義詞典中,語義關(guān)系模型用4 元組<I,A,S,M >表示,其中I 為層次關(guān)系,是語義詞典最基本語義類型,包括上位詞匯和下位詞匯,將每個(gè)概念映射到語義樹(如圖2所示)中,從而構(gòu)成整個(gè)語義詞典的基本框架;A為屬性關(guān)系,利用一個(gè)N 元組表示,包括服務(wù)資源的屬性和屬性值;S 為同義關(guān)系;M 為整體部分關(guān)系,包括該資源的構(gòu)成部分。

        圖1 數(shù)碼相機(jī)在語義詞典中語義關(guān)系模型

        圖2 CDHome 中“電腦”相關(guān)語義樹結(jié)構(gòu)

        1.2 詞匯獲取填充

        CDHome 語義詞典1.0 版本現(xiàn)收錄資源目錄概念20 200 個(gè)、商品實(shí)例150 個(gè)、多媒體實(shí)例2 200個(gè),其中概念詞匯及其關(guān)系的獲取主要借鑒文獻(xiàn)[9],采取了本體學(xué)習(xí)技術(shù)為主、人工編纂為輔的構(gòu)建方法,資源目錄概念的收集參考eCl@SS 國(guó)際化標(biāo)準(zhǔn),編碼參考分層次分類系統(tǒng)UNSPSC,然后映射成數(shù)據(jù)庫(kù)模式,實(shí)現(xiàn)了CDHome 語義詞典的樹狀結(jié)構(gòu)。對(duì)于多媒體及商品實(shí)例的獲取,依照CDHome 語義關(guān)系模型,利用“火車頭”軟件編寫抓取模塊,抓取了華數(shù)TV 視頻庫(kù)中的電影、電視劇2 200 部及亞馬遜在線商城中數(shù)碼相機(jī)實(shí)體150 個(gè)。

        1.3 語義相似度算法

        基于語義相似度的計(jì)算方法主要包括兩種途徑:①基于語義樹上概念之間的語義距離,利用同義詞詞典計(jì)算相似度,如Hirst-St-Onge[10]語義相似度算法、Leacock-Chodoraw[11]算法、Wu-Palmer[12]算法等;②基于大規(guī)模的本體庫(kù)統(tǒng)計(jì)信息,利用詞語的相關(guān)性來計(jì)算相似度。通常選取一組特征詞,利用在實(shí)際大規(guī)模本體庫(kù)中上下文的出現(xiàn)頻率得到相關(guān)性的特征向量,用向量的夾角余弦來計(jì)算相似度??紤]到規(guī)模性等因素,CDHome 語義詞典語義相似度計(jì)算采取第一種計(jì)算方法中的Wu-Palmer 算法,即:

        其中:sim(c1,c2)為概念c1與概念c2的語義相似度;lso(c1,c2)為最近共有祖先;depth(c)為c的深度。假設(shè)現(xiàn)要計(jì)算圖2 中個(gè)人電腦和服務(wù)器的語義相似度,根據(jù)式(1),個(gè)人電腦與服務(wù)器最近的祖先詞匯是計(jì)算機(jī),則:

        sim(個(gè)人電腦,服務(wù)器)=[2 × depth(計(jì)算機(jī))]/[len(個(gè)人電腦,計(jì)算機(jī))+len(服務(wù)器,計(jì)算機(jī))+2 ×depth(計(jì)算機(jī))]=(2 ×5)/(2 +1 +2 ×5)=0.77

        同理,個(gè)人電腦與手提電腦最近的祖先詞匯是個(gè)人電腦,sim(個(gè)人電腦,手提電腦)=0.93。

        2 語義詞典實(shí)現(xiàn)

        CDHome 語義詞典系統(tǒng)采用C/S 架構(gòu)設(shè)計(jì),選用Windows 環(huán)境下復(fù)雜且靈活的Eclipse RCP技術(shù)框架和SQL Server 2008 數(shù)據(jù)庫(kù)構(gòu)建,系統(tǒng)由語義詞典數(shù)據(jù)庫(kù)和建立在數(shù)據(jù)庫(kù)基礎(chǔ)上的語義詞典管理系統(tǒng)組成。如圖3 所示,該系統(tǒng)由3 個(gè)模塊組成,即語義詞典編纂模塊、語義詞典管理模塊和語義詞典查詢模塊。

        圖3 CDHome 體系結(jié)構(gòu)

        CDHome 語義詞典軟件主要實(shí)現(xiàn)詞庫(kù)的管理和維護(hù),為用戶提供概念的可視化查詢、詞庫(kù)的簡(jiǎn)單編輯等功能。如圖4 所示,與傳統(tǒng)電子詞典最大的不同是,CDHome 語義詞典提供了針對(duì)數(shù)字家庭服務(wù)資源概念的完備查詢。它的主要功能有:①查詢功能,包括概念查詢和概念關(guān)系查詢,為客戶提供圖形化查詢界面,查詢?cè)~匯在詞典中所在層次、相關(guān)概念、同義詞匯以及該概念的屬性、組成部分等語義關(guān)系;②編輯功能,對(duì)錄入詞匯進(jìn)行分類、語義關(guān)系確定,添加、修改和刪除語義詞典數(shù)據(jù)庫(kù)中的記錄。要求對(duì)錄入詞匯的語義關(guān)系進(jìn)行自動(dòng)檢查,能發(fā)現(xiàn)語義關(guān)系建立不符合預(yù)定規(guī)則的錯(cuò)誤詞匯;③管理功能,主要負(fù)責(zé)語義詞典數(shù)據(jù)庫(kù)的維護(hù),詞庫(kù)版本更新,批量概念自動(dòng)導(dǎo)入等;④相似度計(jì)算,可根據(jù)式(1)計(jì)算詞典中任意兩個(gè)詞匯的語義相似度大小。

        圖4 CDHome 語義詞典查詢結(jié)果界面

        3 語義詞典應(yīng)用

        3.1 基于語義詞典的資源推薦

        由于CDHome 語義詞典中存儲(chǔ)了數(shù)字家庭多媒體點(diǎn)播和高清購(gòu)物相關(guān)的服務(wù)資源及其屬性,且為服務(wù)資源智能推薦系統(tǒng)提供了語義查詢接口,可單獨(dú)作為用戶查詢服務(wù)資源的接口,查詢語義詞典收錄了2 萬余條概念的上下位關(guān)系、屬性關(guān)系、同義詞關(guān)系以及整體部分關(guān)系。

        同時(shí),語義詞典還提供語義匹配接口,可計(jì)算不同概念之間的相似度。在數(shù)字家庭服務(wù)資源推薦中,可以利用CDHome 語義詞典查詢與用戶當(dāng)前消費(fèi)的服務(wù)資源或與用戶偏好具有高語義相似度的資源,將其推薦給用戶。例如,數(shù)字家庭服務(wù)資源智能推薦系統(tǒng)根據(jù)用戶歷史行為分析出其非常喜歡“冒險(xiǎn)”類型的電影,然后推薦系統(tǒng)調(diào)用CDHome 語義詞典的語義相似度計(jì)算接口,計(jì)算與“冒險(xiǎn)”這個(gè)概念語義相似度大于推薦系統(tǒng)預(yù)定義閾值(設(shè)定為0.7)的概念,經(jīng)計(jì)算,高于該閾值的電影類型屬性概念有“奇幻”、“驚悚”、“恐怖”,因此,數(shù)字家庭智能推薦系統(tǒng)就可以向用戶推薦“奇幻”、“驚悚”、“恐怖”類電影,實(shí)現(xiàn)基于語義相似度的服務(wù)資源推薦功能。

        3.2 基于語義相似度的推薦結(jié)果消重

        協(xié)同過濾推薦算法的思想是針對(duì)與目標(biāo)用戶最接近的K 個(gè)鄰居用戶來進(jìn)行推薦,利用鄰居用戶對(duì)服務(wù)資源的評(píng)價(jià)來預(yù)測(cè)目標(biāo)用戶未來對(duì)服務(wù)資源的需求[13]。在基于項(xiàng)目的協(xié)同過濾技術(shù)中,最終產(chǎn)生的推薦列表中的服務(wù)資源會(huì)存在同義或相似度較高的情況,從而產(chǎn)生重復(fù)推薦的問題。如圖5 所示,在某用戶購(gòu)買數(shù)碼相機(jī)的推薦中出現(xiàn)了兩個(gè)基本相同的相機(jī)(圖5 中標(biāo)記為相機(jī)Ⅰ、Ⅱ的兩個(gè)矩形框內(nèi)),這時(shí)就可以利用語義詞典對(duì)服務(wù)資源實(shí)例進(jìn)行語義相似度計(jì)算,消除重復(fù)的推薦結(jié)果。

        圖5 某電商網(wǎng)站智能推薦頁面

        [14]中電子目錄本體實(shí)例消重方法,兩個(gè)實(shí)例I1與I2之間的語義相似度計(jì)算公式為S(I1,I2)=αSC(I1,I2)+βSA(I1,I2)+xSR(I1,I2),其中SC(I1,I2)為實(shí)例名稱語義相似度,SA(I1,I2)為實(shí)例屬性語義相似度,SR(I1,I2)為實(shí)例關(guān)系語義相似度,α、β、x 為權(quán)重系數(shù),一般情況下分別取1/3。該例中,由于相機(jī)Ⅰ和相機(jī)Ⅱ名稱相同,并且都屬于富士數(shù)碼相機(jī)分類,故SC(I1,I2)=SR(I1,I2)=1。因此其語義相似度的不同取決于屬性語義相似度。首先,取出兩個(gè)實(shí)例的屬性集合,I1={品牌:富士;型號(hào):JV255;顏色:藍(lán)色;市場(chǎng)價(jià):950 元;折扣:5.8;像素:1 400萬;質(zhì)量:108 g;質(zhì)保期:1 年},I2={品牌:富士;型號(hào):JV255;顏色:黑色;市場(chǎng)價(jià):950 元;折扣:5.8;像素:1 400 萬;質(zhì)量:108 g;質(zhì)保期:1 年}。然后對(duì)實(shí)例I1、I2的屬性進(jìn)行分類,數(shù)據(jù)類型屬性有市場(chǎng)價(jià)、折扣、型號(hào)、像素、質(zhì)保期和質(zhì)量等,對(duì)象類型屬性有品牌和顏色。最后可參考文獻(xiàn)[14]計(jì)算數(shù)據(jù)類型屬性語義相似度,可得SDA(I1,I2)=1,可參考文獻(xiàn)[15]計(jì)算對(duì)象類型屬性語義相似度,得SOA(I1,I2)=7/9,綜合得到兩個(gè)相機(jī)實(shí)例的屬性語義相似度為SA(I1,I2)=8/9,綜合語義相似度為S(I1,I2)=26/27,如果推薦系統(tǒng)中設(shè)定的閾值大于26/27,則推薦系統(tǒng)將兩個(gè)相機(jī)均推薦給用戶;否則,說明實(shí)例I1與實(shí)例I2之間的相似度已經(jīng)大到足夠說明兩者表示的是相同實(shí)例,故應(yīng)該刪除其中一個(gè)實(shí)例,將第二個(gè)相機(jī)實(shí)例過濾,只推薦第一個(gè)相機(jī)給用戶[16]。

        4 結(jié)論及展望

        針對(duì)數(shù)字家庭服務(wù)資源描述的語義異構(gòu)性造成服務(wù)資源推薦精度和質(zhì)量低的問題,在國(guó)內(nèi)外通用語義詞典WordNet 和HowNet 的理論研究基礎(chǔ)上,結(jié)合領(lǐng)域詞典設(shè)計(jì)方法,融合Wu-Palmer語義相似度算法,利用Eclipse RCP 開發(fā)技術(shù),設(shè)計(jì)和實(shí)現(xiàn)了CDHome 語義詞典系統(tǒng),為數(shù)字家庭服務(wù)資源推薦提供語義查詢與語義計(jì)算功能。該語義詞典具有較強(qiáng)的可擴(kuò)展性,可以方便地基于其進(jìn)行其他領(lǐng)域語義詞典的快速構(gòu)建。目前CDHome語義詞典的概念填充主要采用半手工方式,但是由于領(lǐng)域?qū)I(yè)術(shù)語詞匯量大且不同領(lǐng)域?qū)I(yè)術(shù)語詞匯差異性較大,這種方式需耗用較高的人力和時(shí)間成本,后期將結(jié)合本體自學(xué)習(xí)理論,研究領(lǐng)域語義詞典自動(dòng)填充技術(shù)的實(shí)現(xiàn)。

        參考文獻(xiàn):

        [1] 劉枚蓮,劉同存,李小龍.基于用戶興趣特征提取的推薦算法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2011,28(5):1664-1667.

        [2] 王茜,楊莉云,楊德禮.面向用戶偏好的屬性值評(píng)分分布協(xié)同過濾算法[J]. 系統(tǒng)工程學(xué)報(bào),2010,25(4):561-568.

        [3] 趙英,袁莉. 基于內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)的知識(shí)推薦系統(tǒng)設(shè)計(jì)研究[J].情報(bào)雜志,2012,31(1):161-165.

        [4] 劉平峰,聶規(guī)劃,陳冬林.語義網(wǎng)技術(shù)在電子商務(wù)中的應(yīng)用研究[J].情報(bào)雜志,2007(3):98-100.

        [5] LIU H Z,BAO H,XU D. Concept vector for semantic similarity and relatedness based on WordNet structure[J].The Journal of Systems and Software,2012(85):370-381.

        [6] 邊振興.WordNet 中概念語義相似度IC 參數(shù)模型研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(19):128-131.

        [7] 馮永,張洋. 基于概念間邊權(quán)重的概念相似性計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2012,32(1):202-205.

        [8] 曾淑琴,吳揚(yáng)揚(yáng).基于HowNet 的詞語相關(guān)度計(jì)算模型[J].微型機(jī)與應(yīng)用,2012,31(8):77-80.

        [9] NIE G H,ZHANG B. The design and implementation on Chinese E-ecommerce semantic lexicon ECNET[C]//2008 International Conference on Computer Science and Software Engineering. [S. l.]:[s.n.],2008:753-755.

        [10]傅魁.基于Web 的本體學(xué)習(xí)研究[D].武漢:武漢理工大學(xué)圖書館,2007.

        [11]PHILIP R.Using information content to evaluate semantic similarity in a taxonomy[R].[S.l.]:[s.n.],1995.

        [12]JIANG J J,CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy[R].[S.l.]:[s.n.],1997.

        [13]LIN D. An information-theoretic definition of similarity[C]//Proceedings of the Fifteenth International Conference on Machine Learning. SanFranciseo:Morgan Kaufmann Publishers Inc,1998:296-304.

        [14]夏培勇. 個(gè)性化推薦技術(shù)中的協(xié)同過濾算法研究[D].青島:中國(guó)海洋大學(xué)圖書館,2011.

        [15]劉平峰,章佩璐,陳冬林.電子目錄本體合并中的實(shí)例消重方法研究[J].計(jì)算機(jī)工程,2012,38(2):32-35.

        [16]聶規(guī)劃,左秀然,陳冬林.本體映射中一種改進(jìn)的概念相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2008,28(6):1563-1565.

        猜你喜歡
        數(shù)字家庭詞典實(shí)例
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        加快數(shù)字家庭示范社區(qū)建設(shè)
        民主(2019年8期)2019-10-09 13:42:12
        評(píng)《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        完形填空Ⅱ
        完形填空Ⅰ
        湖北廣電與思科合作開展數(shù)字家庭業(yè)務(wù)
        《胡言詞典》(合集版)刊行
        《數(shù)字家庭》讀者俱樂部調(diào)查表
        家庭網(wǎng)絡(luò)和數(shù)字家庭
        電子世界(2004年4期)2004-07-26 23:59:30
        精品国产三级a∨在线| 亚洲av熟女天堂系列| 黄色中文字幕视频网站| 一本久道竹内纱里奈中文字幕| 免费无码av片在线观看播放| 久久久久亚洲av无码a片软件| 日本口爆吞精在线视频| 少妇一区二区三区精选| 激情综合婷婷色五月蜜桃| 蜜桃无码一区二区三区| 精品视频入口| 人妻免费黄色片手机版| 亚洲一区二区在线观看网址| 欧美日韩精品一区二区三区高清视频 | 精品亚洲第一区二区三区 | 久久国产精久久精产国| 92精品国产自产在线观看48页| 国产在线一区二区三区不卡| 国产a级毛片久久久精品毛片| 成在人线av无码免观看麻豆| 国产精品久久中文字幕第一页| 粉色蜜桃视频完整版免费观看在线| 国产在线无码不卡影视影院| 亚洲av永久无码一区| 国产精品欧美亚洲韩国日本| 国产一区二区三区成人| 台湾佬中文娱乐网22| 人妻在卧室被老板疯狂进入国产| 日本精品久久性大片日本| 亚洲香蕉av一区二区三区| 天天夜碰日日摸日日澡| 国产精品国产三级在线高清观看 | 亚洲国产综合久久天堂| 影音先锋男人站| 9久9久女女热精品视频免费观看| 国产精品高清视亚洲一区二区| 精品九九人人做人人爱| 精品乱码一区二区三区四区| 亚洲日本一区二区在线观看| 国产成人av一区二区三区不卡| 无码任你躁久久久久久|