姚寒冰,王麗清,徐永躍
(云南大學(xué) 信息學(xué)院 云南省高校數(shù)字媒體技術(shù)重點實驗室,云南 昆明 650223)
供需信息跨語言檢索算法研究
姚寒冰,王麗清,徐永躍
(云南大學(xué) 信息學(xué)院 云南省高校數(shù)字媒體技術(shù)重點實驗室,云南 昆明 650223)
經(jīng)濟(jì)全球化促進(jìn)了互聯(lián)網(wǎng)電子商務(wù)的快速發(fā)展,跨境電商因其巨大的發(fā)展?jié)摿Τ蔀樾碌馁Q(mào)易增長點。由于貿(mào)易的基礎(chǔ)與前提是供需雙方信息的高效共享和溝通,而跨境電商因涉及不同語言之間的互譯,使得信息交流的及時性、準(zhǔn)確性不足,導(dǎo)致喪失貿(mào)易時機,甚至導(dǎo)致貿(mào)易失敗。為此,提出了一種基于自然語言的跨語言協(xié)同機器翻譯的信息檢索算法。該算法可使供給方可根據(jù)所提供商品服務(wù)的特點進(jìn)行靈活的擴展描述,并為需求方提供自然語言描述方法,需求方可使用不同的語言進(jìn)行輸入,完成跨語言的檢索。為驗證協(xié)同機器翻譯的自然語言實現(xiàn)供需信息的檢索和自動匹配能力,進(jìn)行了相關(guān)驗證實驗測試。實驗測試結(jié)果表明,所提出的算法可滿足供給方對自身商品或服務(wù)進(jìn)行特有屬性擴展描述的需求,同時具有多語種拓展?jié)摿?,有助于消除供需雙方的語言障礙。
跨語種;供需;自然語言;檢索
近年來,對于供需自動檢索的方法和跨語言信息檢索已有很多研究。最常見的檢索方式是對供給方的商品或服務(wù),進(jìn)行樹狀目錄分級,由需求方逐級進(jìn)行人工選擇。這種方式操作方便,但是存在供給方的商品或服務(wù)只能套入固定模式的樹狀目錄分級結(jié)構(gòu)、難以擴展某些獨特商品或服務(wù)的特色,以及需求方不一定對于該樹狀目錄分級結(jié)構(gòu)很清楚等弊端。另外,還有基于多目標(biāo)離散差分進(jìn)化算法的交易檢索方法[1]、基于B2B電子交易環(huán)境的供需匹配概念框架[2]、基于圖論的商品自動匹配系統(tǒng)[3]、基于商品本體結(jié)構(gòu)語義相似度匹配算法[4]、基于電子中介下商品交易為背景的方法[5]等。但是以上方法,都沒有解決跨語種供需信息自動匹配檢索的問題,導(dǎo)致不同語種環(huán)境下的應(yīng)用存在局限。
自然語言檢索方面的研究包括面向自然語言檢索的標(biāo)引技術(shù)、自然語言提問分析與處理、自然語言檢索的匹配過程及概念控制[6]、基于有限狀態(tài)方法模型的自然語言處理[7]、基于語義的自然語言檢索方法[8]等;多語種信息組織與檢索方面的研究包括多語言本體構(gòu)建與協(xié)調(diào)、基于關(guān)聯(lián)數(shù)據(jù)的多語言語義網(wǎng)建設(shè)、跨語種語言資源和知識組織系統(tǒng)互操作、多語言文本分類與聚類、交互式多語言信息檢索[9]、基于聚類的個性化跨語言信息檢索方法[10]、基于知識源、雙語詞典和機器翻譯的跨語言檢索[11]、在語境單元框架上的匹配和生成機制實現(xiàn)跨語言檢索[12]、基于可對比語料庫訓(xùn)練的跨語言信息檢索模型[13]等,還有基于語義網(wǎng)的多語種自然語言查詢方法[14]等。
為此,提出了一種基于語義分析的信息檢索算法,即由需求方輸入一段自然語言描述需求信息,并與供給信息進(jìn)行比對。該算法在對需求方的自然語言提問進(jìn)行語義分析處理、對多語種結(jié)構(gòu)組織的信息庫進(jìn)行匹配檢索、對中間庫和同義詞庫進(jìn)行共同檢索的基礎(chǔ)上,按照權(quán)重算法進(jìn)行共有特征(包括顏色、重量、價格等商品特有屬性)的檢索比對,借助人工/機器翻譯機制,建立多語種的供求商品或服務(wù)信息庫,該庫作為跨語言檢索的中間庫,同時構(gòu)建同義詞庫提供比對。
1.1 供求商品或服務(wù)信息庫設(shè)計
供求商品或服務(wù)信息庫用于提供供方商品或服務(wù)的有關(guān)信息,由以下幾部分組成:
(1)供給信息描述。
每一大類商品或服務(wù),設(shè)置相對固定的一系列屬性,即固定屬性。對于每一單獨的商品或服務(wù),另可各自擴展一系列不確定總數(shù)的屬性,稱為自定義屬性,由多個可準(zhǔn)確描述商品或服務(wù)的獨具特點的詞匯構(gòu)成。屬性分為文本類型和數(shù)值類型,數(shù)值類型的屬性,還需提供單位名稱,并可有上下限。文本類型的屬性值、單位名稱,由人工/機器翻譯機制取得多語言結(jié)果并完成存儲。
(2)自定義屬性。
自定義屬性,如果由每一單獨商品或服務(wù)各自分散存儲,結(jié)果將極大地增加數(shù)據(jù)庫冗余,進(jìn)而降低檢索算法的效率,惡化用戶體驗。因此,在實現(xiàn)中進(jìn)行集中存儲,即多個相同的自定義屬性值,只存儲一條。
自定義屬性與商品或服務(wù)之間構(gòu)成多對多的關(guān)聯(lián)關(guān)系。1種商品或服務(wù)可具有1條或多條自定義屬性,1條自定義屬性值可歸屬于1種或多種不同商品或服務(wù)。
(3)權(quán)重。
對于固定屬性和自定義屬性,都具有不同的權(quán)重值。對于固定屬性,預(yù)先設(shè)置相對固定的權(quán)重值。對于自定義屬性,預(yù)設(shè)權(quán)重值隨系統(tǒng)平臺提供的商品服務(wù)的不斷變化而動態(tài)變化,表示該自定義屬性的稀有程度,越稀有的自定義屬性,權(quán)重值越高。
權(quán)重值的生成是指該商品服務(wù)類別中的自定義屬性總數(shù)與該自定義屬性所屬商品或服務(wù)數(shù)量之間的比值。
(4)同義詞表。
同義詞表用于完成含義相似、相近詞的檢索,獲取一致的結(jié)果。
在一個語種中,一組含義相同或相近的詞匯可構(gòu)成一組同義詞?;诟髡Z種的同義詞典,以及相關(guān)商品或服務(wù)領(lǐng)域的專業(yè)知識,構(gòu)建同義詞表。
1.2 庫生成和更新
供求商品或服務(wù)信息庫的生成和更新,由不同角色協(xié)同完成,如圖1所示。
如圖1所示,新入庫的商品或服務(wù),由供給方人工錄入其固定屬性和自定義屬性;系統(tǒng)后臺自動根據(jù)當(dāng)前語種檢索同義詞典,歸并同義屬性,并計算權(quán)重值;系統(tǒng)后臺自動由機器翻譯得到其他語種對應(yīng)屬性值;系統(tǒng)后臺自動對所有已錄入的自定義屬性定期掃描以重新設(shè)置權(quán)重值;系統(tǒng)管理維護(hù)人員不定期人工檢查機器翻譯得到的屬性值,并進(jìn)行人工翻譯校正。
供求商品或服務(wù)信息庫的構(gòu)建,以中文為主。信息庫構(gòu)建完成后,便可根據(jù)一種語種的檢索匹配,迅速找到所有已有語種的對應(yīng)信息庫內(nèi)容,為供給方-需求方語言不通情況下的供需匹配提供一定的便利。通過數(shù)據(jù)庫表擴展字段,即可支持新語種的加入。實現(xiàn)了跨語種和可擴展的特性。并通過關(guān)鍵詞和同義詞的關(guān)聯(lián)關(guān)系,提高檢索匹配信息庫內(nèi)容的準(zhǔn)確性和兼容性。
1.3 跨語言信息檢索算法
當(dāng)需求方提出需求信息時,由跨語言信息檢索算法對供求商品或服務(wù)信息庫進(jìn)行檢索,實現(xiàn)供需匹配。算法實現(xiàn)的主要思路是:需求方輸入的需求信息,與供求信息庫中的商品或服務(wù)的屬性值進(jìn)行比對,命中的屬性權(quán)重值總和,超過一定閾值時,即為匹配成功。按權(quán)重總和由高到低進(jìn)行排列,表示匹配程度的吻合度。
在計算過程中,根據(jù)屬性不同的值類型,有不同的命中定義。
(1)對于文本類型的屬性,當(dāng)需求信息包含該屬性值,或者此屬性值的同義詞時,即為命中。
(2)對于數(shù)值類型的屬性,根據(jù)不同語言的不同表達(dá)方式構(gòu)建不同的正則表達(dá)式,形成正則表達(dá)式庫,并附加該屬性的單位,對需求信息進(jìn)行語義分析,取得數(shù)值范圍。例如:“300到500元”、“400元左右”,正則表達(dá)式分別為^-?[1-9]d*到-?[1-9]d*元$、^-?[1-9]d元左右$。
(3)對于數(shù)值類型的屬性,對需求信息中不同形式的單位描述,設(shè)置單位換算規(guī)則,如需求信息描述與供應(yīng)信息所使用的單位不符時,可進(jìn)行換算。
(4)當(dāng)取得具有上下限的數(shù)值范圍時,屬性值處于該范圍之內(nèi),即為命中。
(5)當(dāng)只取得一個數(shù)值時,浮動上下30%并取整,作為上下限。
這樣,需求信息與供給信息匹配程度的吻合度,與命中屬性總數(shù)、命中屬性的稀有性成正比,并能適應(yīng)自然語言中的不同表達(dá)。
具體示例:如權(quán)重值總和的閾值為1 000,供給商品或服務(wù)信息庫中有某種蘋果具有以下固定屬性:產(chǎn)地:市(權(quán)重值600);品種:紅富士(權(quán)重值350);果徑:80~85 mm(權(quán)重值200);是否有機食品:否(權(quán)重值50);規(guī)格:4 000 g(權(quán)重值50);數(shù)量:15個(權(quán)重值50);價格:65元(權(quán)重值400)。具有以下自定義屬性:套袋防蟲(權(quán)重值700)。
當(dāng)有需求方提交需求信息:“A市產(chǎn)的有套袋防蟲的紅富士蘋果,每公斤15元左右?!盇市、紅富士、套袋防蟲3個屬性由于被文本包含而命中,并由語義分析獲得價格需求:15元、單位:公斤,供求信息中的規(guī)格為4 000 g,根據(jù)單位換位規(guī)則得到需求方的價格需求為60元,在商品價格屬性浮動范圍內(nèi),也命中。因此,共命中產(chǎn)地、品種、價格、套袋防蟲4個屬性,權(quán)重值總和為2 050,超過閾值,供給信息和需求信息檢索命中,獲得了匹配。
當(dāng)有需求方提交英文信息:“Red fuji apple in A-City,15 Yuan per kg?!币部赏ㄟ^英文關(guān)鍵詞Red apple、A-City、Yuan、kg命中有關(guān)屬性,從而獲得檢索匹配,這樣就可實現(xiàn)跨語種檢索,在一定程度上克服供給方、需求方之間的語言障礙。
算法實現(xiàn)的實際效果,主要依賴于供求商品或服務(wù)信息庫的建設(shè)質(zhì)量,由以下因素構(gòu)成:商品或服務(wù)信息的總量、商品或服務(wù)的屬性描述的準(zhǔn)確性、同義詞庫的準(zhǔn)確性、商品或服務(wù)信息的翻譯質(zhì)量。其中,總量、翻譯質(zhì)量可以用量化指標(biāo)表示,翻譯質(zhì)量以機器翻譯所占的比例代表,比例越高,翻譯質(zhì)量越低。
在應(yīng)用系統(tǒng)中,基于以上指標(biāo),對算法效果進(jìn)行了測試。測試樣例,分別基于中、英、泰三個語種,使用100條自然語言描述的需求信息對供給信息庫進(jìn)行匹配檢索。
測試前,分別抽取20條需求信息樣本,人工在供給信息庫中逐條分析是否含可匹配的供給信息,得到期待匹配比例,用于與應(yīng)用系統(tǒng)實際得到的匹配結(jié)果的比例進(jìn)行對比。另外,測試表明檢索平均耗時不大于10 ms,可以滿足用戶體驗要求。
檢索得到的匹配結(jié)果對比如表1所示。
表1 應(yīng)用系統(tǒng)匹配效果測試結(jié)果 %
由測試結(jié)果可以得出,信息庫的建設(shè)質(zhì)量對檢索效率有較大影響,通過信息庫的不斷完善,可以滿足并改善用戶體驗。具體方法有增加商品或服務(wù)信息的總量,加快人工翻譯的進(jìn)度,增強人工翻譯的質(zhì)量,增加同義詞庫的容量和準(zhǔn)確性,通過系統(tǒng)界面信息或系統(tǒng)后臺人員與供給方的互動溝通等方式引導(dǎo)供給方增強商品或服務(wù)信息的準(zhǔn)確性。
為解決自然語言實現(xiàn)供需信息的檢索和自動匹配,滿足供給方對自身商品或服務(wù)的特有屬性擴展進(jìn)行描述的需求,提出了一種基于可擴展多語種供求商品或服務(wù)信息庫和協(xié)同機器翻譯自然語言的供需信息跨語言信息檢索算法。測試結(jié)果表明,該算法一定程度上滿足了供需信息檢索與自動匹配的需求,彌補了傳統(tǒng)供需檢索匹配方式在自然語言和特性描述支持上的不足,可方便地進(jìn)行多語種的擴展,使得供需雙方的語言障礙在一定程度上得以克服,并獲得了較好的用戶體驗效果。
[1] 蔣忠中,樊治平,汪定偉,等.具模糊信息的多數(shù)量多屬性電子交易匹配問題[J].管理科學(xué)學(xué)報,2014,17(5):52-65.
[2] Alpar F Z.Matchmaking framework for B2B e-marketplaces[J].Informatica Economica Journal,2010,14(4):164-170.
[3] 陳 向,劉 義,柴躍廷.基于圖論的電子易貨商品自動匹配系統(tǒng)[J].計算機工程,2009,35(17):283-284.
[4] 陳冬林,聶規(guī)劃,劉平峰.基于本體的B2B電子商務(wù)MAS模型及商品匹配算法[J].計算機工程與應(yīng)用,2007,43(10):199-201.
[5] 梁海明,姜艷萍.一種考慮中介交易態(tài)度的買賣雙邊匹配決策方法[J].運籌與管理,2013,22(5):128-133.
[6] 耿 騫,賴茂生.自然語言檢索的實現(xiàn)及其關(guān)鍵問題[J].情報科學(xué),2007,25(5):733-741.
[7] Anssi Y J, Andras K, Jacques S.Finite-state methods and models in natural language processing[J].Natural Language Engineering,2011,17(2):141-144.
[8] 謝文亮,王石榴.基于語義Web的科技期刊網(wǎng)絡(luò)信息檢索及其應(yīng)用[J].科技管理研究,2015,35(2):196-200.
[9] 司 莉,莊曉喆,賈 歡.近10年來國外多語言信息組織與檢索研究進(jìn)展與啟示[J].中國圖書館學(xué)報,2015,41(4):112-126.
[10] 龐觀松,張黎莎,蔣盛益.個性化跨語言學(xué)術(shù)搜索技術(shù)研究[J].情報學(xué)報,2011,30(8):870-874.
[11] 張玥杰,郭依昆,連 理,等.基于英漢機譯實現(xiàn)跨語言信息檢索[J].小型微型計算機系統(tǒng),2004,25(7):1135-1140.
[12] 吳 晨,繆建明,張 全.跨語種信息檢索中的文本比較及結(jié)果生成算法[J].計算機工程與應(yīng)用,2005,41(29):11-15.
[13] Vulic I,Smet W,Moens M F.Cross-language information retrieval models based on latent topic models trained with document-aligned comparable corpora[J].Information Retrieval,2013,16(3):331-368.
[14] Al-Nazer A,Albukhitan S,Helmy T.Cross-domain semantic web model for understanding multilingual natural language queries:english/arabic health/food domain use case[J].Procedia Computer Science,2016,83:607-614.
Research on Automatic Retrieving Algorithm of Cross-language Supply and Demand Information
YAO Han-bing,WANG Li-qing,XU Yong-yue
(Key Lab of Digital Media Technology of Universities in Yunnan Province,School of Information Science and Engineering of Yunnan University,Kunming 650223,China)
Economic globalization has promoted the rapid development of Internet e-commerce.And the cross-border e-commerce suppliers have become a new growth point of trade due to its huge potential of development.Since basis and prerequisite of trade are efficient sharing and communication of information between supplier and demander,cross-border e-commerce involves translation between different languages,which results in lack of the real-time and accuracy in information exchanges as well as miss of trade opportunities or even failure in trade.To solve this problem a cross-language information retrieval algorithm based on natural language and collaborated with machine translation is proposed,which enable supplier to describe the characteristics of the goods or services flexibly and provide demander for different natural language to describe its own demand for completion of retrieval of cross-language.In order to verify ability of retrieval and automatic matching of supplier and demander information collaborated with machine translation,the verification experiment has been conducted and its results show that the proposed algorithm has met demands of the supplier to depict unique attributes of their goods or services and has owned potentials for multilingual development,which can help to eliminate the language barrier between the supplier and demander.
cross-language;supply and demand;natural language;retrieval
2016-08-18
2016-11-23 網(wǎng)絡(luò)出版時間:2017-07-05
云南省科技創(chuàng)新強省資助項目(2014AB021)
姚寒冰(1978-),男,工程師,碩士,研究方向為信息系統(tǒng);王麗清,通信作者,副研究員,碩士生導(dǎo)師,研究方向為信息系統(tǒng)與檢索、電子商務(wù)等。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1650.038.html
TP391
A
1673-629X(2017)08-0152-04
10.3969/j.issn.1673-629X.2017.08.032