陸偉宇
摘要:電子商務(wù)搜索引擎成為電子商務(wù)活動(dòng)中人們網(wǎng)絡(luò)購(gòu)物中的基本手段,同樣也是是客戶(hù)、商家和電子商務(wù)關(guān)心的重要領(lǐng)域,但是網(wǎng)絡(luò)購(gòu)物中商品檢索問(wèn)題一直困擾著電子商務(wù)的進(jìn)一步發(fā)展。本文首先對(duì)通用搜索引擎與垂直搜索引擎進(jìn)行了比較;接著,提出電子商務(wù)背景下商品信息檢索的諸如檢索模式單一與信息孤島、信息的領(lǐng)域約束性、用戶(hù)需求的多樣化與個(gè)性化、網(wǎng)絡(luò)商品的可信度問(wèn)題;再次,針對(duì)存在的問(wèn)題提出了ProductRankProductCrawler、ContextRank和OpinionRank解決策略,以期為電子商務(wù)背景下商品信息檢索的研究提供參考和借鑒。
關(guān)鍵詞:電子商務(wù);商品信息;檢索
中圖分類(lèi)號(hào):G354.4 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)004-000329-01
進(jìn)入21世紀(jì)以來(lái),電子商務(wù)發(fā)展迅速,根據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì),截止2015年6月,我國(guó)網(wǎng)絡(luò)購(gòu)物用戶(hù)達(dá)到4.17億。伴隨著電子商務(wù)網(wǎng)站的增多,隨之而來(lái)的是商務(wù)信息資源更加豐富,呈現(xiàn)出多樣化。電子商務(wù)搜索引擎成為電子商務(wù)活動(dòng)中人們獲取商品、服務(wù)和信息的基本手段,是客戶(hù)、商家和電子商務(wù)關(guān)心的重要領(lǐng)域。但是在信息資源過(guò)載問(wèn)題的同時(shí),網(wǎng)絡(luò)購(gòu)物中普遍存在“信息迷失”的現(xiàn)象,一些公共搜索引擎也很難滿(mǎn)足用戶(hù)的需求,用戶(hù)將大量的時(shí)間都消耗在一些重復(fù)的信息,甚至虛假的信息上。因此,如何在這些海量數(shù)據(jù)里,快速、高效的檢索出用戶(hù)需要的信息,是電子商務(wù)急需解決的問(wèn)題。
一、信息檢索
信息檢索(Information Retrieval,IR)指將信息按照一定的方式組織和存儲(chǔ)起來(lái),又稱(chēng)為“信息存儲(chǔ)與檢索”。一般分為通用搜索引擎與垂直搜索引擎,如表1所示,進(jìn)行了對(duì)比。
二、電子商務(wù)檢索存在的問(wèn)題
1.檢索模式單一與信息孤島問(wèn)題
以目前的天貓商城為例,其提供的商品檢索服務(wù)基本以傳統(tǒng)的單一的關(guān)鍵字匹配,尚不能真正滿(mǎn)足客戶(hù)的需求,同時(shí)由于各個(gè)電子網(wǎng)站之間也缺乏互通互聯(lián),用戶(hù)不能全面獲取商品信息,容易造成信息不對(duì)稱(chēng)。
2.信息的領(lǐng)域約束性問(wèn)題
電子商務(wù)網(wǎng)站消除信息孤島問(wèn)題的同時(shí),檢索空間可能會(huì)存在非商品信息的個(gè)體。由于各個(gè)電子商務(wù)商家網(wǎng)站之間缺乏統(tǒng)一的商品信息標(biāo)準(zhǔn),乃至頁(yè)面的布局都不盡一致。結(jié)果導(dǎo)致在海量的商品信息中,不能保障檢索空間的主題約束,進(jìn)而會(huì)對(duì)查準(zhǔn)率產(chǎn)生負(fù)面影響。
3.用戶(hù)需求的多樣化與個(gè)性化問(wèn)題
用戶(hù)需求的個(gè)性化與年齡、學(xué)歷和工作性質(zhì)等因素均存在著密切的聯(lián)系,據(jù)相關(guān)數(shù)據(jù)表明,2012年71.9%的網(wǎng)絡(luò)購(gòu)物用戶(hù)年齡在18-30歲之間,這一年齡段的用戶(hù)具有天然的個(gè)性化,市場(chǎng)化的發(fā)展也導(dǎo)致需求的多樣化。這些購(gòu)物的環(huán)境因素都需要綜合考慮,否則商難以滿(mǎn)足用戶(hù)的真實(shí)需求。
4.網(wǎng)絡(luò)商品的可信度問(wèn)題
在對(duì)電子商務(wù)網(wǎng)絡(luò)購(gòu)物調(diào)查中,大部分用戶(hù)擔(dān)心假冒網(wǎng)站和商品,有的客戶(hù)甚至表示如果無(wú)法獲得該網(wǎng)站進(jìn)一步的確認(rèn)信息,將會(huì)選擇退出交易。由此可見(jiàn),網(wǎng)絡(luò)購(gòu)物的質(zhì)量問(wèn)題成為電子商務(wù)發(fā)展的最大制約因素,因此,如何繼續(xù)規(guī)范商家的行為,并對(duì)商品信息的可信度進(jìn)行評(píng)價(jià)越來(lái)越成為網(wǎng)絡(luò)購(gòu)物的新問(wèn)題。
三、電子商務(wù)檢索策略
上文提到了電子商務(wù)搜索面臨的諸多困難,針對(duì)電子商務(wù)搜索存在的問(wèn)題,提出一系列檢索解決方案,主要包括以下幾方面。
1.ProductRank解決網(wǎng)站檢索模式單一與信息孤島問(wèn)題
ProductRank是一個(gè)涵蓋商品信息采集和匹配的商品信息檢索服務(wù)模型。截止目前,大多數(shù)網(wǎng)站仍以傳統(tǒng)的關(guān)鍵字作為主要的搜索模式,致使用戶(hù)無(wú)法獲取真正需求的產(chǎn)品,前人針對(duì)此問(wèn)題,在對(duì)海量數(shù)據(jù)信息特征分析與提取的基礎(chǔ)上,對(duì)國(guó)內(nèi)外的商務(wù)搜索引擎進(jìn)行比較,從購(gòu)買(mǎi)者和企業(yè)出發(fā),提出了ProductRank商品檢索服務(wù)平臺(tái)。
2.Product raw ler解決電子商務(wù)信息領(lǐng)域約束性問(wèn)題
隨著互聯(lián)網(wǎng)信息量的普及,大量的電子商務(wù)信息被包括其中,如何面向用戶(hù),有效地定位這些信息就需要搜索引擎的幫助,但是在現(xiàn)實(shí)中,用戶(hù)真實(shí)需要的信息往往淹沒(méi)在大量無(wú)用的數(shù)據(jù)中。所以實(shí)現(xiàn)商品信息搜索引擎的首要任務(wù)就是構(gòu)建一個(gè)高效的商品信息主題爬蟲(chóng)(ProductCrawler),爬蟲(chóng)將網(wǎng)頁(yè)的主題鏈接分析與主題內(nèi)容語(yǔ)義分析有機(jī)的結(jié)合起來(lái),充分發(fā)揮兩者的優(yōu)勢(shì),保持著較高的主題收獲率。
3.Context Rank解決網(wǎng)絡(luò)購(gòu)物用戶(hù)檢索需求的多樣化與個(gè)性化問(wèn)題
在商品信息的檢索過(guò)程中,用戶(hù)的需求是個(gè)性化與多樣化并存,前人針對(duì)次問(wèn)題,提出基于情境相似度計(jì)算的用戶(hù)商品匹配算法(contextRank)。此模型師徒構(gòu)建了需求、商品特性的情景,并嘗試實(shí)現(xiàn)情景感知獲取方法,得到了精確到商品排序,盡可能滿(mǎn)足了消費(fèi)者的需求。
4.OphbnRank解決網(wǎng)絡(luò)商品信息的可信度問(wèn)題
面對(duì)網(wǎng)上眾多商家推銷(xiāo)的海量商品,商家一直積極宣傳,導(dǎo)致大量的信息存在于消費(fèi)者腦海中,一時(shí)難以區(qū)分,加大了網(wǎng)購(gòu)的風(fēng)險(xiǎn)與難度。針對(duì)此問(wèn)題,OpinionRank對(duì)商品信息的可信問(wèn)題進(jìn)行了深入分析,基于自然語(yǔ)言處理,分析出商品特性,以進(jìn)一步服務(wù)于商品精確排序,從而使用戶(hù)能夠檢索到具有可靠性的商品。
四、結(jié)語(yǔ)
對(duì)于電子商務(wù)背景下商品信息檢索問(wèn)題的研究,前人利用文獻(xiàn)資料分析、實(shí)證研究、比較研究、注重系統(tǒng)觀在研究中的應(yīng)用以及多學(xué)科方法對(duì)其進(jìn)行了研究,取得了豐碩的成果,但是由于網(wǎng)絡(luò)購(gòu)物的發(fā)展需要進(jìn)一步深入,需要挖掘更多的商品排序因子。在今后電子商務(wù)背景下商品信息檢索問(wèn)題的研究中,嘗試將ProductCrawler應(yīng)用到其它主題爬行領(lǐng)域,進(jìn)一步挖掘用戶(hù)商品情境的組成因素,提高網(wǎng)絡(luò)評(píng)論預(yù)處理結(jié)果質(zhì)量,精確地計(jì)算評(píng)論整體的極性強(qiáng),建立商品通用檢索優(yōu)質(zhì)排序應(yīng)用平臺(tái),使系統(tǒng)更具有實(shí)用性。