王琪 北京綠巖石科技發(fā)展有限公司
本文主要對開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域進(jìn)行了分析,并探究了其實(shí)際應(yīng)用范圍,希望能夠更好的發(fā)揮網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下信息檢索與數(shù)據(jù)挖掘的作用和價(jià)值。
1.意圖感知
意圖感知實(shí)際上就是利用信息使用者對所有搜尋的內(nèi)容的總體概括,在腦海中所形成的目標(biāo)性意識,通過對這一內(nèi)容進(jìn)行資源整合就可以得到相關(guān)的檢索結(jié)果,并且在整體基礎(chǔ)上對內(nèi)容進(jìn)行量化處理。在進(jìn)行信息檢索時(shí),用戶只需要輸入關(guān)鍵詞進(jìn)行搜索,就能夠獲取自己想要的信息,此過程中每個(gè)關(guān)鍵詞都涵蓋有用戶所要搜尋的信息量,其屬于對總體內(nèi)容的總結(jié)。為了對用戶的查詢意圖進(jìn)行更好的感知,檢索時(shí)需要挖掘更深層次的含義,因此這就需要對用戶的檢索目標(biāo)建立起意圖基本模型,以信息搜索記錄作為依托,了解用戶的信息使用情況,并對用戶主體和信息進(jìn)行分類。一般情況下,用戶所檢索的內(nèi)容并不能直接的體現(xiàn)出來,其具有隱蔽性,因此在建模過程中就需要結(jié)合關(guān)鍵詞,不斷對內(nèi)容進(jìn)行推理和研究,然后挖掘出更多的顯性信息,對更深層次的信息和領(lǐng)域進(jìn)行針對性的開拓,這樣就可以準(zhǔn)確的找到用戶想要獲取的信息,并且為以后的意圖感知做好準(zhǔn)備工作。
2.查詢拓展
信息檢索的另外一種有所手段就是查詢拓展,即借助強(qiáng)有效的措施,在用戶輸入關(guān)鍵詞后,對相關(guān)詞組及內(nèi)容進(jìn)行延伸拓展,以達(dá)到以用戶提供更多有用信息的目的,而且其還能為檢索文檔創(chuàng)作出更多的價(jià)值。在初始知識庫的總體系統(tǒng)中,將查詢內(nèi)容進(jìn)行延伸,作用在于可以使簡單內(nèi)容復(fù)雜化、形象化。同時(shí),在對不同用戶及信息查詢狀態(tài)進(jìn)行整體幾個(gè)體研究時(shí),則使得詞義拓展變更加科學(xué)和完整。在將關(guān)鍵詞進(jìn)行調(diào)整和修改的基礎(chǔ)上,可以有效的提高搜索效率,這也從側(cè)面證明了詞義的查詢拓展效率優(yōu)化,需要對原本的知識系統(tǒng)進(jìn)行建模,而且要將內(nèi)部結(jié)構(gòu)進(jìn)行整體概括,在信息系統(tǒng)的總體內(nèi)容上,做好信息挖掘、尤其是建立起比較新型的數(shù)據(jù)優(yōu)化形式,能夠促使拓展內(nèi)容更好的滿足用戶需求。
3.語義問答
信息檢索的目的就是為用戶提供優(yōu)質(zhì)的信息服務(wù),但其并非是表面層次上的為用戶提供參考性內(nèi)容,在進(jìn)行內(nèi)部闡述和回答的過程中,也并非只是簡單的為用戶提供相關(guān)性界面,而是要運(yùn)用專業(yè)性手段為用戶提供與之相關(guān)的語義回答。該技術(shù)是一項(xiàng)依托于信息檢索、語言及文字處理等發(fā)展而來的新技術(shù),在對用戶需求進(jìn)行描述以及延伸的過程中,將會(huì)產(chǎn)生相應(yīng)的針對性問題自動(dòng)回答系統(tǒng),該系統(tǒng)作用的發(fā)揮,需要在數(shù)據(jù)庫的支撐下才可以實(shí)現(xiàn),在問題回答時(shí),只有與數(shù)據(jù)庫緊密結(jié)合,才能提高回答的準(zhǔn)確性。
1.線索挖掘
線索挖掘時(shí)建立在網(wǎng)絡(luò)知識庫的總體基礎(chǔ)之上的,通過對大數(shù)據(jù)知識庫中的數(shù)據(jù)進(jìn)行相關(guān)性研究,可以建立真實(shí)的連接模式,即通過人物關(guān)系,對線索的相關(guān)路徑及信息進(jìn)行深入挖掘,然后延伸出更深、更有價(jià)值的內(nèi)容,使得信息內(nèi)容能夠得到有效的拓展和補(bǔ)充,這實(shí)際上也是知識處理的過程。在對大數(shù)據(jù)庫中的實(shí)際線索研究分析時(shí),探索與線索挖掘相關(guān)的內(nèi)容實(shí)際上是存在有一定難度的,因?yàn)榇髷?shù)據(jù)信息庫中所存儲的內(nèi)容將會(huì)無線拓展增加,數(shù)據(jù)信息庫的運(yùn)行效率和質(zhì)量也會(huì)影響數(shù)據(jù)的建設(shè)和發(fā)展?,F(xiàn)有的知識庫在構(gòu)建時(shí)由于技術(shù)水平及其他因素的影響,還存在有一定的限制性問題,如數(shù)據(jù)之間無法有效切換,數(shù)據(jù)噪聲大等,為了更好的提升數(shù)據(jù)庫信息的兼容性和拓展性,還需不斷對相關(guān)內(nèi)容進(jìn)行深入的探究與分析。
2.關(guān)系推理
開放網(wǎng)絡(luò)知識的關(guān)系推理,指的是利用知識庫現(xiàn)有的實(shí)體間關(guān)系推斷或推理實(shí)體之間潛在、隱含的關(guān)系,對知識庫中的實(shí)體關(guān)系進(jìn)行推斷是近些年來,數(shù)據(jù)挖掘關(guān)注的熱點(diǎn),但同時(shí)也是難點(diǎn),如何應(yīng)對在超大規(guī)模知識庫中對關(guān)系進(jìn)行精確的推理,以及對推理結(jié)果的可行度進(jìn)行有效的判定,是關(guān)系推理發(fā)展的核心所在。
3.關(guān)系預(yù)測
對大規(guī)模知識庫的實(shí)體關(guān)系進(jìn)行預(yù)測,試圖對實(shí)體間關(guān)系的時(shí)序變化做出定量和定性的預(yù)測,這種預(yù)測主要包含有分析實(shí)體間是否會(huì)產(chǎn)生關(guān)系、關(guān)系的類型變化、關(guān)系的置信度變化、關(guān)系發(fā)生的頻次等。相較于關(guān)系推理來說,對關(guān)系的預(yù)測時(shí)對未來實(shí)體之間可能發(fā)生的關(guān)系進(jìn)行判定,而相關(guān)工作的實(shí)現(xiàn)所依靠的都是機(jī)器學(xué)習(xí),如監(jiān)督的學(xué)習(xí)方法和無監(jiān)督的學(xué)習(xí)方法。
4.系統(tǒng)應(yīng)用
開放網(wǎng)絡(luò)知識的發(fā)展一定意義上為下一代智能搜索和深入信息挖掘與分析提供了重要的基礎(chǔ)。當(dāng)前,隨著技術(shù)的不斷發(fā)展和進(jìn)步,已經(jīng)從數(shù)據(jù)積累階段逐步朝著產(chǎn)品產(chǎn)出階段轉(zhuǎn)化,知識圖譜和實(shí)體搜索發(fā)展成為網(wǎng)站搜索的標(biāo)志性技術(shù),其在各個(gè)系統(tǒng)中的應(yīng)用可謂是越來越廣泛,比如說百度以及Google 等搜索引擎都有應(yīng)用信息檢索與數(shù)據(jù)挖掘技術(shù),這種能夠在短時(shí)間內(nèi)獲得廣泛、多元信息的技術(shù)是傳統(tǒng)的實(shí)體信息提取技術(shù)難以有效涵蓋的。但是這種深入的屬性數(shù)據(jù)挖掘一方面離不開大量的網(wǎng)頁數(shù)據(jù)支持,另外一方面受到了互聯(lián)網(wǎng)數(shù)據(jù)中大量的噪音影響,其技術(shù)難度大,技術(shù)收益受到了一定的干擾。
開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)雖然應(yīng)用越來越廣泛,給人們的信息搜索和應(yīng)用帶來了更多的便利,但是相關(guān)技術(shù)的應(yīng)用還處于起步階段,因此還有大量的問題亟待解決,其具體表現(xiàn)在以下方面:
1.開放網(wǎng)絡(luò)知識的創(chuàng)新和更新要融入群體智慧
開放網(wǎng)絡(luò)知識數(shù)據(jù)庫在構(gòu)建過程中,其數(shù)據(jù)來源具有冗余、噪音和不一致等多種特點(diǎn),開放網(wǎng)絡(luò)知識庫的構(gòu)建在數(shù)據(jù)預(yù)處理階段也面臨著有諸多挑戰(zhàn),因此為了更好的發(fā)揮開放網(wǎng)絡(luò)知識在信息檢索和數(shù)據(jù)挖掘等方面的作用還需要發(fā)揮群體智慧,以便對數(shù)據(jù)進(jìn)行預(yù)處理或者是直接進(jìn)行知識生產(chǎn)。
2.開放網(wǎng)絡(luò)知識庫的實(shí)時(shí)感和自動(dòng)更新
開放網(wǎng)絡(luò)知識庫的實(shí)時(shí)感知指的是開放網(wǎng)絡(luò)知識庫可以實(shí)時(shí)的感知數(shù)據(jù)源的變化情況,其包含有數(shù)據(jù)規(guī)模的增長,數(shù)據(jù)內(nèi)容的變化等,在實(shí)時(shí)感知的前提下,可以更好的對知識庫的知識進(jìn)行自動(dòng)更新,而要實(shí)現(xiàn)這一目的就需要知識庫在構(gòu)建時(shí)可以充分的融入知識的時(shí)空信息,實(shí)時(shí)跟蹤了解時(shí)空信息的變化情況,掌握知識變化的一般規(guī)律,同時(shí)知識庫還需具備對知識變化的判斷能力,只要做好這方面的工作,知識庫才有可能完全或者是部分?jǐn)[脫手動(dòng)更新的手段,實(shí)現(xiàn)智能化搜索。
3.通用知識庫與領(lǐng)域知識庫結(jié)合,拓寬知識內(nèi)容
所謂的領(lǐng)域知識庫指的是及知識庫建模是某個(gè)特定領(lǐng)域或者是現(xiàn)實(shí)世界的一部分,領(lǐng)域知識表達(dá)的是適合于該領(lǐng)域的那些術(shù)語的特殊含義,其可以用來構(gòu)建針對特定任務(wù)的專業(yè)化知識庫。通用知識庫則指的是由若干個(gè)領(lǐng)域知識中普遍使用的共同對象構(gòu)成的模型,收錄核心詞表,可以用來描述一系列領(lǐng)域中的對象。領(lǐng)域知識庫的優(yōu)勢在于可以通過對庫中實(shí)體的概念化的過程而得到通用知識庫,反之,通用知識庫則可以通過對庫中概念的實(shí)體化來得到領(lǐng)域知識庫,二者融合的優(yōu)勢雜魚,可以對具有相同通用知識庫的多個(gè)領(lǐng)域知識庫進(jìn)行融合,這樣能夠更好的豐富知識庫的內(nèi)容,滿足用戶多元化的信息搜索需求。
總之,網(wǎng)絡(luò)大數(shù)據(jù)背后蘊(yùn)藏有豐富的、復(fù)雜關(guān)聯(lián)的知識網(wǎng)絡(luò),科學(xué)合理的應(yīng)用開放網(wǎng)絡(luò)知識的價(jià)值,能夠快速的對數(shù)據(jù)進(jìn)行去冗分類、去粗取精,從數(shù)據(jù)中挖掘知識,對大數(shù)據(jù)網(wǎng)絡(luò)的知識進(jìn)行深入的分析和探究,進(jìn)而更好的發(fā)揮信息檢索和數(shù)據(jù)挖掘的價(jià)值。