蔡光程 武昌工學(xué)院
目前,互聯(lián)網(wǎng)經(jīng)過多年的研究和發(fā)展,已經(jīng)在許多領(lǐng)域得到廣泛普及和使用,比如人們開發(fā)了攜程旅游網(wǎng)、京東商城、天貓商城、百度新聞、騰訊視頻等,這些應(yīng)用平臺均采用先進(jìn)的Web信息處理技術(shù),實(shí)現(xiàn)文檔、圖片、視頻、音頻等內(nèi)容的搜索和處理,具有重要的作用。因此,Web信息處理在互聯(lián)網(wǎng)發(fā)展中具有重要的作用和地位,本文將結(jié)合筆者多年的研究和實(shí)踐,詳細(xì)地描述谷歌、百度、搜狗等大型網(wǎng)絡(luò)企業(yè)采用的Web信息處理技術(shù),比如數(shù)據(jù)挖掘、深度學(xué)習(xí)等,為Web信息處理提供強(qiáng)大的支撐和輔助。
Web網(wǎng)絡(luò)信息處理技術(shù)經(jīng)過多年的發(fā)展,已經(jīng)在文檔檢索、視頻追蹤、圖像處理中得到廣泛應(yīng)用,大大的提高了網(wǎng)絡(luò)信息處理效率,具有重要的作用和意義。
(1)文檔檢索
目前,Web網(wǎng)絡(luò)信息處理占據(jù)最大部分的是文檔檢索,人們使用網(wǎng)絡(luò)搜索有用的文檔,這些文檔包括新聞文檔、專著書籍、報刊雜志、娛樂文案等,這些多以文檔的模式展現(xiàn)給用戶,因此文檔檢索是信息處理的一個重要應(yīng)用領(lǐng)域。目前,文檔檢索采用的技術(shù)多為分類技術(shù),比如貝葉斯網(wǎng)絡(luò)、支持向量機(jī)等。文檔檢索之后,用戶可以根據(jù)自己的喜好設(shè)置展現(xiàn)或排列方式,比如選擇相關(guān)性、時間、主題等,以便能夠更好地從檢索結(jié)果中發(fā)掘更加有用的知識,去偽存真精益求精。
(2)視頻追蹤
視頻追蹤是Web網(wǎng)絡(luò)信息處理的一個應(yīng)用之一。目前,許多政企單位均開始利用視頻追蹤識別目標(biāo)對象,然后實(shí)時的跟蹤這個對象,比如公安機(jī)關(guān)在查看交通事故車輛時,如果人工查看數(shù)以百G的視頻資料,這就會浪費(fèi)大量的時間。因此利用視頻追蹤方法可以自動化的監(jiān)控目標(biāo)對象的行動軌跡,在這個過程中就需要處理一些Web視頻圖像,以便能夠更加精準(zhǔn)的定位。視頻追蹤不僅應(yīng)用到公安交通,目前還應(yīng)用到了電影拍攝動作捕捉等方面,提高了Web視頻數(shù)據(jù)處理準(zhǔn)確度。
(3)圖像處理
目前,網(wǎng)絡(luò)上傳輸?shù)暮芏鄶?shù)據(jù)都是以圖像格式,因此Web信息處理時還需要實(shí)現(xiàn)圖像處理,圖像處理包括壓縮編碼、變換、增強(qiáng)、分割、識別等,經(jīng)過Web信息處理可以去除圖像中的噪聲數(shù)據(jù),比如可以促使圖像中的目標(biāo)物體輪廓更加清晰。圖像分割可以將人們期望的內(nèi)容從圖像中提取出來,也是進(jìn)行圖像深度處理的基礎(chǔ)。圖像描述是圖像識別和理解的前提條件,可以實(shí)現(xiàn)圖像的體積描述、表面描述或廣義圓柱體描述。圖像分類也即是圖像識別,利用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)圖像分割和特征提取,應(yīng)用范圍更加廣泛。
Web網(wǎng)絡(luò)信息處理采用的技術(shù)很多,比如支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、K-means算法等,這些處理技術(shù)均屬于數(shù)據(jù)挖掘,其可以從海量的網(wǎng)絡(luò)數(shù)據(jù)中發(fā)現(xiàn)潛在的有價值知識信息,這些技術(shù)也是當(dāng)前Web網(wǎng)絡(luò)人工智能化、可視化處理的基礎(chǔ),得到了很多的計算機(jī)學(xué)者的研究。比如北京大學(xué)的中文信息處理實(shí)驗(yàn)室,已經(jīng)在Web文檔數(shù)據(jù)處理中引入了語義識別方法,可以從海量的、有噪聲的、不完全的、隨機(jī)的或模糊的文檔數(shù)據(jù)中定位期望的知識,比如在百度搜索引擎中輸入“黨的十九大”,此時就可以彈出十九大相關(guān)的新聞報道,同時配以完整的視頻圖像資源,讓用戶進(jìn)行瀏覽。數(shù)據(jù)挖掘在Web信息處理應(yīng)用中,對于數(shù)據(jù)也具有一定的要求,首先數(shù)據(jù)源必須是大量的、真實(shí)的、包含噪聲的;數(shù)據(jù)挖掘出來的結(jié)果,也即是發(fā)現(xiàn)的知識對人們必須是用價值的和用戶感興趣的;發(fā)現(xiàn)的知識數(shù)據(jù)必須是可以接收的、可以理解的或可以運(yùn)用的;發(fā)現(xiàn)的知識也是放之四海而皆準(zhǔn)的,能夠讓人們通俗易懂,支持發(fā)現(xiàn)特點(diǎn)的模式或知識。比如在電子商務(wù)網(wǎng)站,如果某消費(fèi)者購買了一箱劍南春白酒,并且經(jīng)常瀏覽白酒商品信息,因此就可以將汾酒、衡水老白干、五糧液等白酒推薦給消費(fèi)者,并且重點(diǎn)推薦這些白酒的優(yōu)惠信息,進(jìn)一步提高商品銷售量。因此,從上述推薦過程可以發(fā)現(xiàn),利用Web網(wǎng)絡(luò)信息處理技術(shù)可以將很多的用戶不期望獲得信息濾除,同時將用戶期望的信息推薦給他。
數(shù)據(jù)挖掘已經(jīng)成為Web信息處理的關(guān)鍵技術(shù),未來的發(fā)展趨勢很多,比如將會引入更加先進(jìn)的機(jī)器學(xué)習(xí)、模式識別、可視化技術(shù)、人工智能技術(shù)、統(tǒng)計學(xué)理論、數(shù)據(jù)倉庫技術(shù)等,可以高度的、智能化的、自動化的分析企業(yè)數(shù)據(jù)知識,作出一個歸納性的推理知識,從中挖出潛在的信息模式,幫助決策者調(diào)整市場策略,盡可能的降低數(shù)據(jù)的分析知識,幫助人們作出準(zhǔn)確的決策。比如,未來Web信息處理的數(shù)據(jù)不僅包括視頻、圖像和文檔,同時還要包括一些三維的模型、時序數(shù)據(jù)或基因數(shù)據(jù),這種數(shù)據(jù)在時間和空間上都具有較強(qiáng)的相關(guān)性,因此可以引入關(guān)聯(lián)規(guī)則算法,利用關(guān)聯(lián)規(guī)則分析數(shù)據(jù)特征之間的相關(guān)性和冗余性,可以提高分類器的計算效率,也可以提高分類器的泛化能力,建立一種貪婪搜索特征數(shù)據(jù)選擇算法,基于歸一化的模糊度量權(quán)重最大特征評價準(zhǔn)則,有效識別特征子集,可以提高分類算法準(zhǔn)確度。也可以利用深度學(xué)習(xí)可以更加快速的處理數(shù)據(jù)資源,構(gòu)建一個時間序列特征矩陣,計算矩陣特征時可以充分考慮不相同特征之間的多變量關(guān)系,利用特征排序方法,構(gòu)建了一個自適應(yīng)的特征子集選擇方法,提高分類的準(zhǔn)確度和高效率。
Web網(wǎng)絡(luò)信息處理可以大幅度提高互聯(lián)網(wǎng)的可用性,幫助人們從海量的、雜亂無章的數(shù)據(jù)中發(fā)掘潛在的有價值的數(shù)據(jù),比如搜索學(xué)習(xí)資料、瀏覽旅游景點(diǎn)、查看時事政治新聞等,幫助人們進(jìn)行各類型決策支撐,具有重要的作用和意義。Web網(wǎng)絡(luò)信息處理已經(jīng)從人工、半自動發(fā)展到了當(dāng)前的全智能化,引入了支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、貝葉斯理論等機(jī)器學(xué)習(xí)技術(shù),可以精準(zhǔn)的定位人們想要的知識內(nèi)容,提高互聯(lián)網(wǎng)普適性。