劉小鴻
(第二軍醫(yī)大學教育技術(shù)中心,上海 200433)
·技術(shù)與教育·
搜索引擎技術(shù)及其優(yōu)化策略
劉小鴻
(第二軍醫(yī)大學教育技術(shù)中心,上海 200433)
搜索引擎優(yōu)化是進行網(wǎng)站推廣的重要方式。根據(jù)搜索引擎定義、倒排索引建立原理、PageRank算法要素,分析并介紹了通過網(wǎng)站的結(jié)構(gòu)、關(guān)鍵字、鏈接、內(nèi)容來進行搜索引擎優(yōu)化;根據(jù)網(wǎng)站安全問題,提出了網(wǎng)站安全優(yōu)化方案。指出在實踐的應(yīng)用中證明了該方案的有效性,為網(wǎng)站建設(shè)提供了有益的 SEO方法。
搜索引擎;搜索引擎優(yōu)化;PageRank算法;安全優(yōu)化
搜索引擎優(yōu)化 (search engine op tim ization,SEO)是指遵循搜索引擎的搜索原理,對網(wǎng)站結(jié)構(gòu)、網(wǎng)頁文字語言和站點間互動等內(nèi)容進行合理規(guī)劃部署,以改善網(wǎng)站在搜索引擎的搜索表現(xiàn),進而增加客戶發(fā)現(xiàn)并訪問網(wǎng)站的可能性[1-2]。
隨著互聯(lián)網(wǎng)和W eb技術(shù)的發(fā)展,網(wǎng)上的信息也越來越多。搜索引擎已成為互聯(lián)網(wǎng)上進行信息獲取的一種重要手段,越來越多的用戶通過搜索引擎找到所需信息。通過搜索引擎的檢索,客戶可以很方便地從關(guān)注度排序列表中找到相關(guān)的資料和信息。用戶通常只關(guān)心搜索引擎返回的排在前列的頁面。為了提高網(wǎng)站的訪問量,就要求網(wǎng)站在列表中占據(jù)較好的位置。因此,有必要對網(wǎng)站進行搜索優(yōu)化處理。
搜索引擎是指在 Internet上搜索信息并自動索引提供查詢服務(wù)的一類工具,它主要通過網(wǎng)絡(luò)搜索機器人W eb Robo ts收集 Internet信息,對其加工處理,建成供查詢用的數(shù)據(jù)庫,也稱之為倒排索引。搜索引擎可被看作是一個對互聯(lián)網(wǎng)和數(shù)據(jù)庫中的信息資源進行搜集、整理、分類,并以一定的方式為用戶提供檢索服務(wù)的系統(tǒng)[3]。
搜索引擎一般是由信息采集模塊、文檔組織及索引模塊、檢索模塊三部分組成:①信息采集模塊負責從 Internet上搜集網(wǎng)頁信息;②文檔組織和索引模塊將搜集來的網(wǎng)頁和相關(guān)描述信息進行處理后,存儲在索引數(shù)據(jù)庫中,以備用戶檢索。處理過程主要包括文檔特征提取、相關(guān)度分析、網(wǎng)頁篩選、歸類和入庫;③檢索模塊是搜索引擎和用戶之間的接口。它根據(jù)用戶的查詢要求,訪問倒排索引數(shù)據(jù)庫,根據(jù)搜索引擎排名算法獲得檢索結(jié)果,并按相關(guān)度大小將結(jié)果反饋給用戶。
用戶讀取W eb頁面后,將相關(guān)信息存儲下來,實際上就是對W eb頁面對應(yīng)的 htm l文檔進行處理。由于作為W eb頁保存下來的 htm l格式,除了標題、正文部分外,還包含許多 htm l的控制命令。要實現(xiàn)信息處理,需要過濾許多無用信息。因此,將 htm l文檔轉(zhuǎn)化為 txt(純文本)文件,就是W eb信息預(yù)處理所要解決的問題。
將 htm l文檔轉(zhuǎn)化為 txt文檔,主要是提取出 htm l文檔中的五種信息[4]:
①文檔標題:通過提取出置標命令〈title〉與〈/ title〉之間字串而得到;
②文檔內(nèi)容:通過提取出置標命令〈body〉與〈/ body〉之間所有正文文本得到;
③新的鏈接:通過提取出置標命令 <a href=“字串”>中引號部分的字符串得到;
④文檔的關(guān)鍵字:通過提取出置標命令 <meta name="Keywords"content=""/>中的 content引號部分的字符串得到;
⑤文檔的描述:通過提取出置標命令 <meta name="Descrip tion"content=""/>中的 con tent引號部分的字符串得到;
PageRank是代表互聯(lián)網(wǎng)上某個頁面重要性的一個數(shù)值。計算某個網(wǎng)頁 PageRank值時所有的入鏈接都要考慮在內(nèi),頁面W的 PageRank值計算公式如下[5]:
公式中的 PR代表頁面的 PageRank數(shù)值,t1~t2是導(dǎo)入鏈接指向頁面W的網(wǎng)頁,C是網(wǎng)頁 d導(dǎo)出鏈接的數(shù)量,d是阻尼系數(shù)(常數(shù),Google通常取值0.85)。
一般搜索引擎將 PageRank值與網(wǎng)頁搜索結(jié)果相似度共同作為搜索結(jié)果的排序依據(jù)。
搜索引擎優(yōu)化的主要工作是通過了解各類搜索引擎如何抓取互聯(lián)網(wǎng)頁面、如何進行索引,以及如何確定其對某一特定關(guān)鍵字的搜索結(jié)果排名等技術(shù),來對網(wǎng)頁內(nèi)容進行相關(guān)優(yōu)化,使其符合用戶瀏覽習慣,在不損害用戶體驗的情況下提高搜索引擎排名,從而提高網(wǎng)站訪問量,最終提升網(wǎng)站銷售能力或宣傳能力的技術(shù)。影響網(wǎng)站搜索引擎排名的因素主要包括網(wǎng)站結(jié)構(gòu)優(yōu)化、關(guān)鍵字優(yōu)化、鏈接優(yōu)化、內(nèi)容優(yōu)化、搜索安全優(yōu)化。
2.1.1 網(wǎng)頁優(yōu)化 欄目導(dǎo)航系統(tǒng)盡量使用文本鏈接。使用圖片鏈接導(dǎo)航的,要給圖片和鏈接使用 alt或 Too lTip屬性進行關(guān)鍵字填充。將相似的內(nèi)容欄目通過相關(guān)欄目的形式組織在一起,提升關(guān)鍵字的群集密度。
2.1.2 整站優(yōu)化 在層次方面,一級欄目首頁的網(wǎng)頁URL最好不超過兩個層次,詳細信息頁面最好不超過4個層次。
在網(wǎng)站的代碼書寫上,應(yīng)正確地選擇編寫頁面代碼和精簡頁面多余的無效代碼,以減少頁面體積。目前,搜索引擎蜘蛛比較友好的代碼編寫方式是D IV +CSS。應(yīng)該盡量使用外部 JavaScrip t和 CSS文件,這樣可以提高頁面的速度。因為,JavaScrip t和 CSS文件都能在瀏覽器中產(chǎn)生緩存,在沒有增加 HTTP請求次數(shù)的同時可以減少 htm l文檔的大小。而內(nèi)置在 htm l文檔中的 JavaScrip t和 CSS則會在每次請求中隨 htm l文檔重新下載,這雖然減少了 HTTP請求的次數(shù),卻增加了 h tm l文檔的大小。
根據(jù)潛在客戶或目標用戶在搜索引擎中找到所需網(wǎng)站時輸入的語句產(chǎn)生了關(guān)鍵字的概念,關(guān)鍵字是搜索引擎優(yōu)化工作的核心。因此,首先要確定核心關(guān)鍵字,再圍繞核心關(guān)鍵字進行排列組合產(chǎn)生關(guān)鍵字組或短句。
2.2.1 關(guān)鍵字的確定 在網(wǎng)站策劃過程中,首先應(yīng)該調(diào)查潛在客戶在搜索引擎中查詢相關(guān)信息時輸入的特征語句,篩選并記錄下來,形成關(guān)鍵字,這些關(guān)鍵字就是搜索引擎優(yōu)化的核心。通過在網(wǎng)頁中加入這些特定的關(guān)鍵字,客戶就很容易查找所需網(wǎng)站。
所選擇關(guān)鍵字,首先必須與網(wǎng)站主題契合,不能盲目地追求熱門關(guān)鍵字;要根據(jù)業(yè)務(wù)或產(chǎn)品的種類,盡可能選取具體的詞。另外,選取那些常為人們在搜索時所用到的,而且是與網(wǎng)站所要重點推廣的產(chǎn)品、服務(wù)、信息相關(guān)的關(guān)鍵字。
2.2.2 關(guān)鍵字位置優(yōu)化 關(guān)鍵字所在位置對于搜索引擎判斷某個關(guān)鍵字在頁面的份量起到很重要的作用,關(guān)鍵字被置于標題、m eta標簽以及部分屬性標記中會有效提升搜索排名。
標題是網(wǎng)頁中最重要的部分,在搜索結(jié)果中直接顯示在用戶面前。因為要顯示給用戶,搜索引擎認為標題是 htm l文件最重要和最簡潔的摘要。在標題中適當突出關(guān)鍵字比較有利于排名的提高。
m eta是 htm l語言 head區(qū)的一個輔助性標簽。m eta標簽中的 Keyword與Descrip tion用來描述頁面的主要內(nèi)容及向搜索引擎和訪問用戶介紹網(wǎng)頁包含哪些方面的信息。在 h tm l代碼中,其被置于 <head></head>之間。Descrip tion標簽可以是一小段文字,用于描述網(wǎng)站。搜索引擎認為描述里的關(guān)鍵字遠比網(wǎng)頁中的內(nèi)容要重要。m eta標簽提供了一種簡略的方式來對搜索關(guān)鍵字做出反應(yīng),通過合理地組織 Keywo rd與Descrip tion,并進行適度的關(guān)鍵字填充,這樣對網(wǎng)頁的排名提升比較有利。
2.2.3 關(guān)鍵字密度優(yōu)化 關(guān)鍵字密度是指關(guān)鍵字與一個頁面中除掉 htm l代碼的內(nèi)容百分比,對搜索引擎排名結(jié)果有重要影響。在計算關(guān)鍵字密度時,搜索引擎是把 htm l代碼標簽排除在頁面內(nèi)容之外的。網(wǎng)頁上通常會有數(shù)以千計的詞語,頁面涉及的某個關(guān)鍵字的密度越高,搜索引擎認為頁面跟某個關(guān)鍵字的關(guān)系就越大。但關(guān)鍵字密度并不是越高越好,過度使用關(guān)鍵字會造成關(guān)鍵字堆砌,進而觸發(fā)搜索引擎的過濾器,從而導(dǎo)致該網(wǎng)頁或網(wǎng)站在倒排索引中排序降低,甚至會遭到屏蔽。因此,關(guān)鍵字密度一般以2%-8%為好。計算某個頁面關(guān)鍵字密度可以借助關(guān)鍵字密度查詢工具來檢測,如可以進入 http:// tool.chinaz.com/進行關(guān)鍵字密度查詢。
鏈接流行度被認為是搜索引擎優(yōu)化的一個主要因素。搜索引擎會認為外部鏈接較多的網(wǎng)站,重要性也相對較高。鏈接文字必包含有已優(yōu)化的關(guān)鍵字,這樣也會提高網(wǎng)站的排名。
2.3.1 內(nèi)部鏈接優(yōu)化 內(nèi)部鏈接指的是同一站點內(nèi)網(wǎng)頁之間的相互鏈接。合理內(nèi)部鏈接部署會讓網(wǎng)站中的網(wǎng)頁更加具有層次感。規(guī)劃網(wǎng)站中哪些網(wǎng)頁將會參與哪些關(guān)鍵字的排名,將相關(guān)頁面進行互相鏈接。通過網(wǎng)頁所獲得的站點鏈接數(shù)的多少,搜索引擎將會很容易識別哪些頁面在網(wǎng)站中是重要的。內(nèi)部鏈接的合理使用有助于集中網(wǎng)站內(nèi)容主題,從而使該主題中的核心關(guān)鍵字在搜索引擎中更加具有排名優(yōu)勢。
2.3.2 外部鏈接優(yōu)化 外部鏈接分為導(dǎo)入鏈接和導(dǎo)出鏈接,導(dǎo)入鏈接指其他網(wǎng)站鏈至自己網(wǎng)站的鏈接,導(dǎo)出鏈接是逆向于導(dǎo)入鏈接的鏈接,也即自己網(wǎng)站鏈接其他網(wǎng)站的鏈接。
搜索引擎的鏈接分析機制主要關(guān)心“導(dǎo)入鏈接”,即究竟有多少站點鏈到了網(wǎng)站上,至于該網(wǎng)站導(dǎo)出鏈接的多少一般不影響該網(wǎng)站的排名。因此,被 PR(PageRank)高的網(wǎng)站引用能更快地提高本站的PR。應(yīng)盡可能找那些 PR值高且外部鏈接數(shù)又少的網(wǎng)站。同時,可將網(wǎng)站主頁添加到行業(yè)門戶站點、網(wǎng)上論壇、留言簿等各種允許添加網(wǎng)址鏈接的地方。
雖然導(dǎo)出鏈接不影響網(wǎng)站的排名,但適當添加行業(yè)內(nèi)或者領(lǐng)域內(nèi)不產(chǎn)生競爭關(guān)系的常用網(wǎng)站的鏈接,能提高自己網(wǎng)站的關(guān)注度,較容易被客戶置于收藏夾中。
網(wǎng)站的實際內(nèi)容是網(wǎng)絡(luò)優(yōu)化策略的一個重要的因素。搜索引擎的 Sp ider只能對你網(wǎng)頁內(nèi)容進行判斷網(wǎng)站的質(zhì)量,而不能從圖片、Flash動畫上判斷。定期完整發(fā)布網(wǎng)站所有頁面,可以讓頁面的最后修改日期得到更新,有利于排名的提高。一個網(wǎng)站不斷有新的內(nèi)容是用戶頻繁光顧的最大原因。更新速度快也是網(wǎng)站吸引搜索引擎 Sp ider頻繁光顧的最簡單的原因。提供有趣、有價值的網(wǎng)站內(nèi)容,這樣其他網(wǎng)站的網(wǎng)站主們會主動和你進行友情鏈接,從而提高你的外部鏈接值。豐富的信息是一個網(wǎng)站吸引用戶的基本要素,也是吸引用戶重復(fù)訪問的最重要因素。
網(wǎng)絡(luò) Sp ider的搜索排名能有效地推廣網(wǎng)站,但同時也會給網(wǎng)站的安全帶來隱患,部分企事業(yè)單位只是希望自己網(wǎng)站的部分頁面僅被部門內(nèi)部共享,不希望被其他用戶瀏覽到,這時可以通過網(wǎng)站搜索安全優(yōu)化來禁止搜索引擎收錄。
搜索引擎使用 Sp ider程序自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。Sp ider在訪問一個網(wǎng)站時,會首先檢查該網(wǎng)站的根目錄下是否有一個叫做robots.txt的純文本文件,這個文件用于指定 Sp ider在您網(wǎng)站上的抓取范圍。您可以在網(wǎng)站中創(chuàng)建一個robots.txt,在文件中聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
要防止所有搜索引擎顯示您網(wǎng)站的快照,可將<meta name="robots"content="noarchive">標記置入網(wǎng)頁的 <head>部分;要允許其他搜索引擎顯示快照,但僅防止百度顯示,則使用 <meta name="Baidu spider"content="noarchive">標記。
根據(jù) SEO策略,對高招志愿網(wǎng) (www.zhiyuan 789.com,該網(wǎng)站沒有做搜索硬性推廣)進行搜索優(yōu)化處理,在該網(wǎng)站中參與搜索優(yōu)化的頁面較多,現(xiàn)僅以首頁 Defau lt.aspx為例,采用搜索優(yōu)化策略的具體實施如表 1所示。
表 1 高招志愿網(wǎng)首頁 SEO實施策略
針對百度和 Google兩大主流搜索引擎,該網(wǎng)站進行 SEO處理后,搜索對比如表 2所示。
一般而言,超過 90%的用戶只查看搜索結(jié)果的前 3頁,也就是排名前 30位的搜索結(jié)果。由表 2可知,如果沒有進行搜索優(yōu)化處理,那么搜索形如“高招志愿網(wǎng)”關(guān)鍵詞,在百度中平均位置排名為84 000,也就是位于第8 400頁;在 Google中平均排名是445 000,也就是位于第 44 500頁,這樣用戶幾乎不可能瀏覽到該網(wǎng)頁。而經(jīng)過搜索優(yōu)化處理后,在百度和Google中分別位于首頁的第三和第一位次。因此,用戶很有可能會點擊進入該網(wǎng)站瀏覽??梢?該文方法是有效可行的。
表 2 部分關(guān)鍵字 SEO排名
如何對網(wǎng)站進行搜索引擎優(yōu)化是伴隨搜索引擎而來的技術(shù)課題,搜索引擎優(yōu)化方案也隨著搜索引擎算法演進而改變,這也是網(wǎng)站主關(guān)注的焦點。文中根據(jù)當前搜索引擎技術(shù)和方案,總結(jié)并拓展了搜索引擎優(yōu)化的策略。搜索引擎訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息不可避免會對網(wǎng)站安全帶來了隱患,在分析如何通過優(yōu)化來提高排名的同時,也解決了避免網(wǎng)站信息泄露的方案,為網(wǎng)站建設(shè)者提供有益的SEO參考策略。
[1]吳育良.圖書館網(wǎng)站建設(shè)之搜索引擎優(yōu)化[J].科技情報開發(fā)與經(jīng)濟,2008,18(21):48-49
[2]楊松,楊文蓮.基于關(guān)鍵字和鏈接的搜索引擎優(yōu)化策略[J].渤海大學學報:自然科學版,2006,27(3):269-271
[3]孫淑偉,張力.搜索引擎對用戶獲取信息方式的影響及發(fā)展趨勢[J].中國醫(yī)學教育技術(shù),2007,21(1):18-21
[4]張勁松.W eb文本發(fā)現(xiàn)及其在網(wǎng)絡(luò)廣告投放中的應(yīng)用研究[D].上海理工大學,2009
[5]張巍,李志蜀.基于 PageRank算法的搜索引擎優(yōu)化策略[J].計算機應(yīng)用,2005,25(7):1711-1718
Search eng ine techn ique and op tim iza tion tactics
L iu X iaohong
(Cen ter of Educa tiona l Technology,Second M ilitaryM ed ica lUniversity,Shanghai200433,China)
Search engine op tim ization(SEO)is an importantway forwebsite p romotion.Based on the definition of search engine,p rincip le of inverted index,and calcu lation facto r of PageRank algorithm,the paperanalyzesan SEO strategy developed through thewebsite’s structure,keywords,links and content.Based on w eb security p rob lem,a w ebsite op tim ization m ethod is p roposed.Practice has p roved that this strategy is effective and can p rovide som e useful SEO m ethods forw ebsite construction.
search engine;search engine op tim ization(SEO);PageRank algorithm; security op tim ization
G434;TP393
A
:1004-5287(2010)02-0161-04
2009-11-16
劉小鴻 (1978-),男,福建泉州人,講師,教育技術(shù)學士,主要研究方向:影視媒體制作與應(yīng)用研究,網(wǎng)絡(luò)媒體制作等。