公務(wù)員期刊網(wǎng) 精選范文 搜索引擎研究范文

搜索引擎研究精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的搜索引擎研究主題范文,僅供參考,歡迎閱讀并收藏。

搜索引擎研究

第1篇:搜索引擎研究范文

互聯(lián)網(wǎng)對商業(yè)發(fā)展產(chǎn)生了巨大的推動作用,我國商業(yè)信息網(wǎng)站已經(jīng)發(fā)展到成千上萬家,在傳播商業(yè)政策和信息方面發(fā)揮了顯著作用。隨著網(wǎng)絡(luò)信息數(shù)量的迅猛增長,“信息過載”、“信息超載”現(xiàn)象引起了人們的重視。如何高效、準確的獲得包含用戶所需的信息的網(wǎng)頁,日益成為需要迫切解決的問題。

垂直搜索引擎是解決這一問題的一個有效方法。面向商業(yè)的中文專題垂直搜索引擎有針對性的搜索網(wǎng)上商業(yè)專題信息,從而使商務(wù)人員高效檢索所需的信息。而隨著萬維網(wǎng)上的信息數(shù)量呈指數(shù)增長,大量信息垃圾也混雜其中。如何向商業(yè)用戶提供質(zhì)量好且數(shù)量適當(dāng)?shù)臋z索結(jié)果成為垂直搜索引擎關(guān)注的方向之一。

二、國內(nèi)外現(xiàn)狀與發(fā)展趨勢

垂直搜索引擎大都處于研究和試驗階段,利用其搜索的結(jié)果再加上專業(yè)人士的加工而形成的面向某一學(xué)科、領(lǐng)域的垂直門戶網(wǎng)站也已經(jīng)出現(xiàn)。目前在國外,對有關(guān)主題搜索引擎的研究已經(jīng)成為一大熱點,我國主題搜索引擎的研究則剛剛起步。

目前面向主題的網(wǎng)絡(luò)搜索主要有兩種技術(shù):

一是基于內(nèi)容的搜索,這種搜索方式是傳統(tǒng)的信息檢索技術(shù)的延伸。它的主要方式就是在搜索引擎內(nèi)部建立一個針對主題的詞表,搜索引擎的爬行器根據(jù)其內(nèi)設(shè)的詞表對網(wǎng)上的信息進行索引。各個不同的系統(tǒng)詞表建設(shè)的復(fù)雜度也大不相同。

二是基于鏈接分析的搜索。網(wǎng)頁之間的鏈接指引關(guān)系與傳統(tǒng)的引文索引非常相似,通過對鏈接進行分析,可以找出各個網(wǎng)頁之間的引用關(guān)系。由于引用網(wǎng)頁與被引用網(wǎng)頁之間內(nèi)容上一般都比較相關(guān),所以就可以很容易地按照引用關(guān)系對大量網(wǎng)頁分類。

三、技術(shù)關(guān)鍵

基于面向商業(yè)的垂直搜索引擎服務(wù)具有其自身的特性,下面列舉出實現(xiàn)商業(yè)信息垂直搜索引擎的四大關(guān)鍵技術(shù)。

1.針對性、實時性和易于管理的網(wǎng)頁采集技術(shù):面向商業(yè)的垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標,所以只對局部來源的網(wǎng)頁進行采集,采集的網(wǎng)頁數(shù)量適中,但其要求采集的網(wǎng)頁全面,必須達到更深的層級,采集動態(tài)網(wǎng)頁的優(yōu)先級也相對較高。在實際應(yīng)用中,垂直搜索的網(wǎng)頁采集技術(shù)應(yīng)能夠按需控制采集目標和范圍、按需支持深度采集及按需支持復(fù)雜的動態(tài)網(wǎng)頁采集,即采集技術(shù)要能達到更加針對性、實時性和易于管理,并且網(wǎng)頁信息更新周期也更短,獲取信息更及時。

2.結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁解析技術(shù):由于面向商業(yè)的垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時間、來源、作者及其他元數(shù)據(jù)解析,包括對網(wǎng)頁定內(nèi)容的提取。在商業(yè)垂直搜索服務(wù)中,要求對于作者、主題、地區(qū)、機構(gòu)名稱、產(chǎn)品名稱以及特定行業(yè)用語進行提取,才能進一步提供更有價值的搜索服務(wù)。

3.全文索引和聯(lián)合檢索技術(shù):面向商業(yè)的垂直搜索由于在信息的專業(yè)性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結(jié)果排序方式。另外,還要求按需支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索,比如結(jié)合作者、內(nèi)容、分類進行組合檢索等。

4.智能化的文本挖掘技術(shù):面向商業(yè)的垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。基于結(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的結(jié)合,垂直搜索才能為用戶提供更加到位、更有價值的服務(wù)。整個結(jié)構(gòu)化信息提取貫穿從網(wǎng)頁解析到網(wǎng)頁加工處理的過程。同時面對上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動分類、自動聚類、自動標引、自動重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術(shù)。

四、設(shè)計方案

1.技術(shù)路線。采用如下的研究開發(fā)路線:

(1)針對商業(yè)信息的分布特點以及用戶的實際需求,在充分調(diào)研的基礎(chǔ)上,詳細了解和比較其他研究人員在類似領(lǐng)域取得的一些重要而有一定創(chuàng)新性的成果,在此基礎(chǔ)上初步提出平臺的整體架構(gòu)。

(2)結(jié)合面向?qū)ο笤O(shè)計技術(shù),對上一步設(shè)計出的平臺進一步細化,從而明確對該項目所采用的具體設(shè)計模式。

(3)根據(jù)設(shè)計模式所面臨的具體問題(例如,如何提高爬行速度問題、系統(tǒng)資源限制問題、網(wǎng)頁分類器問題、HTML文檔解析問題等)給出有效的解決方案。

(4)將以上的方案付諸實施,形成一個面向商業(yè)的信息查詢與共享平臺;同時對系統(tǒng)的各種參數(shù)進行進一步測試,不斷地完善和優(yōu)化,最終形成一個界面友好、響應(yīng)速度/查全率/查準率均符合用戶要求的面向商業(yè)的垂直搜索引擎。

2.創(chuàng)新點。為達到商業(yè)信息搜索引擎預(yù)期的響應(yīng)速度、查全率和查準率,在系統(tǒng)的開發(fā)中有如下創(chuàng)新點:

(1)系統(tǒng)總體為模塊化結(jié)構(gòu),各個模塊之間高內(nèi)聚,低耦合。

(2)系統(tǒng)使用面向?qū)ο笳Z言開發(fā),能夠有效地重用系統(tǒng)部分代碼。

(3)在設(shè)計過程中,使用面向?qū)ο蟮乃枷胱鲋笇?dǎo),建立系統(tǒng)類圖,便于開發(fā)人員之間的交流。在編碼過程中,不斷重構(gòu)代碼,使得代碼具有很高的運行效率,大大提高其重用性。

(4)系統(tǒng)集成時,使用XML文檔作為模塊間傳遞信息的工具。

第2篇:搜索引擎研究范文

【關(guān)鍵詞】搜索引擎 信息檢索 查準率隨著計算機網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人們對信息需求也越來越高,為了方便人們共享網(wǎng)絡(luò)信息資源,更有效地利用信息資源,搜索引擎應(yīng)運而生,國內(nèi)外出現(xiàn)了一大批著名的搜索引擎。它們都有各自的優(yōu)缺點,本文通過查全率和個性化服務(wù)兩方面的比較,對中外著名的搜索引擎進行分析,并對這些搜索引擎提出了一點自己的設(shè)想。

一、Goole,百度與中國搜索的查準率之比較

因特網(wǎng)擁有豐富的信息資源,其中以超文本標記語言存貯和傳輸?shù)腤WW(World Wide Web,即萬維網(wǎng))信息資源,因其方便迅速的瀏覽、一點即開的超鏈接和聲音圖像、視頻等多媒體顯示方式,成為網(wǎng)上信息資源的主流。在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。隨著互聯(lián)網(wǎng)的迅速發(fā)展,Interne資源的驟然增加,特別是web信息的迅速膨脹,使得檢索新出現(xiàn)的網(wǎng)頁變得越來t越困難,普通網(wǎng)絡(luò)用戶想找到所需的資料如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索引擎便應(yīng)運而生。

(一)國內(nèi)外搜索引擎回顧

搜索引擎技術(shù)1994年在美國出現(xiàn),1995年開始進入大規(guī)模的商業(yè)化開發(fā)階段。由于中西方語言文化的差異,中文搜索引擎的出現(xiàn)相對晚些,但在隨后幾年的中文搜索引擎得到快速發(fā)展,涌現(xiàn)了許多著名的搜索引擎。在內(nèi)地,北大天網(wǎng)1997年10月29日開始為Internet用戶提供WEB信息導(dǎo)航服務(wù),1998年2月搜狐成立,新浪1999年開始搜索服務(wù),2000年百度創(chuàng)立,同年網(wǎng)易開始創(chuàng)搜索服務(wù),2001年TOM的搜索服務(wù)及2002年8月慧聰搜索的成立等。2003年9月25日,慧聰搜索攜手中國互聯(lián)網(wǎng)新聞中心共同發(fā)起并成立了以搜索引擎應(yīng)用為基礎(chǔ)的聯(lián)盟組織――中國搜索聯(lián)盟,12月23日原慧聰搜索正式獨立運作,成立了中國搜索。香港地區(qū)有1997年創(chuàng)立的添達香港搜索(ti mway.co m)以及2002年創(chuàng)立的巴辣香港(ba )等。臺灣地區(qū),1995年8月蕃薯(番薯,藩屬)藤()開始繁體中文的搜索服務(wù),成為世界上第一個開始啟動中文搜索服務(wù)的搜索引擎;1998年1O月penfind(.tw)成立,同年4月開始提供繁體中文搜索服務(wù)等。國外著名的搜索引擎從1999年開始也相繼開展中文搜索服務(wù),如:Yahoo中國于1999年9月正式開通,2000年9月12日Google啟動中文搜索服務(wù),2004年6月21日雅虎在中國推出一搜Ill等。從第一個中文搜索引擎問世至今,互聯(lián)網(wǎng)上有記錄可查的中文搜索引擎有數(shù)百個,現(xiàn)已成為人們查找網(wǎng)絡(luò)信息資源必不可少的工具。中文搜索引擎通常包括兩種類型:一種是網(wǎng)頁全文搜索引擎,另一種則是網(wǎng)站搜索引擎,前者由程序自動抓取網(wǎng)頁進行分析并建立索引,后者由專業(yè)編輯人員進行人工分類和維護。它們各自滿足不同的搜索需求,而且互為補充。

據(jù)此可見,順應(yīng)信息檢索需求,1994年以來國內(nèi)外搜索引擎相繼涌現(xiàn),在成就其數(shù)量優(yōu)勢的同時,也為其彼此間服務(wù)質(zhì)量優(yōu)勢的角逐提供了平臺。國外引擎以Goole為例,國內(nèi)以百度和中國搜索為例,本文將就其各自的相對查準率進行下列比較。

(二)Google,百度和中國引擎查準率之比較

我們拿一些實例來具體比較一下國內(nèi)的一些搜索引擎與國外的搜索引擎的區(qū)別在哪里,國外以Google為例,國內(nèi)就拿百度和中國搜索來比較。

相對查準率是衡量搜索引擎的一個重要指標。有人在網(wǎng)上做過這樣的測試,即,在這三大搜索引擎中輸入同樣的30條記錄,然后觀察它們所搜索出來的信息情況,其結(jié)果是這樣的:

不管是國外的Google,還是國內(nèi)的百度與中國搜索,有很多重復(fù)或無用的信息呈現(xiàn),甚至前10條記錄中都有這一現(xiàn)象發(fā)生。在搜索結(jié)果的前30條記錄中,重復(fù)或無用的信息最多的是中國搜索(共110條)其次是百度(共101條),最少的是Google(共91條)。在前10條記錄中重復(fù)或無用信息最多的是中國搜索(33條),Google與百度幾乎相當(dāng);在11-20條記錄中重復(fù)或無用信息最少的是Google(24條),百度與中國搜索相差無幾。就出現(xiàn)在21-30條記錄中的重復(fù)或無用信息量而言,三者完全相同,都是42條。并且在重復(fù)或無用信息中,有一定字面聯(lián)系、但內(nèi)容信息無用的鏈接占有相當(dāng)?shù)谋壤?。其主要原因之一是搜索引擎采用全文檢索,不能完全理解搜索查詢請求,也不能很好地理解網(wǎng)頁的內(nèi)容,只要在全文中可以找到所有的檢索詞,信息就會被檢出。這樣,有些web頁面只在全文中含有檢索提問式中的所有相應(yīng)關(guān)鍵詞,在信息內(nèi)涵上并不符合檢索提問的要求,也會被檢索出來,造成這一現(xiàn)象的另一個主要原因則是搜索引擎使用的排序技術(shù)本身的不足所致,它是由網(wǎng)頁的權(quán)值決定的。網(wǎng)頁的權(quán)值與網(wǎng)頁被鏈接的數(shù)量及質(zhì)量有關(guān),被鏈入的網(wǎng)頁數(shù)越多、網(wǎng)頁的權(quán)值越高及被鏈出的網(wǎng)頁數(shù)越少,則該網(wǎng)頁的權(quán)值越高,這樣小站、新站、專業(yè)站的內(nèi)容再好,因為不能迅速得到大量高質(zhì)量的超鏈,難以得到合適的排名,而一些權(quán)值高的網(wǎng)頁碩士學(xué)位論文討論認為,即使其內(nèi)容與搜索詞之間沒有相關(guān)性,只要在網(wǎng)頁中有搜索詞出現(xiàn),其排名也會比較靠前。還有一個原因就是重復(fù)網(wǎng)頁沒有完全被過濾掉。因此,許多有用和相關(guān)頁面無法返回給用戶,很多重復(fù)無用的信息出現(xiàn)在,Google、百度和中國搜索的相對查準率分別為0.449,0.433,0.399,從數(shù)字上看Google的相對查準率比百度與中國搜索的相對查準率高一點六個百分點和5個百分點,但Google與百度前30條記錄查準率、Google與中國搜索前30條記錄查準率,都經(jīng)t檢驗,P>0.05 ,故尚不能認為國外搜索引擎Google的相對查準率比國內(nèi)搜索引擎百度、中國搜索的相對查準率高。在搜索引擎相對查準率的測試過程中,對其有影響的因素有檢索表達式、前N條記錄、組的權(quán)值、相關(guān)范疇以及相關(guān)范疇的相關(guān)系數(shù)等。如何合理地選取表達式及N如何取值是值得研究的問題,另外對前N條記錄如何合理地進行分組、組的權(quán)值如何分配、相關(guān)范疇如何分配以及相關(guān)范疇的相關(guān)系數(shù)如何賦予都是值得探討的問題。值得探討的問題。

二、Google,百度及中國搜索個性化服務(wù)功能之比較

個性化搜索服務(wù)對于搜索引擎來說應(yīng)該是屬于一個賣點。你有怎么樣的服務(wù),你就有怎樣的服務(wù)人群,所以這種擁有自己特點的服務(wù)對于每一個搜索引擎來說都是至關(guān)重要的。

由于Google、百度和中國搜索默認每頁顯示10條搜索結(jié)果,為了方便查看,減少顯示結(jié)果的頁數(shù),需要到搜索引擎相應(yīng)的功能區(qū)重新設(shè)置每頁搜索結(jié)果顯示條數(shù)。除中國搜索無法更改外,在Google和百度的高級搜索與個性設(shè)置功能區(qū)都能重新設(shè)置每頁搜索結(jié)果顯示條數(shù)。并且在重新設(shè)置的過程中發(fā)現(xiàn):搜索與某個指定網(wǎng)頁存在鏈接的所有網(wǎng)頁、搜索35種語言的網(wǎng)頁、提供包括簡體中文和繁體中文共101種語言的搜索界面、提供中文簡體和繁體文本之間的"翻譯"轉(zhuǎn)換等功能,只有Google擁有。雖然百度與中國搜索只有簡體中文界面,百度的無法在檢索的結(jié)果頁進行搜索高級搜索與個性設(shè)置,中國搜索也無法在結(jié)果頁進行個性設(shè)置,但都能按地域搜索網(wǎng)頁,并且中國搜索還能按行業(yè)進行網(wǎng)頁搜索等。同時,在利用中外主流搜索引擎搜索中文網(wǎng)頁的過程中發(fā)現(xiàn),不同的人使用相同檢索表達式得到的搜索結(jié)果卻完全相同,不會因人的地域、性別、年齡、職業(yè)、愛好、專業(yè)、心理傾向的差異而有所不同,并且搜索結(jié)果都無法按網(wǎng)頁更新日期、網(wǎng)頁生成日期等其它方式排序,而是都只有按內(nèi)容相關(guān)度排序一種方式。由此可見,百度和中國搜索的個性化服務(wù)與Google一樣有了一定的體現(xiàn),個性化搜索服務(wù)水平仍然不高,但各具特色。

通過以上的分析,我們不難概括出國內(nèi)主流搜索引擎存在的幾點優(yōu)勢:百度中文網(wǎng)頁的收錄量超過了Google;國內(nèi)的百度和中國搜索對中文的理解要比國外的Google好;縱觀中外主流搜索引擎的更新周期及最近一天中文網(wǎng)頁的更新能力,百度中文網(wǎng)頁的更新能力超過了Google;國內(nèi)的百度與中國搜索的更新周期比國外的Google短。顯然,國內(nèi)主流搜索引擎也存在諸多的不足:中國搜索缺乏對PDF,PS,DOC,PPT等非HTML文檔的收錄;綜觀Google、百度和中國搜索的去重、類聚能力和網(wǎng)頁的重復(fù)率,國內(nèi)主流搜索引擎的去重能力仍然比國外主流搜索引擎遜色;中國搜索最近一天的網(wǎng)頁更新能力明顯低于Google,并在使用百度與中國搜索的搜索結(jié)果后的網(wǎng)頁快照功能查看該網(wǎng)頁的快照內(nèi)容時,仍出現(xiàn)"死鏈"現(xiàn)象;百度和中國搜索前30條記錄中重復(fù)和無用信息的總數(shù)高于Google國內(nèi)外主流搜索引擎共同的不足:而國外的搜索引擎也不乏有這樣的缺陷;國內(nèi)外主流搜索引擎的相對查準率雖然基本相等但都沒有超過50%(0.5),離用戶的情報需求還有相當(dāng)?shù)木嚯x;國內(nèi)搜索引擎百度和中國搜索與國外搜索引擎Google的個雖然有了一定的體現(xiàn),并各具特色,但搜索結(jié)果卻都不會因人的地域、性別、年齡、職業(yè)、愛好、專業(yè)、心理傾向的差異而有所不同,并且除新聞網(wǎng)頁的搜索結(jié)果提供按日期排序和按相關(guān)性排序方式外,其它網(wǎng)頁的搜索結(jié)果都無法按網(wǎng)頁更新日期或網(wǎng)頁生成日期等排序,只能按相關(guān)性進行排序,用戶沒有選擇的余地。

三、結(jié)論

如今,知識經(jīng)濟、信息時代均以互聯(lián)網(wǎng)的存在為自身存在和發(fā)展的前提。知識的一半是"找到知識"。信息經(jīng)過加工轉(zhuǎn)化為知識,知識經(jīng)過實踐繼而轉(zhuǎn)化為智慧,此三者的辯證性循環(huán)與攀升建構(gòu)了人類智能發(fā)展的歷程。而搜索引擎的存在及其功用一定程度上顛覆性地革新了人類信息的提取速度和質(zhì)量。但是,在信息爆炸的年代,如何提進一步提升搜索引擎互聯(lián)網(wǎng)信息檢索的查準率并使之最大化的發(fā)揮作用,是信息提取效率的關(guān)鍵所在。實踐證明,加強語義檢索的應(yīng)用是提高搜索引擎質(zhì)量的一個重要辦法也應(yīng)該是未來的發(fā)展方向。

眾所周知,查準率是衡量搜索引擎優(yōu)越性的重要指標,國內(nèi)外主流搜索引擎的相對查準率都在0.5以下,主要原因是它們都將關(guān)鍵詞檢索作為主要的檢索途徑,采用全文檢索所致。

目前的關(guān)鍵詞搜索是對關(guān)鍵詞進行機械式匹配,只注重檢索詞的外在表現(xiàn)形式,而非它們所表達的概念,并且查詢結(jié)果完全依賴用戶給出的關(guān)鍵詞,系統(tǒng)與用戶之間無進一步的交互。而在大多數(shù)情況下,用戶很難簡單地用關(guān)鍵詞或關(guān)鍵詞串來真實地表達他們的檢索需求。由于同一概念,對其稱呼以前與現(xiàn)在不同,隨著地域的改變,同一概念的表達也會不同,不同的學(xué)科專業(yè)領(lǐng)域,也都有自己的術(shù)語命名規(guī)則。因此,同一概念可以用不同的詞來表達,使得許多關(guān)鍵詞都有同義詞、近義詞、上位詞、下位詞、全稱、簡稱、俗稱、商品名等。同時,不同的用戶對同一概念往往會采用不同的檢索詞,從而使檢索效果不佳,相對查準率偏低,重復(fù)和無用信息在前30條記錄中大量存在。如果搜索引擎的檢索子系統(tǒng)可以真正理解檢索詞的概念含義、理解關(guān)鍵詞之間的聯(lián)系,具有同義擴檢和其他相關(guān)檢索的能力,對用戶需求和文本實施概念匹配,將會減少重復(fù)網(wǎng)頁的出現(xiàn),提高相對查準率,極大的提高檢索質(zhì)量,使搜索結(jié)果真正按相關(guān)性排列,從而使檢索結(jié)果真正符合用戶的檢索要求,提高用戶查詢的滿意度。

參考文獻:

[1]李明.中文元搜索引擎萬緯搜索研究[J].現(xiàn)代圖書情報

技術(shù),2003,(5).

[2]鄒小筑.專業(yè)搜索引擎-Scirus科學(xué)搜索引擎研究[J].圖

書館建設(shè),2002,(6).

[3]劉海航,黃碧云.元搜索引擎Profusion[J].情報科學(xué),

2002,(9).

[4]李村合.因特網(wǎng)多元搜索引擎SearchX2000的研究[J].情 報學(xué)報,2002,(4).

[5]陸興.八個著名中文搜索引擎的特征及其評析[J].圖書館

理論與實踐,2003,(2).

第3篇:搜索引擎研究范文

[摘要]隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)的迅速普及,搜索引擎在網(wǎng)絡(luò)用戶的生活中扮演著越來越重要的地位,了解并能熟練使用搜索引擎成為大眾的必修課。對搜索引擎的基本知識和種類作簡要介紹,并結(jié)合親身實踐介紹幾種實用的搜索技巧。

[關(guān)鍵詞]搜索引擎種類技巧

一、搜索引擎概述

搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。它主要是用于檢索網(wǎng)站、網(wǎng)址、文獻信息等內(nèi)容。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,各種搜索引擎層出不窮,目前流行的搜索引擎主要是幫助用戶搜索表層信息,如google、百度、雅虎等。

二、搜索引擎的分類

目前,主流的搜索引擎有如下幾類:

(一)全文索引

根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。

(二)目錄索引

目錄索引雖然有搜索功能,但不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞進行查詢。目錄索引中最具代表性的是Yahoo、新浪分類目錄搜索。

(三)元搜索引擎

元搜索引擎接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile等。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

三、搜索引擎使用技巧

(一)關(guān)鍵詞的選擇

目前搜索引擎不具備智能識別能力,較人腦而言還很“弱智”,往往不能很好地把握用戶到底想要什么,只會在現(xiàn)成的數(shù)據(jù)庫索引中查找相匹配的關(guān)鍵詞。因此,選擇合適的關(guān)鍵詞是成功檢索的第一步。關(guān)鍵詞的選擇雖然沒有什么定式,不過也有一些規(guī)律可循,在提取關(guān)鍵詞時力求做到規(guī)范,避免口語化,便能達到事半功倍的效果。此處用特殊實例來說明:

1.使用特定詞匯。有時輸入的關(guān)鍵詞由于過泛而沒有被收錄在搜索引擎的數(shù)據(jù)庫索引中,這時可以選擇與該主題相關(guān)且更具體的詞匯。例如,欲搜索某些期刊的投稿電子信箱,一般策略是在搜索框內(nèi)輸入“xxx雜志編輯部”,對知名度高、信息化程度高的期刊而言,一般都能搜出相應(yīng)的email,可信息化程度不高的期刊就比較難。此時可以嘗試如下兩種方法提高搜索效率:(1)同時輸入兩個關(guān)鍵詞,縮小檢索范圍,即“xxx雜志email”或“xxx雜志電子信箱”;(2)關(guān)鍵詞中加入電子信箱關(guān)鍵信息,即“xxx雜志@”。因為任何電子信箱中均有“@”,“@”成了查找電子信箱的關(guān)鍵符號。通過這兩種方法,很容易就能將期刊編輯部的電子信箱搜到。

2.使用多個含義相近的關(guān)鍵詞。對于熱門信息來說,搜索時犯愁的是返回條目太多,可對冷門事件或事物來說往往恰恰相反。此時可使用同義關(guān)鍵詞和關(guān)聯(lián)關(guān)鍵詞來檢索,以達到更全面的搜索結(jié)果。如:在學(xué)術(shù)部門的年輕人想查閱申報課題的技巧時會發(fā)現(xiàn)相關(guān)結(jié)果少,此時可用“報課題技巧”、“報項目技巧”、“課題申報經(jīng)驗”、“課題申報指南”等關(guān)鍵詞來檢索。

(二)局限于某個具體網(wǎng)站或者網(wǎng)站頻道

許多單位都會針對同一熱門事件在本單位網(wǎng)站發(fā)大量文件或文章。這些文章或文件往往名稱相同但具體內(nèi)容和要求卻不同。此時,指定網(wǎng)站或頻道的搜索功能能為我們提高搜索效率。

(三)按文件類型查找

如需要查找簡歷模版時可以構(gòu)建如下檢索式:“簡歷模版filetype:

doc”,此時能搜到word格式的簡歷模版。此處的filetype:doc是限定檢索文件的類型,該字段必須在英文狀態(tài)下錄入,而“簡歷模版”是檢索的關(guān)鍵詞。兩個字段之間必須用空格隔開。同理,如果需要檢索市場營銷的教案也可以構(gòu)造“市場營銷教案filetype:ppt”的檢索式,檢索結(jié)果為ppt格式的市場營銷教案。該檢索式支持txt,ppt,xls,pdf,mp3,swf等常見文件類型。(四)巧用快照

有時會搜到訪問不了的“死鏈網(wǎng)頁”和過期文件,而看其內(nèi)容摘要很符合需要。此時可利用搜索引擎提供的網(wǎng)頁快照功能查閱此類文獻。

(五)使用不同的搜索引擎

不同的搜索引擎,其信息覆蓋范圍有差異,我們平時搜索信息時僅集中于某一家搜索引擎是不明智的,因為再好的搜索引擎也有局限性,而使用優(yōu)秀的搜索引擎可以達到事半功倍的效果。

(六)留意搜索引擎返回的結(jié)果

由于競價排名業(yè)務(wù)的推廣,搜索引擎返回的Web站點順序會影響人們的訪問。所以,為了增加Web站點的點擊率,一些Web站點會付費給搜索引擎,以在相關(guān)Web站點列表中顯示在靠前的位置。好的搜索引擎會鑒別Web站點的內(nèi)容,并據(jù)此安排它們的順序,但許多搜索引擎無法鑒別。

第4篇:搜索引擎研究范文

【關(guān)鍵詞】 JAVA 搜索引擎 技術(shù)體系

搜索引擎本質(zhì)上屬于一類數(shù)據(jù)庫,它主要由搜索器 、索引器 、檢索器以及用戶接口所構(gòu)成。其工作模式包括兩種即自動信息搜集與定期搜索。以最常見的谷歌引擎為例,在一定周期時間內(nèi)會利用蜘蛛程序進行主動搜索,當(dāng)發(fā)掘出新的網(wǎng)站時便可以從網(wǎng)站中提取相關(guān)信息并將這些信息置于數(shù)據(jù)庫當(dāng)中[1]。

也就是說每隔一個周期搜索引擎數(shù)據(jù)庫的數(shù)據(jù)都會持續(xù)性地更新,一方面擴大了搜索引擎的應(yīng)用范圍,另一方面為用戶也提供了極大的便捷。在搜索引擎使用過程中用戶通過搜尋關(guān)鍵詞便可在數(shù)據(jù)庫中進行相關(guān)搜索,其中會涉及到各類特殊算法,經(jīng)過處理后將關(guān)聯(lián)程度以由高至低的順序向用戶反饋。JAVA技術(shù)的革新給搜索引擎的發(fā)展帶來了新的動力,使其朝著更高的層次邁進。

一、JAVA技術(shù)特征概述

相對于其他匯編語言,JAVA語言具有良好的兼容性,另外在通用性、安全性方面較其他語言更具優(yōu)勢,另外JAVA語言涵蓋了以下特點:首先JAVA語言具有良好的安全性,這種安全性對于網(wǎng)絡(luò)環(huán)境而言有著十分重要的意義,其安全機制能夠遏制相關(guān)代碼攻擊[2]。其次JAVA語言具有強制性特征,在其面向?qū)ο蟮倪^程中,通常情況僅僅支持類之間的單向繼承,在多個接口情況下則能夠進行多處承接。再者JAVA語言呈現(xiàn)了良好的動態(tài)性特點,它可以滿足動態(tài)性環(huán)境變化進行匹配,這使得基于JAVA語言匯編的系統(tǒng)、軟件等均得到了良好的兼容性,特別是使對于應(yīng)用而言易于升級。另外JAVA語言具備多線程特征,這種特征使得相關(guān)應(yīng)用及系統(tǒng)的性能得到了保證,為開發(fā)者與使用者帶來了更高質(zhì)量的服務(wù)。

二、JAVA技術(shù)在搜索引擎中的應(yīng)用分析

利用JAVA技術(shù)可對搜索引擎進行有效優(yōu)化,其中java 2 PSE、Lucne以及Tomcat等均是常見的開發(fā)工具。通過使用這些工具可以使JAVA應(yīng)用開發(fā)環(huán)境得到優(yōu)化,并且能夠讓搜索java類庫以及索引java類庫得以實現(xiàn)。本研究中網(wǎng)站搜索引擎構(gòu)建對JAVA技術(shù)的應(yīng)用進行了分析[3]。以JAVA為基礎(chǔ)首先可以對網(wǎng)站內(nèi)部鏈接進行優(yōu)化。從形式上來看網(wǎng)站內(nèi)部結(jié)構(gòu)復(fù)雜,但卻表現(xiàn)了顯著的層次性。因此為了讓網(wǎng)站能夠保持正常的工作狀態(tài)就需要構(gòu)建出一個通常的信息渠道,保持其暢通性,這樣才能促使網(wǎng)站良性運作,并且使得網(wǎng)站內(nèi)部環(huán)境與外部環(huán)境關(guān)聯(lián)起來。以網(wǎng)站搜索為例,在網(wǎng)站中置入搜索框,那么該搜索框便可為用戶提供快速的信息獲取途徑。

同時可將其整合成一個針對性的平臺界面,歸類對象。這種形式可以讓用戶更好地在平臺上進行交互從而讓業(yè)務(wù)面得以擴充。對于搜索引擎而言網(wǎng)頁標題也是關(guān)鍵的部分,因此需對其進行優(yōu)化。標題直接關(guān)系到了搜索引擎使用過程中的成效性,會影響搜索引擎的預(yù)判。另外從心理層面來看網(wǎng)頁標題會對用戶產(chǎn)生一定程度的心理引導(dǎo)效應(yīng),若標題具有吸引力則能夠吸引用戶點擊并查閱。因此利用JAVA技術(shù)結(jié)合網(wǎng)站布局在不同頁面構(gòu)建出不同的標題,從而體現(xiàn)標題的差異性。當(dāng)然標題相互之間具有明顯的差異性,但是又體現(xiàn)了統(tǒng)一性,也就是說標題整體內(nèi)容應(yīng)該圍繞網(wǎng)頁內(nèi)容組織構(gòu)建,不僅僅能夠?qū)W(wǎng)頁內(nèi)容進行明確反映并促使兩者可相互匹配。JAVA匯編提升了網(wǎng)站系統(tǒng)的識別能力,讓網(wǎng)站的功能性得以增強。

在應(yīng)用JAVA技術(shù)的過程中Internet連接技術(shù)發(fā)揮了十分重要的作用,由于搜索引擎需要對網(wǎng)站中不同頁面的信息進行調(diào)用,而JAVA則帶來了豐富的功能選擇。事實上在網(wǎng)絡(luò)中應(yīng)用計算機的過程中都離不開套接字類的作用,而端口則承擔(dān)了這種角色。

實際應(yīng)用時在一個特定的時刻存在唯一的服務(wù)器程序?qū)ο嗤亩丝谶M行偵聽,而ServerSocket與Socket是JAVA定義的兩個重要類別,通過上述兩類可對關(guān)鍵字進行聲明,從而構(gòu)建出一對一的連接。也就是說利用JAVA保證了套接字可對相關(guān)信息數(shù)據(jù)進行直接讀取或?qū)懭搿A硗庑枰⒁獾氖荍AVA可能對中文字體可能會產(chǎn)生亂碼,因此需要進行針對性處理,另外可充分利用JAVA的多線程機制使得后臺運行保持穩(wěn)定的狀態(tài)。

三、結(jié)語

JAVA為搜索引擎提供了重要的技術(shù)支持,特別是在搜索引擎智能化發(fā)展的情況下JAVA技術(shù)將得到更大的應(yīng)用空間讓搜索引擎的功能性得以完善。

參 考 文 獻

[1] 郭彥秋. 淺析百度與谷歌兩搜索引擎的比較與分析[J]. 才智. 2012(06)

第5篇:搜索引擎研究范文

關(guān)鍵詞:企業(yè)信息門戶;搜索引擎;數(shù)據(jù)采集;信息搜索;分類;聚類

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2011)31-7574-02

Study on Enterprise Information Portal Search Engine

FENG Shu-wen1,ZHAN Ying1,LI Yi-wei2

(1. Automation Research Institute of Lanzhou Petrochemical Company,Lanzhou 730060,China;2.Oil and Gas Storage and Transportation Branch, Petrochina Xinjiang Oilfield Company, Karamay 834002,China)

Abstract:EIP is an application framework of enterprise information system. It supplies user a platform which integrates with all kinds of application systems, data and network.. Facing the accumulated data and distracted information, we must introduce EIP search engine to supply a fast, effective search function. EIPSE integrate all the enterprise information resource and improve efficiency in application and accession to enterprise information system. EIPSE enforce the construction and application of EIP, improve the level of decision making.

Key words:enterprise information portal;search engine;data acquisition;information research;categorization;Clustering

企業(yè)信息門戶(EIP,Enterprise Information Portal)是在Internet的環(huán)境下,將各種應(yīng)用系統(tǒng)、數(shù)據(jù)資源和互聯(lián)網(wǎng)資源統(tǒng)一集成到一個信息管理平臺之上,并以統(tǒng)一的界面提供給用戶,是企業(yè)信息系統(tǒng)的應(yīng)用框架。EIP提供對企業(yè)的內(nèi)部、外部各類信息的訪問,協(xié)助企業(yè)提高決策水平、優(yōu)化生產(chǎn)運作。面對門戶建設(shè)中積累的海量數(shù)據(jù),以及門戶技術(shù)本身導(dǎo)致的信息不能有效分析、缺乏統(tǒng)一規(guī)范、可拓展性差等問題,提供快速、高效檢索的功能成為企業(yè)信息門戶亟待解決的問題。

由于通用搜索引擎存在信息冗余量大、搜索深度不夠、搜索精度差、海量信息無序化等問題,無法滿足企業(yè)對于搜索結(jié)果精確度和信息保持最新性的要求等。因此,直接使用通用搜索引擎進行企業(yè)信息門戶的信息檢索并不合適,需要結(jié)合企業(yè)自身特點和需求開發(fā)專用的企業(yè)信息門戶搜索引擎(Enterprise Information Portal Search Engine)。

1 企業(yè)信息門戶對搜索引擎需求

通過企業(yè)門戶搜索引擎與互聯(lián)網(wǎng)搜索引擎的比較,并結(jié)合本企業(yè)自身特點,提出企業(yè)信息門戶對搜索引擎的需求。如表1所示。

本企業(yè)信息門戶對搜索引擎的需求主要包含以下幾方面:

1)搜索引擎必須將門戶網(wǎng)站的所有信息都索引進去,支持office系列、txt、PDF等多種文檔格式抓??;支持微軟AD域的權(quán)限模型抓取;支持zip、rar、tar等壓縮文件的采集。

2)數(shù)據(jù)采集之后,對于相應(yīng)的數(shù)據(jù)更新,要具備靈活的機制,保證數(shù)據(jù)的質(zhì)量與完善,搜索引擎的索引能夠及時反映企業(yè)信息的變更。

3)系統(tǒng)應(yīng)提供強大的智能內(nèi)容搜索功能,搜索方式除了涵蓋傳統(tǒng)的關(guān)鍵字、布爾表達式、字段匹配搜索等外,還需要支持概念搜索,訓(xùn)練搜索,搜索導(dǎo)航,搜索聚類,甚至能對用戶搜索偏好和對結(jié)果擬合度的選擇進行學(xué)習(xí),以提高搜索結(jié)果的準確度和價值。

4)系統(tǒng)要對采集到的全部信息進行內(nèi)容挖掘,實現(xiàn)自動化處理,包括自動分類、聚類。

2 EIPSE設(shè)計

2.1 EIPSE的設(shè)計原則

1)標準化:遵循技術(shù)標準化、結(jié)構(gòu)標準化、數(shù)據(jù)標準化等相關(guān)要求。

2)開放性:系統(tǒng)在體系結(jié)構(gòu)、硬件產(chǎn)品、軟件產(chǎn)品、數(shù)據(jù)交換協(xié)議等方面,充分利用開放平臺,保證系統(tǒng)具有較好的互操作性、可移植性。

3)可擴展性:軟硬件配置具備動態(tài)平滑擴展能力,可以通過調(diào)整系統(tǒng)框架和相應(yīng)服務(wù)單元的配置,適應(yīng)業(yè)務(wù)量的變化。系統(tǒng)架構(gòu)在開放的、安全應(yīng)用支撐體系結(jié)構(gòu)之上,具有良好的可擴充性。

4)技術(shù)的先進性和成熟性:采用先進和成熟的技術(shù),滿足系統(tǒng)在生命周期內(nèi)具有持續(xù)的可維護性和可擴展性,獲得更高的發(fā)展起點。

5)安全性:充分考慮系統(tǒng)安全性設(shè)計,保障數(shù)據(jù)備份、應(yīng)用流程、權(quán)限管理等各個環(huán)節(jié)的安全性。在設(shè)計系統(tǒng)結(jié)構(gòu)時,各個層次都充分考慮到系統(tǒng)的冗余配置和災(zāi)難恢復(fù)。

6)可管理性:采用合理的系統(tǒng)體系結(jié)構(gòu),實現(xiàn)對系統(tǒng)的集中管理和監(jiān)控。

2.2 EIPSE的架構(gòu)設(shè)計

智能內(nèi)容搜索服務(wù)平臺是架構(gòu)于智能數(shù)據(jù)處理層(Intelligent Data Operating Layer,IDOL)上,其核心是建立在獨特的信息論和概率論的基礎(chǔ)之上的模式識別技術(shù),抽取概念和內(nèi)容挖掘后,為提供多種的搜索應(yīng)用服務(wù)。因此,系統(tǒng)總體架構(gòu)按照實際應(yīng)用的流程實現(xiàn),即從數(shù)據(jù)的采集和處理,索引和分析、應(yīng)用與三個層次實現(xiàn),設(shè)計結(jié)構(gòu)如圖1所示。

2.3 EIPSE的功能設(shè)計

為了充分實現(xiàn)本企業(yè)信息門戶強大的搜索功能,整個系統(tǒng)主要實現(xiàn)數(shù)據(jù)采集、信息搜索、分類、聚類、個性化、自動關(guān)聯(lián)以及部分可視化的管理功能。

2.3.1 數(shù)據(jù)采集平臺

數(shù)據(jù)采集平臺是整個系統(tǒng)的基礎(chǔ),是系統(tǒng)對外提供內(nèi)容服務(wù)的源泉,主要從各種數(shù)據(jù)源(包括文件系統(tǒng)、數(shù)據(jù)庫、內(nèi)部其他系統(tǒng)以及獨立信息源)采集信息。針對不同的數(shù)據(jù)格式,采用不同的方式,將各數(shù)據(jù)孤島的信息采集過來,用于資源平臺的整合與使用。如圖2所示。

2.3.2 信息搜索

信息搜索包括關(guān)鍵字的搜索、標準搜索、高級搜索、聯(lián)合搜索、參數(shù)搜索、自動摘要等功能。參數(shù)搜索可以實現(xiàn)各元數(shù)據(jù)的統(tǒng)計和分析,并可以以柱狀圖、餅圖、線圖等圖形形式進行輸出,使用戶實時了解搜索對象的數(shù)量特征。同時,系統(tǒng)可根據(jù)每篇文章中的主要概念,自動生成摘要。并且根據(jù)用戶瀏覽內(nèi)容或者檢索條件,產(chǎn)生變化的動態(tài)摘要,使用戶能夠通過摘要來判斷是否為所需信息。

2.3.3 信息分類

信息分類實現(xiàn)自動分類,精確地根據(jù)非結(jié)構(gòu)化文本中的概念進行分類。自動分類是根據(jù)一些分類標準,將某個范圍的信息內(nèi)容生成分類樹,根據(jù)不同的分類主題,用戶點擊相關(guān)的分類樹節(jié)點即可查看結(jié)果。采用自動分類方法,克服了人工分類中信息檢索不全面、更新速度慢的缺點,提高了用戶的檢索速度和檢索準確度。

2.3.4 信息聚類

用戶使用搜索引擎時會得到大量返回信息組成的線性表,其中很大一部分與用戶的查詢請求無關(guān),通過對檢索結(jié)果集合進行聚類,可以使用戶檢索結(jié)果相關(guān)的信息比較靠近。通過自動地分析采集過來的所有信息內(nèi)容,把相似的文檔聚類到一起,同時自動生成類別的標題, 以可視化的各類方式提供給用戶,由用戶選擇瀏覽。

2.3.5 個性化

這里的個性化服務(wù)主要包括個性訂閱、自動提示、推送等功能。通過用戶自己設(shè)定感興趣的內(nèi)容范圍與條件,系統(tǒng)根據(jù)用戶的設(shè)定主題提供內(nèi)容服務(wù)。同時系統(tǒng)能夠自動維護用戶檔案,一旦發(fā)現(xiàn)有新的符合用戶要求的信息,能夠自動收藏到用戶檔案夾中,或者通過短信、郵件等手段來對用戶進行提示。

2.3.6 模塊監(jiān)控管理

模塊監(jiān)控管理系統(tǒng)為內(nèi)容搜索各模塊提供關(guān)鍵的維護、管理、控制和監(jiān)測功能,采用b/s架構(gòu)方式從中央位置與所有內(nèi)容服務(wù)(例如連接器、DIH、DAH等等)進行通訊。同時模塊監(jiān)控系統(tǒng)也提供了可視化的整體面板,使內(nèi)容管理員能夠?qū)λ袃?nèi)容模塊(或服務(wù))操作進行本地或遠程管理,提供可視化的參數(shù)管理、參數(shù)配置、模塊監(jiān)測、狀態(tài)報表等。

3 結(jié)束語

本文是以某煉化企業(yè)正在實施的門戶搜索引擎技術(shù)為主要研究內(nèi)容,通過現(xiàn)有的搜索引擎技術(shù)進行簡單分析,結(jié)合企業(yè)實際需求和自身特點,對該企業(yè)目前采用的門戶搜索技術(shù)進行了深入研究。研究表明通用搜索引擎用于企業(yè)信息門戶存在諸多缺陷和不足,只有針對門戶搜索開發(fā)的搜索引擎具備較好的靈活性和可擴展性,才能滿足企業(yè)信息化發(fā)展的需要。

參考文獻:

[1] 周祥,王麗芳,蔣澤軍.基于Lucene的企業(yè)信息門戶搜索引擎設(shè)計[J].微機處理,2009(4):62-64.

第6篇:搜索引擎研究范文

任何時候在搜索引擎中輸入查詢關(guān)鍵詞,你將會獲得數(shù)千條的搜索結(jié)果,太多的信息總是意味著沒有信息。用戶對信息的需求正朝著多元化的方向發(fā)展,對某一領(lǐng)域的信息需求不再是多而廣,而是精而深。其次,用戶對信息的要求不再是量,而是注重信息的質(zhì),即是否能給用戶解決實際的需求,提供的信息準確、權(quán)威、及時等等。通用搜索引擎的性質(zhì)決定了其不能滿足用戶的特定需求,市場被不斷細分,滿足人們特定需求的垂直搜索引擎將相繼出現(xiàn)。

基于這種現(xiàn)狀,眾多行業(yè)垂直搜索引擎應(yīng)運而生,像搜索電影的迅雷、搜索軟件的狗狗,搜索游戲的17173等搜索平臺廣泛得到大眾的認可??梢源竽懙恼f,將來的搜索市場將不再是簡單的幾大搜索巨頭統(tǒng)治的時代!而商業(yè)搜索引擎,特別是針對性比較強的城市商業(yè)搜索引擎領(lǐng)域?qū)⑹呛鹆孔罡叩氖袌?。因為他涉及到一個城市方方面面的商業(yè)需求。《城市商業(yè)搜索引擎》以其先進的運營構(gòu)架、準確的信息采集方法和創(chuàng)新的競價排名模式造就了整個商業(yè)搜索引擎行業(yè)的標準,用戶完全可以拋棄所謂城市信息港、分類信息、便民網(wǎng)站。

因為我們的信息是通過面對面的信息采集方式獲得,是最真實、最全面的!城市商業(yè)引擎的推出不僅滿足的B2B的市場需要,還可延伸到B2C市場,擴展為一種給人們生產(chǎn)、生活方便快捷的便民綜合搜索引擎,其商業(yè)價值遠高于傳統(tǒng)的通用搜索引擎。因此誰能夠迅速的建立符合用戶需求的搜索平臺,誰將成為新一輪搜索行業(yè)的領(lǐng)軍企業(yè)。

基于城市的商業(yè)搜索服務(wù)-其搜索結(jié)果全部是產(chǎn)品或企業(yè)相關(guān)信息。內(nèi)容更純粹,搜索的結(jié)果以產(chǎn)品或企業(yè)為主題結(jié)構(gòu)化展示出來,便于用戶查看、了解。用戶可以對搜索結(jié)果帶有參與性、搜索結(jié)果也會隨著用戶的參與得到不斷豐富。這些都讓用戶更方便、快捷地找到自己想要的產(chǎn)品或服務(wù),極大地滿足了人們的商業(yè)消費需求。如在工作時間,用戶要采購一批辦公用品“打印紙”,需要找相應(yīng)的供應(yīng)商或服務(wù)商,就可以到《城市商業(yè)搜索引擎》來查找:搜索結(jié)果只顯示供應(yīng)“打印紙”的企業(yè)信息,沒有其他雜亂的信息,更方便用戶找到相應(yīng)的產(chǎn)品供應(yīng)商。如對某個企業(yè)感興趣,可以直接點擊查看,供應(yīng)企業(yè)信息覆蓋包括企業(yè)獨立展示網(wǎng)站、B2B平臺商鋪及行業(yè)門戶商鋪在內(nèi)的數(shù)據(jù)源,保證了供應(yīng)商信息數(shù)量的最大化。用戶還可通過“企業(yè)評論空間”來查看不同用戶對供應(yīng)商的看法,了解供應(yīng)商更多內(nèi)在的信息,便于對采購供應(yīng)做出決策。

《城市商業(yè)搜索引擎》最大程度地覆蓋了商業(yè)用戶人群!本項目是黑蟻搜索團隊在多年從事互聯(lián)網(wǎng)行業(yè)的基礎(chǔ)上,根據(jù)自身及廣大用戶的實際需求,結(jié)合我國當(dāng)前的互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展趨勢逐步發(fā)展完善而確定的。該項目的提出,一方面符合國家的企業(yè)信息化產(chǎn)業(yè)政策,另一方面也是將傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)有機結(jié)合實現(xiàn)真正意義上的網(wǎng)絡(luò)便民服務(wù)的必由之路。

第7篇:搜索引擎研究范文

【關(guān)鍵詞】Agent;元搜索引擎;個性化檢索

Agent技術(shù)最早源于分布式人工智能(DAI),從80年代以來,Agent技術(shù)已經(jīng)從DAI領(lǐng)域中拓展開來,廣泛應(yīng)用到很多其他領(lǐng)域,包括電子商務(wù)、工作流管理、運輸系統(tǒng)、網(wǎng)上信息檢索系統(tǒng)以及其他的網(wǎng)絡(luò)應(yīng)用等。Multi-Agent技術(shù)在元搜索引擎中的應(yīng)用就是Agent在信息檢索系統(tǒng)中的典型應(yīng)用之一。目前,對于Agent技術(shù)的研究主要分為智能Agent、多Agent系統(tǒng)(Multi-Agent System,簡稱MAS)和面向Agent的程序設(shè)計(Agent Oriented Programming,簡稱AOP)三個方面。本文將Multi-Agent技術(shù)運用于元搜索引擎中,提出了一個基于多Agent的元搜索引擎系統(tǒng)模型。該模型既具備Agent技術(shù)智能性的特征,還具有元搜索引擎較傳統(tǒng)搜索引擎查全率高的優(yōu)勢,不但能夠彌補元搜索引擎在智能化程度低、無法滿足用戶個性化需求等方面的缺陷,還能在一定程度上提高系統(tǒng)的靈活性和易用性。

1.基于Multi-Agent的元搜索引擎系統(tǒng)

由于每個獨立搜索引擎的覆蓋面有限,人們不得不同時調(diào)用多個獨立搜索引擎進行檢索,于是元搜索引擎應(yīng)運而生。元搜索引擎是建立在多個獨立搜索引擎之上的一種綜合性搜索引擎,它接收用戶搜索請求并將查詢?nèi)蝿?wù)分發(fā)給各獨立搜索引擎,并將各獨立搜索引擎返回的查詢結(jié)果按照一定規(guī)則重新整理后呈現(xiàn)給用戶。因此,元搜索引擎又被稱為“搜索引擎之上的搜索引擎”或“搜索引擎之母”。由于元搜索引擎能夠利用多個獨立搜索引擎同時進行查詢,相對于傳統(tǒng)搜索引擎,信息的查全率就有了很大提高。但是,元搜索引擎還處在發(fā)展階段,某些技術(shù)尚不夠成熟,在一定程度上存在智能化程度偏低、無法滿足用戶的個性化檢索需求的缺陷。為解決這一問題,本文在元搜索引擎中引入Agent技術(shù),建立一個基于Multi-Agent的元搜索引擎系統(tǒng)模型,該模型綜合了Agent和元搜索引擎兩者的優(yōu)勢,能具備較高的系統(tǒng)性能。

1.1 基于Multi-Agent的元搜索引擎系統(tǒng)模型

圖1是建立的基于Multi-Agent的元搜索引擎系統(tǒng)模型。該模型采用Agent組織來實現(xiàn)元搜索引擎的智能化和個性化,利用多個Agent協(xié)同工作,通過各個Agent間的交互通訊和合作,不僅能夠開發(fā)新的問題求解方法,還能夠從相互學(xué)習(xí)中進一步完善提高各Agent的基本能力,理論上可提高查全率與查準率。

該系統(tǒng)主要由用戶交互Agent、興趣學(xué)習(xí)Agent、查詢擴展Agent、查詢管理Agent、成員Agent和結(jié)果整合Agent以及個性化模式庫和引擎性能評價庫組成。

1.2 基于Multi-Agent的元搜索引擎模型的系統(tǒng)功能

用戶交互Agent是用戶與元搜索引擎的交互接口,一方面它獲取用戶的查詢請求,遞交給查詢擴展Agent;另一方面將用戶的行為日志遞交給興趣學(xué)習(xí)Agent,由興趣學(xué)習(xí)Agent分析挖掘用戶興趣,將獲得的個性化模式存入個性化模式庫中,并實時調(diào)整、改善用戶興趣模型,智能地協(xié)助用戶進行信息檢索。查詢擴展Agent將請求中所含的有效參數(shù)分解出來,按一定語法格式重組后,將查詢指令發(fā)送給查詢管理Agent;查詢管理Agent除將查詢?nèi)蝿?wù)分發(fā)給各成員Agent外,還負責(zé)管理各Agent之間的協(xié)調(diào)和通訊;各成員Agent完成搜索任務(wù)后,將各自查詢結(jié)果發(fā)送給結(jié)果整合Agent,再由結(jié)果整合Agent進行歸并、去重、排序,最終按統(tǒng)一格式將查詢結(jié)果返回給用戶交互Agent,顯示給用戶。

個性化模式庫用于儲存用戶的個性化模式,這些個性化模式是由興趣學(xué)習(xí)Agent根據(jù)用戶以往的行為記錄經(jīng)驗,對相關(guān)信息進行分析、挖掘和推理而得到的興趣模型,也可通過用戶主動提出自己的興趣愛好或?qū)υ阉饕娌樵兘Y(jié)果進行評價反饋獲得;引擎性能評價庫中存放各個成員搜索引擎的性能評價值信息、響應(yīng)時間信息、返回鏈接數(shù)信息以及異常信息等。

2.多Agent間的通信

在基于Multi-Agent的元搜索引擎系統(tǒng)中,要想檢索到想要的結(jié)果,實現(xiàn)各Agent之間的信息傳遞,就需要有共同的通信語言和通信機制來保證各之間正常的交流通信。

2.1 Agent通信語言

目前國際上最通用的Agent通信語言主要是KQML(Knowledge Query and Manipulation Language)和FIPA ACL。本系統(tǒng)中各Agent間的通信語言可采用現(xiàn)在被廣泛使用和接受的KQML[15]。該語言既是一種Agent間的消息表達格式,也是一種消息處理協(xié)議,它規(guī)定了消息格式和消息傳送系統(tǒng),為Multi-Agent系統(tǒng)的通信和協(xié)作提供了一種通用框架。因為標準是開放的,各種語言可以用來傳送知識,也可以集成在KQML中。

2.2 Agent通信機制

在多Agent系統(tǒng)中,通信方法大致可分為黑板系統(tǒng)和消息/對話系統(tǒng)。

(1)黑板系統(tǒng)原理

黑板系統(tǒng)是傳統(tǒng)的人工智能系統(tǒng)和專家系統(tǒng)的議事日程的擴展,通過使用合適的結(jié)構(gòu)支持分布式問題求解。在多Agent系統(tǒng)中黑板提供公共工作區(qū),Agent可以互相交信息、知識和數(shù)據(jù)。Agent可以在任何時刻訪問黑板,獲取新的信息。它一般只選取對當(dāng)前工作需要和預(yù)測將要需要的信息。在黑板系統(tǒng)中Agent之間不發(fā)生直接通信。每個Agent獨立完成所求解的問題。黑板可以用在任務(wù)共享和結(jié)果共享系統(tǒng)中。各個Agent在訪問黑板時要從大量的信息中決定需要的內(nèi)容。其原理如圖2所示。

(2)消息傳送原理

采用消息通信是實現(xiàn)靈活復(fù)雜的協(xié)同策略的基礎(chǔ)。一個Agent叫發(fā)送者,傳送特定的消息到另一個Agent,即接收者。與采用消息通信和黑板系統(tǒng)不同,兩個Agent之間直接進行數(shù)據(jù)交換,一個Agent直接將特定消息發(fā)送給另外的一個Agent。為了協(xié)同需要,Agent之間的通信協(xié)議必須定義好通訊過程、消息格式和通信語言,而且Agent必須明確知道語言的語義。消息的語義內(nèi)容知識是分布式問題求解的核心部分。面向消息的Agent系統(tǒng)的原理如圖3所示。

3.多Agent協(xié)商

在基于Multi-Agent的元搜索引擎系統(tǒng)模型中,要想保證各Agent之間通過合作交流完成信息檢索,避免產(chǎn)生資源的沖突和死鎖,就需要有共同的協(xié)商機制來規(guī)范控制各Agent的行為,使之井然有序地進行,保證Agent之間通過協(xié)商對某些問題達成一致意見。

先根據(jù)功能及結(jié)構(gòu)的不同,將本系統(tǒng)模型中各Agent劃分為兩大類:Facilitator-Agent和Crawler-Agent。Facilitator-Agent(簡稱F-Agent)又稱為管理Agent,它主要負責(zé)計劃的制定、任務(wù)的分配以及Agent之間的通信管理;Crawler-Agent(簡稱C-Agent)又稱為任務(wù)Agent,它們執(zhí)行具體爬行的任務(wù),受到F-Agent的管理。本模型中,除了查詢管理Agent具備F-Agent和C-Agent雙重身份外,其他各Agent都屬于C-Agent。

下面介紹兩種應(yīng)用于搜索引擎中的Agent協(xié)商協(xié)議。

4.性能評價

在基于Multi-Agent的元搜索引擎系統(tǒng)中,系統(tǒng)的性能主要受到各Agent的自身能力和成員搜索引擎調(diào)度機制的影響。對Agent的自身能力評價,可通過其能力值來直接判定;成員搜索引擎的調(diào)度機制可通過其對應(yīng)的成員Agent的獎勵情況進行調(diào)整。

4.1 Agent自身能力評價

5.結(jié)束語

近幾年,隨著Agent技術(shù)的不斷成熟,MAS在信息檢索中的應(yīng)用研究逐漸成為熱點。利用MAS可以解決元搜索引擎中許多無法解決或解決不好的問題。本文提出一個適用于元搜索引擎的多Agent組織結(jié)構(gòu),在此基礎(chǔ)上將各Agent按功能不同分為管理Agent和任務(wù)Agent兩大類,同時對Agent的通信、協(xié)商以及能力評價都進行了詳細研究。隨著MAS系統(tǒng)方法的不斷改進,Multi-Agent技術(shù)在元搜索引擎中的應(yīng)用也有了良好的發(fā)展前景。

參考文獻

[1]徐科,黃國景,崔志明.元搜索引擎中基于用戶興趣的個性化調(diào)度模型[J].清華大學(xué)學(xué)報(自然科學(xué)版),2005,45(S1): 1915-1919.

[2]董占兵.基于形式概念分析的主題搜索策略研究[D].成都:西華大學(xué),2007:35-62.

[3]Jiang,Y.C.,Jiang,J.C.,A multi-Agent coordination model for the variation of underlying network topology,Expert Systems with Applations,2005(29):,372-382.

[4]Araujo Macedo,R.J.,Assis Silva,F.M.The mobile groups approach for the coordinationofmobileAgents,JournalofParallelandDistributedComputing,2005(65):275-288.

[5]趙文龍,侯義斌.多Agent系統(tǒng)及其組織結(jié)構(gòu)[J].計算機應(yīng)用研究,2000(7):12-14.

[6]何炎祥,陳莘萌.Agent和多Agent系統(tǒng)的設(shè)計與應(yīng)用[M].武漢:武漢大學(xué)出版社,2001.

[7]向丹.專業(yè)搜索引擎中的多Agent協(xié)調(diào)研究[D].成都:西華大學(xué),2007.

[8]Ronald C Arkin,Tucker Balch,Elizabeth munication of behavorial state in multi-agent retrieval tasks[J].Robotics and Automation,2003(3):588-594.

第8篇:搜索引擎研究范文

關(guān)鍵詞:搜索引擎;web鏈接;PageRank;HITS

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2009)24-6748-02

Research and Improvement of the Web-link Algorithms in Search Engine

WANG Mei

(Jiangsu Maritime Institute, Nanjing211170, China)

Abstract: This article researches algorithms of search engine link structure, analyzes HITS PageRank and the algorithms of apparent defect. Improving measures are put forward. Through the test, the test in the search algorithm improves the quality, etc.

Key words: search engine; web-link; PageRank; HITS

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,Web上信息量呈爆炸式增長,網(wǎng)上的資源及其豐富,但同時也充斥著大量的垃圾信息。 人們依據(jù)搜索引擎中的關(guān)鍵詞進行鏈接時,迫切需要從紛繁蕪雜的信息中找到有用知識,因此,通過有效的鏈接算法判斷網(wǎng)頁十分重要。

目前Google、百度等的鏈接算法使用PageRank算法和HITS算法。PageRank算法的特點在于對網(wǎng)頁進行了基于權(quán)威值的排序處理,最重要的網(wǎng)頁出現(xiàn)在結(jié)果的最前面。HITS算法是在描述網(wǎng)頁與主題的相關(guān)度時引入了權(quán)威網(wǎng)頁(Authority)和中心頁面(Hub)的概念,反映了權(quán)威網(wǎng)頁和中心網(wǎng)頁的相互加強關(guān)系。

1PageRank算法和HITS算法

1.1 PageRank算法

PageRank算法是將鏈接的網(wǎng)頁基于權(quán)威值按序排列。網(wǎng)頁的權(quán)威值基于下列考慮:1)一個網(wǎng)頁被多次引用,或者雖然沒有被多次引用,但是被重要的網(wǎng)頁引用,則它可能是很重要的。這種重要的網(wǎng)頁稱為權(quán)威(Authoritive)網(wǎng)頁。2)假定用戶一開始隨機地訪問網(wǎng)頁集合中的一個網(wǎng)頁,以后跟隨網(wǎng)頁的向外鏈接向前瀏覽網(wǎng)頁,不回退瀏覽,瀏覽下一個網(wǎng)頁的概率就是被瀏覽網(wǎng)頁的PageRank值。

PageRank算法描述如下:A(u)是網(wǎng)頁u的網(wǎng)頁集合,N(v)是網(wǎng)頁v指向外的鏈接數(shù),v∈A(u),c是一個用于規(guī)范化的因子(Google通常取0.85),則u的PageRank值R(u)計算如下:

R(u)=cΣA(u)/N(v)(1)

但是如果有2個相互指向的網(wǎng)頁a,b,他們不指向其它任何網(wǎng)頁,另外有某個網(wǎng)頁c,指向a,b中的某一個,比如a,那么在計算中,a,b的PageRank值就無法分布而不斷地累計。解決這個問題的辦法可以在算法中引入衰退因子E(u),因此式(1)改進如下:

R’(u)= cΣA(u)/N(v)+cE(u)(2)

1.2 HITS算法

HITS的算法主要考慮權(quán)威網(wǎng)頁(Authority)和中心網(wǎng)頁(Hub)之間的加強關(guān)系。每個網(wǎng)頁都會有一個對應(yīng)的權(quán)威值和中心值,如果某個網(wǎng)頁有許多中心值高的網(wǎng)頁指向它,則它就有高的權(quán)威值;同樣,如果某個網(wǎng)頁指向了許多高權(quán)威的網(wǎng)頁,那么它將具有較高的中心值。

它的算法描述為:將查詢q提交給基于關(guān)鍵字匹配的搜索引擎.搜索引擎返回很多網(wǎng)頁,從中取前n個網(wǎng)頁作為根集(root set),用S表示。S滿足如下3個條件:

1)S中網(wǎng)頁數(shù)量相對較小。2)S中網(wǎng)頁大多數(shù)是與查詢q相關(guān)的網(wǎng)頁。3)S中網(wǎng)頁包含較多的權(quán)威網(wǎng)頁

通過向S中加入被S引用的網(wǎng)頁和引用S的網(wǎng)頁將S擴展成一個更大的集合T,稱為基礎(chǔ)集。以T中的Hub網(wǎng)頁為頂點集V,以權(quán)威網(wǎng)頁為頂點集U,V中的網(wǎng)頁到U中的網(wǎng)頁的超鏈接為邊集E,形成一個二分有向圖SG=(V,U,E)。對V中的任一頂點v,用h(v)表示網(wǎng)頁v的Hub值;對U中的頂點u,用a(u)表示網(wǎng)頁的Authority值。開始時h(v)=a(u)=1,對u執(zhí)行下列(3)式操作修改它的a(u),對v執(zhí)行下列式(4)操作修改它的h(v),如此不斷地重復(fù)計算直到a(u),h(v)收斂。

a(u)=∑h(v) (3)

h(v)=∑a(u) (4)

(3)式反映了若一個網(wǎng)頁由很多好的Hub指向,則其權(quán)威值會相應(yīng)增加(即權(quán)威值增加為所有指向它的網(wǎng)頁的現(xiàn)有Hub值之和)。式(4)反映了若一個網(wǎng)頁指向許多好的權(quán)威頁,則Hub值也會相應(yīng)增加(即Hub值增加為該網(wǎng)頁鏈接的所有網(wǎng)頁的權(quán)威值之和)。

2 算法存在的問題和改進措施

2.1 PageRank和HITS算法存在的問題

PageRank算法只返回包含查詢項的網(wǎng)頁,然后根據(jù)網(wǎng)頁的PageRank值對搜索到的結(jié)果進行排序。它把PageRank值最高的網(wǎng)頁放置到最前面,但是如果最重要的網(wǎng)頁不在結(jié)果網(wǎng)頁集中,PageRank算法就無能為力了;另外,用戶在網(wǎng)頁瀏覽時,回退瀏覽較多。

同樣,HITS算法也存在問題,比如:1)有些網(wǎng)頁在制作時,加入了一些與查詢主題無關(guān)的鏈接;比如商業(yè)廣告,贊助商和用于友情交換的鏈接,這些都降低了HITS算法的精度。2)有時,主機A上的很多文檔可能指向另外一臺主機B上的某個文檔,這就增加了A上文檔的Hub值和B上文檔的Authority,相反的情況也如此。3)HITS算法最大的弱點是處理不好主題漂移問題(topic drift),也就是緊密鏈接TKC(Tightly-Knit Community Effect)現(xiàn)象。如果在集合T中有少數(shù)與查詢主題無關(guān)的網(wǎng)頁,但是他們是緊密鏈接的,HITS算法的結(jié)果可能就是這些網(wǎng)頁,偏離了原來的查詢主題。4)用HITS進行窄主題查詢時,可能產(chǎn)生主題泛化問題,即擴展以后引入了比原來主題更重要的新的主題,新的主題可能與原始查詢無關(guān)。

2.2 改進PageRank算法

去除PageRank算法需要的前提2,增加考慮了用戶從一個網(wǎng)頁直接跳轉(zhuǎn)到非直接相鄰的但是內(nèi)容相關(guān)的另外一個網(wǎng)頁的情況。

2.3 改進HITS算法

1) 改進HITS算法中的第Ⅰ問題:

提取根集S中的每個文檔的前若干量的詞語,串連起來作為查詢主題T,計算每個文檔的主題相似度,根據(jù)不同的閾值進行刷選,閾值可以選擇所有文檔相似度的中值、根集文檔相似度的中值或最大文檔相似度。根據(jù)不同閾值進行處理,刪除不滿足條件的文檔。

2) 改進HITS算法中的第Ⅱ問題:

假定主機A上有k個網(wǎng)頁指向主機B上的某個文檔d,則A上的k個文檔對B的Authority貢獻值總共為1,每個文檔貢獻1/k,而不是HITS中的每個文檔貢獻1,總共貢獻k。類似的,對于Hub值,假定主機A上某個文檔t指向主機B上的m個文檔,則B上m個文檔對t的Hub值總共貢獻1,每個文檔貢獻1/m。

3) 改進HITS算法中的第Ⅲ問題(TKC問題)

得到根集并且擴展為網(wǎng)頁集合T,除去孤立節(jié)點;

從集合T構(gòu)造無向圖G’=(Vh,Ua,E)

Vh = { Sh | S∈T and out-degree(S) > 0 } ( G’的Hub邊). (5)

Ua = { Sa | S∈T and in-degree(S) > 0 } (G’的Authority邊).(6)

E= { (Sh , Sa)}

這就定義了2條馬爾可夫鏈鏈,Authority鏈和Hub鏈。

以上改進算法并非完美算法,仍然有改進的空間,如計算網(wǎng)頁的Authority值時,只考慮網(wǎng)頁在直接相鄰網(wǎng)頁集中的受歡迎程度,忽略其它網(wǎng)頁對它的影響等等。

3 驗證與結(jié)果

自行開發(fā)搜索引擎系統(tǒng),對以上HITS算法和改進算法進行測試。

3.1 測試數(shù)據(jù)

使用搜索引擎中的網(wǎng)絡(luò)爬蟲程序抓取網(wǎng)頁,收集近百個網(wǎng)站20多萬網(wǎng)頁。對這些網(wǎng)頁進行分析處理,并加以保存。

先為這些信息按HITS算法建立索引,保存在索引文件夾中。通過這些索引構(gòu)建搜索器,將該索引映射到內(nèi)存中,對提交的查詢關(guān)鍵字進行快速檢索。再對網(wǎng)頁信息按改進的算法優(yōu)化索引,并保存在新的索引文件夾中。

3.2 測試結(jié)果

1)生成基礎(chǔ)集的質(zhì)量方面

表2為改進算法與HITS算法生成基礎(chǔ)集質(zhì)量比較。

2)搜索質(zhì)量

用不同算法,搜索上述關(guān)鍵詞的前20名鏈接網(wǎng)頁加以排序,判斷這些網(wǎng)頁是否符合關(guān)鍵詞。

表3為改進算法和HITS算法搜索質(zhì)量比較。

3)測試結(jié)論:用改進算法進行鏈接搜索,其結(jié)果較HITS算法更令人滿意。

4 結(jié)束語

本文就當(dāng)前搜索引擎的鏈接問題分析了2種算法,同時對這2種算法的缺陷提出了改進的措施,使搜索引擎的主題鏈接在性能上有很大提高。

當(dāng)然,關(guān)于搜索引擎的鏈接結(jié)構(gòu),可探討的問題還有許多,可總結(jié)的算法也有很多,以上2種算法還有未及之處,比如沒有有效的方法準確判定鏈接是否包含重要的信息、查詢的分類沒有明確界限等等。如果算法要取得更好的效果,還需要繼續(xù)做深入的研究。

參考文獻:

第9篇:搜索引擎研究范文

關(guān)鍵詞:上市公司;門戶網(wǎng)站;搜索引擎優(yōu)化

中圖分類號:F27

文獻標識碼:A

1引言

搜索引擎作為用戶與網(wǎng)絡(luò)的主要接口,是用戶搜索網(wǎng)絡(luò)信息最常用的工具,在連接用戶與企業(yè)上扮演著關(guān)鍵角色。搜索引擎優(yōu)化依托于搜索引擎而出現(xiàn),是一種針對搜索引擎的檢索特點、排序規(guī)律,對網(wǎng)頁進行科學(xué)調(diào)整的優(yōu)化方法。上市公司門戶網(wǎng)站是用戶獲取產(chǎn)品信息的重要途徑,其通過搜索引擎優(yōu)化可以使網(wǎng)站更易被搜索引擎檢索收錄,提高網(wǎng)站在搜索引擎內(nèi)的排名,進而吸引目標用戶,提高網(wǎng)站流量。

現(xiàn)有研究中,焦麗和路波基于自身經(jīng)驗對搜索引擎優(yōu)化策略進行了分析。唐衛(wèi)東和劉存后結(jié)合某網(wǎng)站的優(yōu)化實例,提出基于關(guān)鍵詞效能的搜索引擎優(yōu)化策略。范哲重點分析了國內(nèi)12家優(yōu)秀企業(yè)門戶網(wǎng)站的外部鏈接優(yōu)化情況。蔣雪瑛和徐福緣則以兩個農(nóng)村創(chuàng)業(yè)型網(wǎng)站為例研究了國內(nèi)小型創(chuàng)業(yè)網(wǎng)站的搜索引擎優(yōu)化策略。

上述研究雖然從不同的角度探討了公司網(wǎng)站的搜索引擎優(yōu)化情況,但缺乏對上市公司門戶網(wǎng)站搜索引擎優(yōu)化實施情況的分析,且相關(guān)結(jié)論也缺乏大樣本數(shù)據(jù)的支持。

區(qū)別現(xiàn)有研究,本文調(diào)查82家汽車制造業(yè)上市公司的門戶網(wǎng)站,從標題、關(guān)鍵詞、描述、網(wǎng)頁大小及反鏈接設(shè)置等方面對網(wǎng)站的搜索引擎優(yōu)化運用情況進行分析,最后提出上市公司門戶網(wǎng)站的搜索引擎優(yōu)化建議。

2研究設(shè)計

搜索引擎優(yōu)化是一種提升網(wǎng)頁在搜索引擎自然搜索結(jié)果中的排序位置的優(yōu)化方法。具體的搜索引擎優(yōu)化技術(shù)包括標題優(yōu)化、關(guān)鍵詞優(yōu)化、描述優(yōu)化、網(wǎng)頁優(yōu)化、鏈接優(yōu)化、錯誤頁面優(yōu)化和網(wǎng)站結(jié)構(gòu)優(yōu)化等多個方面。

由于上市公司門戶網(wǎng)站的搜索引擎優(yōu)化涉及面廣,部分數(shù)據(jù)難以獲取,本文主要分析標題、關(guān)鍵詞、描述、網(wǎng)頁大小和鏈接優(yōu)化,以及百度收錄和百度權(quán)重兩種優(yōu)化效果表現(xiàn)。由于優(yōu)化數(shù)據(jù)會隨著時間變化而改變,本文數(shù)據(jù)均在2017年2月27日,通過站長工具網(wǎng)站(http:///)收集。具體數(shù)據(jù)收集過程如下。

第一,上市公司名單獲取。通過中國證券監(jiān)督管理委員會網(wǎng)站(http:///pub/newsite/scb/ssgshyfljg/)獲得2016年4季度上市公司行業(yè)分類結(jié)果,并從中選擇汽車制造業(yè)上市公司名單,共93家。本文選擇汽車制造業(yè)的原因在于:隨著經(jīng)濟生活水平的提高,用戶對汽車的需求逐漸增多,上網(wǎng)獲取汽車信息的需求也逐漸增加,用戶與汽車公司門戶網(wǎng)站的接觸也越來越多。

第二,網(wǎng)址獲取。基于93家上市公司名單,通過百度搜索獲得公司門戶網(wǎng)站網(wǎng)址。

第三,數(shù)據(jù)收集。打開站長工具網(wǎng)站,逐一對93個網(wǎng)址進行SEO綜合查詢,記錄相關(guān)的搜索引擎優(yōu)化數(shù)據(jù)。

第四,數(shù)據(jù)整理。對收集到的93組數(shù)據(jù)進行整理,刪除有重要變量數(shù)據(jù)缺失的公司數(shù)據(jù),最終獲得82組數(shù)據(jù)。

3調(diào)查結(jié)果

通過對82組上市公司門戶網(wǎng)站的相關(guān)數(shù)據(jù)進行整理,其具體的搜索引擎優(yōu)化實施情r如表1所示。

3.1標題優(yōu)化

標題是搜索結(jié)果的重要組成部分,是網(wǎng)頁留給用戶的第一印象,可以提示網(wǎng)頁最主要的內(nèi)容。調(diào)查顯示82家公司均設(shè)置標題,且超過半數(shù)的公司網(wǎng)站標題的設(shè)置與公司名稱有關(guān)。而其他的標題形式也多為公司名稱與經(jīng)營產(chǎn)品的組合,只有極少數(shù)的標題僅用“首頁”等字樣。

3.2關(guān)鍵詞優(yōu)化

關(guān)鍵詞優(yōu)化是搜索引擎優(yōu)化的核心內(nèi)容。選擇合適的關(guān)鍵詞有利于搜索引擎檢索到公司網(wǎng)站,也有利于公司更為準確的傳遞其產(chǎn)品信息。調(diào)查顯示82家公司中有60家設(shè)置了關(guān)鍵詞,且多以公司名稱和經(jīng)營產(chǎn)品為關(guān)鍵詞形式。

3.3描述優(yōu)化

描述也是搜索結(jié)果的重要組成部分,是對網(wǎng)頁主要內(nèi)容的簡要解釋。調(diào)查顯示82家公司中61家設(shè)置有描述標簽,占74.39%。特別的,描述標簽的長度一般不超過200字符,需要精簡準確的描寫出網(wǎng)頁的重要內(nèi)容。設(shè)有描述標簽的61家公司中,僅有1家超過200字符。

3.4網(wǎng)頁大小優(yōu)化

網(wǎng)頁大小越大越能提供給搜索引擎和用戶更多的信息。但過大的網(wǎng)頁又不能被搜索引擎完全檢索。因此,網(wǎng)頁設(shè)置時需要對網(wǎng)頁進行適當(dāng)壓縮,以便于搜索引擎的檢索和收錄。調(diào)查顯示82家公司網(wǎng)站中,49家網(wǎng)站有對網(wǎng)頁進行壓縮,占59.76%。

3.5反鏈接優(yōu)化

反鏈接是指其它網(wǎng)站指向該網(wǎng)站的外部鏈接,又稱導(dǎo)入鏈接。反鏈接代表其他網(wǎng)站本網(wǎng)站的信任和支持,反鏈接越多,證明本網(wǎng)站越受其他網(wǎng)站歡迎。網(wǎng)站擁有更多的高質(zhì)量的反鏈接,越容易被搜索引擎檢索,且獲得更高的權(quán)重和收錄。調(diào)查顯示82家公司中72家有反鏈接,占87.8%,但其中46家公司的反鏈接數(shù)量在10條以下。

3.6百度收錄

百度收錄是指網(wǎng)站被百度搜索引擎收錄網(wǎng)頁的數(shù)量。從表1中可以看出,82家公司網(wǎng)站的收錄數(shù)相差較大。半數(shù)的公司其百度收錄數(shù)處于100到1000之間。

3.7百度權(quán)重

百度權(quán)重是指關(guān)鍵詞排名給網(wǎng)站帶來的流量,代表網(wǎng)站受歡迎程度,可以劃分為等級0-10。從表1中可以看出權(quán)重值超過5的網(wǎng)站只有3家,半數(shù)以上的網(wǎng)站百度權(quán)重在3以下。

4問題及建議

4.1問題

通過對調(diào)查結(jié)果分析發(fā)現(xiàn):

第一,上市公司門戶網(wǎng)站主要關(guān)注標題的設(shè)置,對關(guān)鍵詞和描述的設(shè)置有所忽視。且在標簽(包括標題、關(guān)鍵詞和描述)內(nèi)容的選擇上比較單一,主要圍繞公司名稱,只有部分考慮到公司的經(jīng)營產(chǎn)品等內(nèi)容,但也未考慮到更多的其他內(nèi)容。且還有小半部分公司網(wǎng)站直接忽視了關(guān)鍵詞和描述的優(yōu)化。

第二,在網(wǎng)頁大小的壓縮上,也存在部分公司未對網(wǎng)頁進行壓縮,這不利于搜索引擎的檢索,也可能導(dǎo)致用戶在打開網(wǎng)站時,由于網(wǎng)頁過大,受到網(wǎng)絡(luò)帶寬的影響。

第三,在反鏈接優(yōu)化上,大多公司雖然都考慮到了對反鏈接的設(shè)置,但未足夠重視。這還可能是公司網(wǎng)站未加強推廣,以至于公司網(wǎng)站缺乏知名度,不能吸引來自外部的鏈接。

此外,從百度收錄和百度權(quán)重的統(tǒng)計來看,網(wǎng)站的百度收錄數(shù)偏低,百度權(quán)重值也不高。這也間接反映了上市公司門戶網(wǎng)站在搜索引擎優(yōu)化上的實施還不到位。

4.2建議

首先,要重視標簽的設(shè)置。標題以公司名稱的形式是合理的,但可以進一步優(yōu)化。標題在搜索引擎結(jié)果頁面中暴露程度最大,最易吸引用戶注意。因此,標題要精確的總結(jié)頁面的中心內(nèi)容,還要簡潔、醒目。在關(guān)鍵詞優(yōu)化上,公司不僅要重視對關(guān)鍵詞內(nèi)容的選擇,還要注意對關(guān)鍵詞的管理,控制關(guān)鍵詞的數(shù)量和出現(xiàn)的次數(shù)等,避免造成關(guān)鍵詞堆砌。此外,關(guān)鍵詞反映了公司網(wǎng)站的定位,所以隨著公司網(wǎng)站定位的變化,以及響應(yīng)競爭者的競爭活動等,關(guān)鍵詞的選擇應(yīng)該是變化的。

其次,要控制網(wǎng)頁大小。網(wǎng)頁越大,呈現(xiàn)給搜索引擎和用戶的信息可能更多,但需要花費更多的時間去檢索和等待。因此,公司網(wǎng)站要合理的壓縮網(wǎng)頁大小。此外,公司網(wǎng)站還可以通過調(diào)整網(wǎng)站的內(nèi)容和結(jié)構(gòu)安排來為網(wǎng)頁“減負”。

最后,要加強反鏈接的設(shè)置。反鏈接可以增加網(wǎng)站被檢索的可能,好的反鏈接還會增加網(wǎng)站在搜索引擎中的排名。因此,公司網(wǎng)站不僅要主動的去接觸其他的與本公司有關(guān)的高質(zhì)量的網(wǎng)站,與其建立鏈接,還要加強對自身內(nèi)容的管理,使其更加豐富和權(quán)威,增加網(wǎng)站的價值,吸引其他網(wǎng)站來主動鏈接。最后,公司還要時常關(guān)注鏈接的有效性,避免出現(xiàn)錯誤鏈接和失效鏈接。

5總結(jié)

本文以82家汽車制造業(yè)上市公司門戶網(wǎng)站為樣本,調(diào)查分析了相關(guān)網(wǎng)站的搜索引擎優(yōu)化實施情r。調(diào)查發(fā)現(xiàn)相關(guān)網(wǎng)站對搜索引擎優(yōu)化還不夠重視,在標簽設(shè)置,網(wǎng)頁壓縮和引入反鏈接上都需要進一步的加強。為了提高上市公司門戶網(wǎng)站在搜索引擎中的收錄和排名,吸引更多的用戶,創(chuàng)造更好的收益,上市公司門戶網(wǎng)站應(yīng)重視對搜索引擎優(yōu)化的實施和管理。

參考文獻

[1]Egri G,Bayrak C.The Role of Search Engine Optimization on Keeping the User on the Site[J].Procedia Computer Science,2014,(36):335342.

[2]李憶,袁志會,袁梓翔.搜索引擎優(yōu)化技術(shù)對網(wǎng)站友好性影響的實證研究[J].情報雜志,2014,(09):173180.

[3]焦麗,路波.搜索引擎優(yōu)化策略研究[J].生產(chǎn)力研究,2010,(07):118119.

[4]唐衛(wèi)東,劉存后.基于關(guān)鍵詞效能的搜索引擎優(yōu)化策略分析[J].現(xiàn)代情報,2011,(10):3641.

[5]范哲.國內(nèi)優(yōu)秀企業(yè)門戶網(wǎng)站外部鏈接的分析與思考[J].情報雜志,2009,(09):146151.