国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁 > news >正文

上海楊浦網(wǎng)站建設(shè)神馬關(guān)鍵詞快速排名軟件

上海楊浦網(wǎng)站建設(shè),神馬關(guān)鍵詞快速排名軟件,手機(jī)網(wǎng)站頁面如何制作軟件,網(wǎng)站 png逐行交錯(cuò)自從1994年問世以來,搜索引擎逐漸成為了人們獲取Internet信息資源的主要方式,相關(guān)搜索引擎網(wǎng)站也逐漸成為Web用戶使用Internet時(shí)的首選訪問站點(diǎn)之一,另外搜索引擎和實(shí)時(shí)通訊、電子郵件等服務(wù)已經(jīng)成為當(dāng)今各大門戶網(wǎng)站用來吸引用戶訪問的三大主…

自從1994年問世以來,搜索引擎逐漸成為了人們獲取Internet信息資源的主要方式,相關(guān)搜索引擎網(wǎng)站也逐漸成為Web用戶使用Internet時(shí)的首選訪問站點(diǎn)之一,另外搜索引擎和實(shí)時(shí)通訊、電子郵件等服務(wù)已經(jīng)成為當(dāng)今各大門戶網(wǎng)站用來吸引用戶訪問的三大主要方式。據(jù)iResearch艾瑞咨詢報(bào)告說明,2009年中國搜索引擎市場規(guī)模達(dá)69.6億元,年同比增38.5%。搜索引擎市場規(guī)模在網(wǎng)絡(luò)廣告市場規(guī)模占比也已達(dá)33.6%,相比2008年的29.6%上升4.0個(gè)百分點(diǎn)[1]。這些都充分說明搜索引擎已經(jīng)成為Internet上一種重要的網(wǎng)站類型。

利用搜索引擎獲取Internet信息資源也是網(wǎng)絡(luò)用戶常見的訪問操作。本章首先主要介紹了搜索引擎在國外和國內(nèi)的發(fā)展歷史和現(xiàn)狀,通過對(duì)此問題的了解,有助于我們認(rèn)識(shí)搜索引擎的特點(diǎn),如為什么搜索引擎是現(xiàn)在這個(gè)樣子?為什么該這樣使用搜索引擎?這些都是我們需要回答的問題;其次,本章還簡單討論了一下搜索引擎的基本原理,以此來加深讀者對(duì)搜索引擎的了解,從而更好的幫助讀者使用搜索引擎。事實(shí)上,有時(shí)候我們會(huì)覺得搜索引擎不是很好用,個(gè)中原因很復(fù)雜,但是有一點(diǎn)是肯定的,如果我們?cè)搅私馑阉饕?#xff0c;我們就會(huì)越能有效的使用搜索引擎。

1.1 搜索引擎的發(fā)展

搜索引擎這個(gè)名稱比較古怪,來自于它的英文名稱:Search Engine,言下之意,它是一種查詢信息的發(fā)動(dòng)機(jī)??梢哉f,整個(gè)搜索引擎的發(fā)展歷史就是Internet網(wǎng)絡(luò)的發(fā)展歷史,因?yàn)榫W(wǎng)絡(luò)用戶一直存在著從大量網(wǎng)絡(luò)信息中獲取自己所需信息的需求,而且這種需求隨著Internet的快速增加而日漸迫切。

按照查詢技術(shù)的發(fā)展過程,搜索引擎的發(fā)展經(jīng)歷過三個(gè)主要階段:第一階段時(shí)間跨度大致為1990年到1998年,這個(gè)時(shí)期的搜索引擎主要著力于解決如何快速有效的從大量網(wǎng)頁中獲取較為完整的搜索結(jié)果,開始使用爬蟲等信息收集方式和使用Web目錄等信息組織方式,代表性的搜索引擎有Altavista等;第二階段時(shí)間跨度大致為1998年到2004年,此時(shí)的Internet規(guī)模已經(jīng)相當(dāng)龐大,查詢結(jié)果是否完整似乎已經(jīng)沒有太大意義,相反搜索引擎開始努力在查詢質(zhì)量和命中網(wǎng)頁結(jié)果的相關(guān)排序上來提高用戶的滿意度,基于網(wǎng)頁鏈接分析的算法逐漸被搜索引擎廣泛采用,Google就是典型的代表;第三階段時(shí)間跨度為2004年至今,各大搜索引擎不斷應(yīng)用先進(jìn)的技術(shù)來改進(jìn)功能,如增加多媒體信息查詢功能、個(gè)性化搜索引擎功能等。

1.1.1 國外搜索引擎的發(fā)展歷史

應(yīng)該說,如果沒有Internet就沒有搜索引擎。但是,在Internet出現(xiàn)之前,很多人所提出的思想和見解卻深深的影響了現(xiàn)代搜索引擎的出現(xiàn)和發(fā)展。比較著名的有兩個(gè)人物。

1945年,萬尼瓦爾·布什(Vannevar Bush)在《大西洋月刊(The Atlantic Monthly)》上發(fā)表了一篇重要的文章《As We May Think》(中文譯名為“誠若所思”)。雖然那個(gè)時(shí)代還沒有計(jì)算機(jī),但是在這篇文章中,作者提到了類似于超文本的思想,同時(shí)還指出未來的世界會(huì)出現(xiàn)一種獨(dú)立于人類大腦以外的知識(shí)擴(kuò)展體(Memory Extension),該物體具有無限大的虛擬空間,可以很好的擴(kuò)展,同時(shí)還能提供有效的信息獲取方法,作者稱之為“Memex”。該文如圖3. 1所示:

clip_image002

圖3. 1 《大西洋月刊》上的《誠若所思》一文(截取于2010-3)

萬尼瓦爾·布什大膽的預(yù)測(cè)了未來人類可能會(huì)面臨的信息處理困境,這是他書中的原話“The difficulty seems to be, not so much that we publish unduly in view of the extent and variety of present day interests, but rather that publication has been extended far beyond present ability to make real use of the record”。

然而,萬尼瓦爾·布什并沒有在技術(shù)上給出實(shí)現(xiàn)。20世紀(jì)六七十年代美國康奈爾大學(xué)(Cornell University)的杰勒德·沙頓(Gerard Salton)教授在信息檢索技術(shù)方面做出了很多貢獻(xiàn),很多技術(shù)直到今天還在搜索引擎中得到廣泛的應(yīng)用,如空間向量模型、詞頻、倒文檔頻率和相關(guān)度反饋等技術(shù),他甚至還研發(fā)了SMART信息檢索原型系統(tǒng)。

1.1.1.1 早期的搜索引擎

相對(duì)于其他類型的信息服務(wù)類型,Internet使用WWW服務(wù)的時(shí)間是比較晚的。所以,早期的Internet并不存在類似于今天的搜索引擎,但是仍然出現(xiàn)了很多相似的工具。

1)Archie

1990年,加拿大蒙特利爾的麥吉爾大學(xué)(McGill University)的三位學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明了Archie,據(jù)稱這個(gè)名稱來自于“Archive(檔案文件)”的縮寫。當(dāng)時(shí)的Internet可以提供諸如FTP等文件信息服務(wù),然而用戶卻缺乏一種直接查詢FTP文件所在地址的工具。而Archie恰恰可以自動(dòng)索引Internet上匿名的免費(fèi)FTP文件信息,并提供一種根據(jù)文件名稱查詢文件所在FTP地址的方法。因此,Archie被稱為現(xiàn)代搜索引擎的祖先。然而,客觀的講,它并非一個(gè)真正的搜索引擎。原因有兩個(gè):一是它只能搜索FTP文件資源,并不能獲取諸如網(wǎng)頁等其他類型的文件資源,因此它其實(shí)是世界上第一個(gè)FTP搜索引擎;二是它沒有機(jī)器人(Robot)程序,不能象今天的搜索引擎那樣快速有效的抓取Internet上的網(wǎng)頁文章內(nèi)容,相反它使用的是一個(gè)基于腳本的文件名稱收集器,并通過正則表達(dá)式來匹配用戶查詢與文件名稱來實(shí)現(xiàn)查詢,并通過文件列表的方式提供信息查詢結(jié)果。

2)World wide Web Wanderer

現(xiàn)代搜索引擎之所以可以查詢網(wǎng)頁信息,是因?yàn)樗哂幸粋€(gè)被稱為機(jī)器人(Robot)的程序,所謂機(jī)器人程序是指可以連續(xù)不斷的自動(dòng)獲取Internet上所有網(wǎng)頁信息的一種程序。World wide Web Wanderer其實(shí)并不能算是搜索引擎,它只是世界上第一個(gè)機(jī)器人程序,由美國麻省理工學(xué)院(MIT)的馬泰·格雷(Matthew Gray)于1993年6月開發(fā)。它通過網(wǎng)絡(luò)自動(dòng)遍歷方法來統(tǒng)計(jì)Internet上的服務(wù)器數(shù)量,所以可以追蹤Internet的發(fā)展規(guī)模,直至后來還可以專門用于獲取Internet上網(wǎng)頁的URL信息,所有的信息都被存入數(shù)據(jù)庫,名字叫Wandex。由于對(duì)于性能考慮的不是太多,這個(gè)機(jī)器人程序可以在一天內(nèi)連續(xù)的對(duì)同一網(wǎng)頁進(jìn)行多達(dá)幾百次的遍歷,因而會(huì)造成被遍歷系統(tǒng)性能的嚴(yán)重下降。雖然馬泰·格雷很快修復(fù)了這一問題,然而這次事故卻給人們帶來一個(gè)疑問:我的站點(diǎn)如果被別的機(jī)器人程序遍歷的話,是不是會(huì)引起性能的下降?直到今天,搜索引擎在機(jī)器人設(shè)計(jì)方面仍然存在著這樣的挑戰(zhàn)。

今天依然可以看到MIT網(wǎng)站上有關(guān)的網(wǎng)絡(luò)統(tǒng)計(jì)歷史數(shù)據(jù),網(wǎng)址為:http://www.mit.edu/people/mkgray/net,如圖3. 2所示:

clip_image005 clip_image007

圖3. 2 MIT網(wǎng)站上關(guān)于World wide Web Wanderer的信息(截取于2010-3)

3)Veronica和Jughead

之所以把這兩個(gè)搜索引擎放在一起,是因?yàn)樗鼈兊墓δ芎芟嗨?#xff0c;出現(xiàn)的時(shí)間也很接近。Veronica是由美國內(nèi)華達(dá)大學(xué)(University of Nevada)的系統(tǒng)計(jì)算服務(wù)小組(System Computing Services Group)于1991年開發(fā)。和Archie不同的地方在于,Veronica只對(duì)存在于Gopher上的普通文本文件進(jìn)行查詢。隨后出現(xiàn)的Jughead也具有類似的作用,據(jù)稱這個(gè)名稱來自于“Jonzy's Universal Gopher Hierarchy Excavation and Display(Jonzy的統(tǒng)一Gopher層次性挖掘和顯示工具)”。有趣的是,后人常常把Archie稱之為搜索引擎之父,而把Veronica稱之為搜索引擎之母。

不過,這些工具都已經(jīng)不復(fù)存在,然而人們依然可以在Internet上看到一些遺留下來的服務(wù),如圖3. 3所示:

clip_image009

圖3. 3 某站點(diǎn)展示的幾個(gè)大學(xué)所提供的Veronica服務(wù)(截取于2007-9)

4)ALIWEB

ALIWEB是個(gè)劃時(shí)代的搜索引擎,借助它人們首次可以對(duì)WWW網(wǎng)頁進(jìn)行全文查詢。它是由馬汀·考斯特(Martijn Koster)于1993年10月開發(fā),名稱含義是“類似于Archie的Web索引(Archie-Like Indexing of the Web)”,它相當(dāng)于Archie的Web版本。但是,ALIWEB沒有自己的機(jī)器人程序,相反它卻要求愿意被ALIWEB收錄的網(wǎng)站網(wǎng)管主動(dòng)提交自己網(wǎng)站的網(wǎng)頁索引信息,這樣做的好處在于克服了機(jī)器人程序帶來的帶寬消耗,同時(shí)網(wǎng)管可以自主的描述網(wǎng)頁內(nèi)容。但缺點(diǎn)也是顯而易見的,很多網(wǎng)管并不知道如何來做這個(gè)事情,甚至都不知道是否需要這樣做,所以ALIWEB的網(wǎng)頁數(shù)據(jù)庫規(guī)模一直不大。ALIWEB的網(wǎng)址為:http://www.aliweb.com,今天依然還在運(yùn)行,主頁界面如圖3. 4所示:

clip_image011

圖3. 4 ALIWEB搜索引擎的主頁界面(截取于2010-3)

馬汀·考斯特并沒有停止對(duì)搜索引擎技術(shù)的研究,他后來還成為了機(jī)器人拒絕協(xié)議(Robots Exclusion)標(biāo)準(zhǔn)的主要設(shè)計(jì)者。通過機(jī)器人拒絕協(xié)議,網(wǎng)站可以告知搜索引擎哪些信息是可以被搜索引擎機(jī)器人程序所遍歷的,而哪些是不可以遍歷的。借助這個(gè)協(xié)議,人們就可以更好的在信息公開性和保密性之間取得一種平衡。這個(gè)協(xié)議現(xiàn)在已經(jīng)成為現(xiàn)代搜索引擎的標(biāo)準(zhǔn)功能之一。

馬汀·考斯特的個(gè)人主頁網(wǎng)址為:http://www.greenhills.co.uk/mak/mak.html,如圖3. 5所示:

clip_image013

圖3. 5 馬汀?考斯特的個(gè)人主頁(截取于2010-3)

1.1.1.2 基于爬蟲的搜索引擎

爬蟲(Crawler)是從搜索引擎機(jī)器人程序發(fā)展而來。雖然兩者在功能上很相似,但是爬蟲程序卻可以通過分析遍歷來的網(wǎng)頁中含有的網(wǎng)頁鏈接信息,自動(dòng)獲取下一步需要遍歷的網(wǎng)頁,這個(gè)過程可以自動(dòng)的持續(xù)進(jìn)行下去。爬蟲是個(gè)非常形象的稱呼,也有人稱之為蜘蛛(Spider),它們都是一個(gè)意思,真像Internet上的一個(gè)蜘蛛爬蟲,自由的跑來跑去,抓取所能獲得的各種網(wǎng)頁信息。

爬蟲程序要想能夠抓取到所有的Internet網(wǎng)頁信息,需要有個(gè)假設(shè)前提,那就是Internet上的所有網(wǎng)頁都相互鏈接。事實(shí)上,這并不可能。不過,探討這個(gè)問題意義不是很大,尤其在Internet上網(wǎng)頁數(shù)量規(guī)模已達(dá)萬億級(jí)的今天。人們更關(guān)心能否快速找到一些最想要的信息資源而非全部的信息資源。

1994年在搜索引擎發(fā)展歷史上發(fā)生了很多具有里程碑意義的事件,那一年,各種基于爬蟲的搜索引擎都紛紛出現(xiàn),徹底的改變了Internet的信息環(huán)境狀態(tài)。

1)JumpStation、The World Wide Web Worm和RBSE

到了1993年底,很多基于爬蟲的搜索引擎開始出現(xiàn),其中比較著名的有三個(gè):一是英國蘇格蘭大學(xué)(Scotland University)開發(fā)的JumpStation,它可以自動(dòng)收集網(wǎng)頁的標(biāo)題等信息,但是隨著網(wǎng)頁數(shù)量的增加,該搜索引擎卻不能很好的適應(yīng)這種變化,性能變得很差,最終停止了運(yùn)行;二是美國科羅拉多大學(xué)(University of Colorado)的奧利弗·麥克布萊(Oliver McBryan)開發(fā)的“The World Wide Web Worm”,字面意思是萬維網(wǎng)蠕蟲,它可以自動(dòng)收集網(wǎng)頁的標(biāo)題和URL等信息,而且它也是第一個(gè)解析超文本信息的搜索引擎;三是美國航空航天局(NASA)開發(fā)的RBSE,意思是基于存儲(chǔ)庫的軟件技術(shù)設(shè)備(The Repository-Based Software Engineering)。它是第一個(gè)能夠索引Web網(wǎng)頁正文的搜索引擎,也是第一個(gè)能夠在搜索結(jié)果排列中引入查詢?cè)~語相關(guān)度概念的搜索引擎。這和前兩種搜索引擎不同,它不再簡單的只根據(jù)找到匹配網(wǎng)頁信息的先后次序來排列搜索結(jié)果,而是利用網(wǎng)頁鏈接分析重新設(shè)計(jì)新的結(jié)果網(wǎng)頁排序算法,因此可以把用戶最想要的相關(guān)網(wǎng)頁放置在搜索引擎結(jié)果的最前面。

現(xiàn)在這些搜索引擎都早已停止了服務(wù),但是后來的搜索引擎基本上都采用了基于爬蟲的網(wǎng)頁信息獲取方法。

2)Excite

Excite是一個(gè)非常有代表性的搜索引擎,它是由美國斯坦福大學(xué)(Stanford Unviersity)6名本科生在1993年2月研發(fā)的一個(gè)項(xiàng)目Architext發(fā)展而來。最初這些學(xué)生認(rèn)為可以通過對(duì)網(wǎng)頁中的詞語關(guān)系進(jìn)行統(tǒng)計(jì)分析來提高查詢的效果,因此他們?cè)谝腼L(fēng)險(xiǎn)投資后就研發(fā)了Architext系統(tǒng)。到了1993年中期,他們發(fā)布了一個(gè)供網(wǎng)絡(luò)管理員可以在自己網(wǎng)站上使用的查詢軟件版本,稱之為“Excite for Web Servers”。到1999年,Excite被一個(gè)名叫@Home的寬帶運(yùn)營商以65億美元收購,因此搜索引擎也改名為Excite@Home。從此,Excite@Home開始側(cè)重于寬帶市場,在搜索引擎方面也就沒有更新的技術(shù)出現(xiàn)。好景不長,Excite@Home于2001年10月破產(chǎn),2002年5月被InfoSpace公司以1000萬美元收購。今天,Excite仍然還在運(yùn)營,不過它已經(jīng)改用Dogpile來提供元搜索引擎服務(wù)。Excite主頁如圖3. 6所示:

clip_image016

圖3. 6 Excite搜索引擎的主頁界面(截取于2010-3)

Excite搜索引擎有兩點(diǎn)非常引人注目:一是在商業(yè)上,它最早提出“免費(fèi)讓人搜索,用廣告收入來補(bǔ)貼”的搜索引擎盈利模式,這在當(dāng)時(shí)是比較新的理念;二是在技術(shù)上,Excite一直以概念搜索聞名。所謂概念搜索,是指搜索引擎可以理解用戶查詢?cè)~語的語義含義,并進(jìn)行自動(dòng)語義擴(kuò)檢[2]來推薦更多的查詢內(nèi)容。當(dāng)然,受限于技術(shù)發(fā)展,這種概念檢索的功能并非十分強(qiáng)大。圖3. 7展示了在Excite中查詢“apple”的界面,在窗口的右邊顯示了一組擴(kuò)展的查詢?cè)~語,如“Apple Store(蘋果用品商店)”,甚至還有“Banana”等水果類詞語。

clip_image018

圖3. 7 Excite所提供的概念檢索(截取于2010-3)

3)WebCrawler

WebCrawler是美國華盛頓大學(xué)(University of Washington)計(jì)算機(jī)科學(xué)系的學(xué)生布賴恩·平克頓(Brian Pinkerton)于1994年4月20日創(chuàng)建,雖然它最早只是從一個(gè)非正式學(xué)術(shù)研討會(huì)上的小型項(xiàng)目發(fā)展而來,所以最初亮相時(shí)只包含來自6000個(gè)服務(wù)器的網(wǎng)頁內(nèi)容,但它卻是世界上第一個(gè)可以對(duì)遍歷網(wǎng)頁的全部文字內(nèi)容進(jìn)行索引的搜索引擎。在此之前,搜索引擎只能提供網(wǎng)頁URL和網(wǎng)頁摘要來供用戶查看查詢結(jié)果,其中網(wǎng)頁摘要一般來自人工評(píng)論或者是由程序自動(dòng)抽取網(wǎng)頁正文的前若干個(gè)詞語來組成,效果可想而知。所以如此強(qiáng)大的全文索引能力引發(fā)了巨大的訪問流量,據(jù)稱當(dāng)時(shí)的華盛頓大學(xué)校園網(wǎng)絡(luò)幾乎因此崩潰。

1995年,美國在線收購了WebCrawler。1997年,Excite又把WebCrawler買走,此時(shí)的美國在線就開始使用Excite作為它自己搜索項(xiàng)目NetFind的技術(shù)提供商。隨著Excite的風(fēng)光不再,今天的WebCrawler已改用Dogpile來提供元搜索引擎服務(wù)。網(wǎng)址為:http://www.webcrawler.com,主頁如圖3. 8所示:

clip_image020

圖3. 8 WebCrawler搜索引擎的主頁界面(截取于2010-3)

4)Lycos

Lycos的名字起得非常好,它來自于拉丁文單詞“Lycosidae(狼蛛)”,狼蛛和一般蜘蛛最大的區(qū)別就是不結(jié)網(wǎng),而是直接追隨獵物捕食。這個(gè)形象有力的名稱確實(shí)表達(dá)了Lycos遍歷網(wǎng)頁的強(qiáng)大能力,事實(shí)上,它也是搜索引擎歷史上的代表作之一。它由美國卡耐基梅隆大學(xué)(Carnegie Mellon University)的博士生邁克爾·墨登(Michale Mauldin)于1994年7月在匹茲堡創(chuàng)建,和其他美國搜索引擎不太一樣的地方在于,它是早期唯一誕生于美國東部的搜索引擎,而其它的搜索引擎則都在西部的硅谷創(chuàng)建。

從技術(shù)上看,Lycos能夠提供網(wǎng)頁結(jié)果排序、查詢?cè)~語的前綴匹配、鄰近位置詞語查詢和自動(dòng)網(wǎng)頁摘要等一系列功能。在1994年10月,用戶通過當(dāng)時(shí)最為流行的航海者瀏覽器查詢“surf”[3]相關(guān)結(jié)果時(shí),Lycos是排名第一的搜索引擎結(jié)果。當(dāng)然,它的最大特點(diǎn)仍不是這些。正如Lycos名字暗示的那樣,Lycos遍歷網(wǎng)頁的能力非常強(qiáng),這才是它的最大特點(diǎn),而這一點(diǎn)在Internet剛開始發(fā)展的年代時(shí)無疑非常吸引人。據(jù)報(bào)道,1994年7月20日,Lycos就可以遍歷54000篇網(wǎng)頁,到了1994年8月則達(dá)到39.4萬篇,1995年1月達(dá)到150萬篇,1996年11月更達(dá)到6千萬篇網(wǎng)頁,超過了當(dāng)時(shí)任何一款搜索引擎所能收集的網(wǎng)頁量。

但是,客觀的講,Lycos的搜索引擎技術(shù)并不是最好。不過,Lycos在商業(yè)上也做的不錯(cuò),如很早就開始投資做社區(qū)網(wǎng)站,網(wǎng)絡(luò)廣告也經(jīng)營的不錯(cuò),這些成功掩飾了Lycos技術(shù)的不足。Lycos后來似乎意識(shí)到了這一點(diǎn),它收購了一家廣受好評(píng)的搜索引擎Hotbot,而Hotbot后臺(tái)使用的是Inktomi搜索引擎的技術(shù),Lycos希望通過此次收購來提升自己的技術(shù)水平。但是,這也使得Lycos一直需要維持著兩個(gè)搜索引擎的技術(shù)平臺(tái)??赡苁荌nktomi的技術(shù)確實(shí)比較先進(jìn),直到最后它全面改用Inktomi的搜索技術(shù)。不過,由于受到Y(jié)ahoo!和Google的競爭,Lycos逐漸衰落,最終在1999年4月停止了服務(wù),改由Fast搜索引擎來提供服務(wù)。網(wǎng)址為:http://www.lycos.com,主頁如圖3. 9所示:

clip_image022

圖3. 9 Lycos搜索引擎的主頁界面(截取于2010-3)

5)Infoseek

Infoseek也誕生在那個(gè)奇妙的1994年。Infoseek的起點(diǎn)比較高,因?yàn)樗褂玫乃阉骷夹g(shù)來自于美國馬薩諸塞大學(xué)(University of Massachusetts),而在全美高校中,馬薩諸塞大學(xué)的信息檢索技術(shù)可以名數(shù)一流。但是設(shè)計(jì)完成之后,設(shè)計(jì)師還是發(fā)現(xiàn)無法適應(yīng)如此多的Internet網(wǎng)頁處理要求,因此聘請(qǐng)一位名叫威廉·張(William I. Chang)的中國臺(tái)灣設(shè)計(jì)師進(jìn)行了改進(jìn),改進(jìn)后的技術(shù)平臺(tái)被稱為Ultraseek。該平臺(tái)較前者而言,不僅在處理速度上,而且在查詢結(jié)果的相關(guān)度方面,都比較優(yōu)秀。事實(shí)上,后來的Infoseek也確實(shí)因?yàn)橄嚓P(guān)度算法好而聞名。同時(shí),它還允許網(wǎng)站管理者提交自己的網(wǎng)頁來進(jìn)行實(shí)時(shí)索引,該項(xiàng)功能非常吸引人,不過,Infoseek也同時(shí)成了搜索造假者[4](Search Spammer)的天堂,很多網(wǎng)站管理者利用此項(xiàng)功能來惡意提升自己網(wǎng)站的搜索結(jié)果排名和被搜索的次數(shù)。

不過,這些技術(shù)創(chuàng)新并沒有真正的帶來巨大進(jìn)步。但是,Infoseek不斷增強(qiáng)用戶界面的友好性,同時(shí)提供大量附加服務(wù)以吸引用戶使用。最為重要的是,1995年12月,Infoseek連說服帶花錢,讓網(wǎng)景(Netscape)公司不再使用Yahoo!作為默認(rèn)的搜索服務(wù)提供商,也就是說,當(dāng)用戶點(diǎn)擊航海者瀏覽器的搜索按鈕時(shí),默認(rèn)彈出Infoseek的搜索引擎。但是,隨著1999年被迪斯尼(Disney)公司收購,Infoseek最終淪落為Go.com網(wǎng)站做娛樂方面的索引和搜索服務(wù),從此在技術(shù)的革新越來越少。在2001年2月,Infoseek終于停止了自己的搜索引擎,改用Overture的搜索服務(wù)。有趣的是,百度創(chuàng)始人李彥宏也曾經(jīng)在Infoseek從事過技術(shù)工作,但于1999年回國創(chuàng)立了百度。更為有趣的是,那個(gè)當(dāng)時(shí)改進(jìn)Infoseek 的工程師William I. Chang后來認(rèn)識(shí)了李彥宏,并于2006年12月6日加盟百度,成為百度首席科學(xué)家。Infoseek的網(wǎng)址為:http://go.com,主頁如圖3. 10所示:

clip_image024

圖3. 10 Infoseek搜索引擎的主頁界面(截取于2010-3)

6)AltaVista

可以毫不夸張的說,憑借大量的創(chuàng)新功能,AltaVista就是早期搜索引擎中的“Google”,它不論是在軟件功能上還是硬件條件上都達(dá)到了那個(gè)時(shí)代的頂峰,在很多方面對(duì)現(xiàn)代搜索引擎都產(chǎn)生了深刻的影響。

AltaVista是由美國數(shù)字設(shè)備公司(Digital Equipment Corporation,DEC)研發(fā),于1995年12月面世。從硬件條件來看,DEC公司本身就是生產(chǎn)計(jì)算機(jī)設(shè)備的公司,憑借DEC強(qiáng)大的Alpha芯片運(yùn)算能力,AltaVista可以運(yùn)行在當(dāng)時(shí)最為先進(jìn)的計(jì)算機(jī)上,因此運(yùn)行速度非???。從軟件功能上看,AltaVista搜索引擎的功能也非常多,如AltaVista第一個(gè)允許用戶使用句子來進(jìn)行自然語言查詢,第一個(gè)支持和實(shí)現(xiàn)布爾查詢,能對(duì)不同格式的文檔、多媒體信息甚至多國語言的網(wǎng)頁進(jìn)行查詢。同時(shí),AltaVista還是第一個(gè)允許用戶自主增刪網(wǎng)頁索引信息的搜索引擎,更新的信息最快可以在24小時(shí)內(nèi)上線。另外,AltaVista還能查詢有鏈接指向某個(gè)特定網(wǎng)頁的所有其他網(wǎng)頁,該功能稱為鏈入檢查(Inbound Link Check),這個(gè)功能有助于網(wǎng)站管理者了解自己站點(diǎn)受人關(guān)注的程度,顯然,這種被其他網(wǎng)頁建立的鏈接越多,自己網(wǎng)頁的受歡迎程度相對(duì)也就越高。在界面上,AltaVista還提供了大量的易用幫助提示信息以方便用戶使用。

1997年,AltaVista發(fā)布了一個(gè)圖形演示系統(tǒng)LiveTopics,它采用一個(gè)圖形化的界面來整理搜索引擎的返回結(jié)果,從而方便用戶找到所需內(nèi)容,界面如圖3. 11所示:

clip_image026

圖3. 11 LiveTopics系統(tǒng)的界面

這些技術(shù)都令人刮目相看。然而,由于管理混亂和競爭者的不斷增多,AltaVista逐漸在進(jìn)入21世紀(jì)以后走了下坡路。2003年2月18日,Overture收購了AltaVista,隨后Yahoo!又收購了Overture,AltaVista因此成為了Yahoo!搜索系統(tǒng)的實(shí)驗(yàn)平臺(tái),也為Yahoo!推出自己的搜索引擎打下了必要的技術(shù)基礎(chǔ)。AltaVista的網(wǎng)址為:http://www.altavista.com,主頁如圖3. 12所示:

clip_image028

圖3. 12 AltaVista搜索引擎的主頁界面(截取于2010-3)

7)Inktomi

Inktomi的正確念法是“Ink-to-me”,它來自于美洲印第安人傳說中的一個(gè)蜘蛛魔法師,據(jù)說給人類帶給了文化和知識(shí)。Inktomi是由美國加州伯克利分校(University of California Berkeley)計(jì)算機(jī)教授埃里克·布魯爾(Eric Brewer)和他的博士生保羅·高瑟(Paul Gauthier)于1996年1月創(chuàng)建。他們是研究并行處理的專家,也希望以Inktomi來證明他們所提出的并行算法是有效的。但是,此時(shí)的Internet搜索引擎已經(jīng)群雄并起,要想和它們正面交鋒,難度很大。所以,Inktomi創(chuàng)建者決定只做技術(shù)提供商,并在1996年5月20日開始為Hotbot提供服務(wù)。事實(shí)證明,Hotbot很受歡迎,它聲稱每天能遍歷1千萬篇以上的網(wǎng)頁,同時(shí)還大量運(yùn)用cookie來儲(chǔ)存用戶的設(shè)置信息以提供個(gè)性化的查詢服務(wù)。在商業(yè)運(yùn)行模式上,Inktomi還提出了很多直到今天依然還在沿用的概念,如“Search Submit(付費(fèi)提交)”、“Index Connect(付費(fèi)索引)”、“Web Portal Solution(Web門戶解決方案)”和“Enterprise Search(企業(yè)搜索)”等。到了1999年,Inktomi 達(dá)到了鼎盛,成為了諸如Yahoo!和微軟MSN搜索引擎在內(nèi)近一百多個(gè)大網(wǎng)站的搜索后臺(tái)技術(shù)提供商。

隨后,Hotbot被Lycos收購,Yahoo!也轉(zhuǎn)用Google作為搜索技術(shù)提供商,這對(duì)Inktomi是個(gè)巨大打擊,不斷流失的客戶和影響力開始使得Inktomi走向了下坡路。Inktomi于2002年12月23日還是被當(dāng)年拋棄它的Yahoo!以低價(jià)收購。在此之前,Yahoo!一直在使用Altavista作為后臺(tái)技術(shù)提供商。Inktomi網(wǎng)址為:http://www.inktomi.com,主頁如圖3. 13所示:

clip_image030

圖3. 13 Inktomi搜索引擎的主頁界面(截取于2007-9)

Inktomi的最終失敗從一個(gè)方面反映了搜索引擎廠商必須要正視的問題,那就是究竟應(yīng)該直接面對(duì)用戶樹立品牌還是甘當(dāng)無名幕后英雄。事實(shí)證明,要想取得市場的成功,搜索引擎必須及時(shí)轉(zhuǎn)型,盡快走到臺(tái)前。后來的Google和百度則采取了正確的轉(zhuǎn)型路線,成為了現(xiàn)代搜索引擎的巨頭之一。

1.1.1.3 基于分類目錄的搜索引擎

前文所述的搜索引擎多是采用爬蟲方式來獲取網(wǎng)頁信息,同時(shí)在查詢界面上多是采用輸入查詢?cè)~語的方式來直接獲取網(wǎng)頁結(jié)果,通常我們稱這種方式叫全文查詢(Full-text Search),因?yàn)榫W(wǎng)頁只要在任何位置上含有用戶的查詢?cè)~語就可以被命中。與此相對(duì)的,還有另外一種有效的查詢界面設(shè)計(jì)方法,那就是Web目錄(Web directory),也稱為“分類目錄”或者“網(wǎng)頁目錄”。它采用層次性的目錄組織體系,將所收集的網(wǎng)頁分門別類的歸入不同的子目錄中,用戶按照目錄提示可以逐層定位找到自己所需的內(nèi)容。采取此類方法實(shí)現(xiàn)的搜索引擎和信息查詢站點(diǎn)也有很多。

1)Virtual Library

發(fā)明WWW訪問方式的蒂姆·伯納斯·李(Tim Berners Lee)就于1991年利用WWW方式組織過一個(gè)Web目錄站點(diǎn),稱為虛擬圖書館(Virtual Library),于是它被看成是世界上最早的Web目錄站點(diǎn)。不像一般的商業(yè)站點(diǎn),這個(gè)站點(diǎn)是由一群志愿者維護(hù)的,志愿者分別根據(jù)自己所了解的學(xué)科知識(shí)領(lǐng)域給出相應(yīng)目錄下的推薦網(wǎng)頁結(jié)果,所以體系不大,但是收錄的網(wǎng)頁質(zhì)量卻較高。網(wǎng)址為:http://vlib.org.uk,主頁如圖3. 14所示:

clip_image032

圖3. 14 蒂姆?伯納斯?李創(chuàng)立的虛擬圖書館(Virtual Library)(截取于2010-3)

2)Galaxy

1994年1月,Galaxy在美國得克薩斯大學(xué)(University of Texas)創(chuàng)建,最早的名稱是EINet Galaxy。在創(chuàng)建之初,Galaxy主要面向電子商務(wù)的大型目錄指南服務(wù)。1995年4月,Galaxy由一個(gè)研究項(xiàng)目轉(zhuǎn)變?yōu)橐粋€(gè)商業(yè)項(xiàng)目,1997年被網(wǎng)絡(luò)安全公司CyberGuard收購,1998年9月,CyberGuard又把Galaxy買給美國健康網(wǎng)(AHN.com),1999年5月Fox/News公司介入Galaxy。直到2000年5月,幾經(jīng)變故的Galaxy終于成為一個(gè)獨(dú)立的站點(diǎn),由TradeWave公司負(fù)責(zé)。

Galaxy是一個(gè)著名的Web目錄搜索引擎,這個(gè)目錄體系首先按照主題分類,各主題目錄再依字母順序排列,大主題下分有小主題,因此是個(gè)較為綜合全面的Web目錄體系。同時(shí),在內(nèi)容上包含了較多的學(xué)術(shù)性和專業(yè)性知識(shí),內(nèi)容非常豐富。令人注意的是,Galaxy除了可以提供Web網(wǎng)頁查詢功能外,還能提供當(dāng)時(shí)還在流行的Telnet和Gopher環(huán)境下的信息查詢功能。其實(shí)在1994年,當(dāng)時(shí)Internet上的Web網(wǎng)絡(luò)還很小,小到似乎沒有必要去建立Web目錄,而事實(shí)上,Galaxy創(chuàng)建的一個(gè)主要原因也就是提供一種Gopher信息的查詢功能,而Gopher采用的層次型菜單結(jié)構(gòu)非常需要同時(shí)也非常適應(yīng)Galaxy所提供的目錄體系。它的網(wǎng)址為:http://www.galaxy.com,主頁如圖3. 15所示:

clip_image034

圖3. 15 Galaxy搜索引擎的主頁界面(截取于2010-3)

3)Yahoo!(雅虎)

Yahoo!和Google、Bing[5]已經(jīng)成為當(dāng)代全球三大著名搜索引擎。事實(shí)上,它也是這三者當(dāng)中資格最老的一個(gè)。

90年代初,美國斯坦福大學(xué)(Stanford Unviersity)電機(jī)研究所攻讀電機(jī)工程博士學(xué)位的美籍華人楊致遠(yuǎn)(Jerry Yang)和大衛(wèi)·費(fèi)羅(David Filo)和其他學(xué)生一樣,開始喜歡上剛出現(xiàn)的Internet。不過,他們卻有一個(gè)特殊的愛好,那就是他們經(jīng)常將自己收集到的一些較好的網(wǎng)頁內(nèi)容鏈接在自己的個(gè)人網(wǎng)頁上。漸漸的,他們自己的網(wǎng)頁在斯坦福大學(xué)內(nèi)部開始小有名氣,人們稱呼他們的網(wǎng)頁為“杰里和大衛(wèi)的萬維網(wǎng)向?qū)?#xff08;Jerry&David's Guide to the World Wide Web)”。根據(jù)這些已有的經(jīng)驗(yàn)和前期的基礎(chǔ),楊致遠(yuǎn)和大衛(wèi)·費(fèi)羅于1994年4月使用學(xué)校的工作站創(chuàng)建了一個(gè)網(wǎng)頁目錄查詢系統(tǒng),稱之為Yahoo!。剛開始,這個(gè)網(wǎng)頁目錄就已經(jīng)收集了超過1000不同站點(diǎn)的網(wǎng)頁信息。較基于爬蟲的早期搜索引擎而言, Yahoo!所收集的網(wǎng)頁內(nèi)容能夠含有人工編撰的說明信息,可以極大方便用戶的使用,而基于爬蟲的搜索引擎只能通過采集網(wǎng)頁URL和標(biāo)題之類的簡單內(nèi)容來作為網(wǎng)頁內(nèi)容的提示信息,顯然不論是在網(wǎng)頁體系的組織上,還是在網(wǎng)頁內(nèi)容的說明上,都難以做到和Yahoo!同樣的效果。

關(guān)于Yahoo!這個(gè)名稱的來歷也是眾說紛紜,很多人認(rèn)為它是“另一個(gè)層次性的民間先知(Yet Another Hierarchical Officious Oracle)”的縮寫詞,這可能借鑒于UNIX系統(tǒng)中一個(gè)表示網(wǎng)絡(luò)查詢技術(shù)的縮略語YACC(Yet another compiler compiler,另一個(gè)編譯器代碼生成器)。但是,根據(jù)楊致遠(yuǎn)等人的說法,Yahoo的“Ya”來自于楊致遠(yuǎn)的姓,他們?cè)庙f氏詞典設(shè)想過Yauld、Yammer和Yardage等一系列可能的名字。之所以選中Yahoo,是因?yàn)樵凇陡窭鹩斡洝分衁ahoo是一種粗俗和不懂世故的人形動(dòng)物,它具有人的種種惡習(xí),他們反其義而用之,認(rèn)為在強(qiáng)調(diào)平等權(quán)利的互聯(lián)網(wǎng)上大家都是鄉(xiāng)巴佬,為了增加褒義色彩,又后面加上一個(gè)感嘆號(hào),于是就有了Yahoo!。

事實(shí)上,Yahoo!的成功離不開它的幸運(yùn)。當(dāng)時(shí)有一家著名Web瀏覽器公司網(wǎng)景(Netscape)生產(chǎn)一種稱為航海者(Navigator)的Web瀏覽器軟件,該軟件非常流行,人們都在使用它去訪問Web網(wǎng)絡(luò)。為了增強(qiáng)網(wǎng)絡(luò)信息查詢的快捷性,該瀏覽器的創(chuàng)始人馬克·安德森(Marc Andreessen)看中了Yahoo!,并且在1995年1月,他把航海者瀏覽器上一個(gè)最為重要的網(wǎng)絡(luò)查詢按鈕默認(rèn)指向了Yahoo!目錄。可以說,借助航海者瀏覽器的平臺(tái),Yahoo!很快在Internet上樹立了名聲。1995年4月,Yahoo!還吸收到了曾經(jīng)給Apple、Oracle和Cisco投資過的Sequoia公司接近200萬美元的投資。此時(shí),Yahoo!已經(jīng)成為Internet上的一個(gè)重要的門戶站點(diǎn)。

然而,通過人工組織方式獲取的Web目錄結(jié)構(gòu)不可能適應(yīng)網(wǎng)絡(luò)快速增長的發(fā)展要求,因此,Yahoo!先后使用了諸如Altavista和Inktomi等搜索引擎來為自己提供基于關(guān)鍵詞的全文檢索服務(wù)。2002年10月9日,Yahoo開始不再使用Web目錄作為主要搜索工具,而是使用另外一家后起之秀Google來為自己提供關(guān)鍵詞查詢服務(wù),并成為真正的全文搜索引擎。正如當(dāng)年Yahoo!借助航海者成功一樣,Google最終也借助Yahoo!成名,并敢于和Yahoo!抗衡。此時(shí)的Yahoo!只能通過收購的方式來獲得較快的發(fā)展,2002年12月23日收購inktomi搜索引擎,2003年7月14日收購包括Fast和Altavista在內(nèi)的Overture公司。直到2004年,雅虎中國在中國內(nèi)地終于推出了自己獨(dú)立研發(fā)的搜索引擎“一搜”。2004,雅虎中國推出獨(dú)立的搜索門戶網(wǎng)站一搜網(wǎng),“一搜天下小”的廣告語讓人側(cè)目。今天已經(jīng)改名為雅虎全能搜,網(wǎng)址為:http://www.yahoo.cn,主頁如圖3. 16所示:

clip_image037

圖3. 16 雅虎全能搜的主頁界面(截取于2010-3)

不過,Yahoo!的Web目錄仍然還是一個(gè)重要的網(wǎng)絡(luò)信息查詢工具,它的設(shè)計(jì)結(jié)構(gòu)經(jīng)過不斷的調(diào)整,已經(jīng)非常成熟和易于使用。Yahoo!的Web目錄網(wǎng)址為:http://dir.yahoo.com,網(wǎng)頁如圖3. 17所示:

clip_image039

圖3. 17 Yahoo!的Web目錄主頁界面(截取于2010-3)

當(dāng)然,這個(gè)Web目錄也漸漸的融入了更多的特點(diǎn)。尤其是隨著名聲的增大,Yahoo!早已開始對(duì)收錄的商業(yè)站點(diǎn)收費(fèi),2007年的收錄報(bào)價(jià)是每年299美元。但是,對(duì)于那些真正著名的站點(diǎn)而言,Yahoo!還是采用免費(fèi)收錄的方法。

4)ODP(開放目錄)

ODP是Open Directory Project(開放目錄項(xiàng)目)的簡稱,是由瑞奇·斯克倫塔(Rich Skrenta)于1998年和合伙人一起創(chuàng)辦的。這個(gè)目錄體系結(jié)構(gòu)不僅可以提供一種Web網(wǎng)頁目錄的查詢方法,而且這個(gè)目錄體系的內(nèi)容還是由全球各地的志愿者集體編撰而成,至今已經(jīng)成為全球最大的Web目錄,因此那些本來需要等待被Yahoo!目錄收錄的網(wǎng)站現(xiàn)在終于找到了新的地方。更為重要的是,人們還可以免費(fèi)的下載整個(gè)目錄體系,以供自己的科學(xué)研究。1998年11月,網(wǎng)景(Netscape)公司收購了ODP。隨著網(wǎng)景公司自己在同年同月被美國在線(AOL)以45億美元收購,ODP后來歸入了AOL的名下。ODP的網(wǎng)址為:http://www.dmoz.org,主頁如圖3. 18所示:

clip_image041

圖3. 18 ODP的Web目錄主頁界面(截取于2010-3)

5)專業(yè)的Web目錄站點(diǎn)

如果讀者細(xì)心,你就會(huì)發(fā)現(xiàn)上述這些Web網(wǎng)頁目錄的結(jié)構(gòu)有時(shí)科學(xué)性并不強(qiáng),如圖3. 19顯示了部分雅虎中文分類目錄的內(nèi)容:

clip_image043

圖3. 19 部分雅虎中文Web目錄的截圖(截取于2010-3)

顯然,“音樂”屬于“藝術(shù)”,無論如何將兩者并列作為同一個(gè)目錄下的子內(nèi)容項(xiàng)并不合適,更不必說“軍事”是否應(yīng)該放入“休閑娛樂”目錄下了。

但是我們要注意,這些Web目錄并不在意科學(xué)性,相反,它們更加在意易用性。一般的Web用戶可能并不十分了解目錄的層次結(jié)構(gòu),他們往往希望能夠在最短的時(shí)間內(nèi)找到自己所要的目錄項(xiàng),所以雅虎中文所設(shè)計(jì)的這些目錄往往是集中了最為流行常見的目錄項(xiàng),并且以一種極為方便和直觀的方式來展示目錄結(jié)構(gòu)。

然而,對(duì)于那些諸如圖書館員等從事專門信息資源管理的專家而言,他們可能并不滿意這樣的結(jié)構(gòu),為此還有一些更為專業(yè)的搜索引擎Web目錄。

克倫·施耐德(Karen G. Schneider)創(chuàng)辦的“圖書館員Internet索引(Librarians' Internet Index,LII)”就是一個(gè)專門面向圖書館員的專業(yè)Web目錄站點(diǎn),該目錄的結(jié)構(gòu)具有較為完善的組織,科學(xué)性強(qiáng),質(zhì)量較高。一般而言,那些具有收費(fèi)收錄(Paid Inclusion)服務(wù)的Web目錄,通常都不具備這些特點(diǎn)。LII的網(wǎng)址為:http://lii.org,主頁如圖3. 20所示:

clip_image045

圖3. 20 LII的Web目錄主頁界面(截取于2009-4)

后來,LII與另外一家著名的專業(yè)Web目錄“Internet公共圖書館(Internet Public Library)”合并組建了ipl2,網(wǎng)址為:http://www.ipl.org。

再如Google搜索引擎也經(jīng)常充分利用圖書館員的反饋信息。它提供了“Google圖書館員報(bào)道(Google librarian newsletter)”的消息服務(wù),經(jīng)常收集世界各地圖書館員的意見和問題,以此來改進(jìn)Google的搜索功能,并且定期向他們提供Google服務(wù)的相關(guān)原理和改進(jìn)說明,相關(guān)內(nèi)容的介紹網(wǎng)址為:http://www.google.com/librariancenter/newsletter/0512.html,如圖3. 21所示:

clip_image047

圖3. 21 Google圖書館員報(bào)道的官方介紹(截取于2010-3)

6)主題Web目錄

上述這些綜合Web目錄還有很多。不過我們也要能夠看到它們存在的問題,原因很簡單,如果目錄小,價(jià)值不大,難以吸引用戶使用,如果目錄大,相關(guān)的人工整理成本太高,維護(hù)困難。所以,和綜合Web目錄不同,主題Web目錄采取了不同的設(shè)計(jì)策略,它只面向諸如商業(yè)和經(jīng)濟(jì)等特定領(lǐng)域,從而取得了目錄規(guī)模和運(yùn)轉(zhuǎn)成本之間的一個(gè)平衡。通常人們把這些主題Web目錄也稱為垂直Web目錄(Vertical Web Directory)、面向局部的Web目錄(Locally Oriented Directory)。

如Business.com就是一個(gè)專門面向商業(yè)領(lǐng)域的主題Web目錄,它的商業(yè)目錄結(jié)構(gòu)比較有特色,涵蓋了商業(yè)和經(jīng)濟(jì)領(lǐng)域的相關(guān)重要內(nèi)容。網(wǎng)址為:http://www.business.com,主頁如圖3. 22所示:

clip_image049

圖3. 22 Business.com的Web目錄主頁界面(截取于2010-3)

1995年成立的Looksmart也是一家Web目錄站點(diǎn),早期曾經(jīng)通過增加網(wǎng)頁收錄數(shù)量和規(guī)模來和Yahoo!目錄競爭。顯然,這一招并不十分成功,2002年Looksmart 發(fā)明的一種新型的盈利模式為它的快速增長提供了基礎(chǔ)。在此之前,幾乎所有的Web目錄站點(diǎn)都是采取較為固定的付費(fèi)收錄策略,如每月只需付多少錢可以收錄到哪個(gè)目錄中等等。然而,Looksmart采取了按點(diǎn)擊付費(fèi)(Pay Per Click)的收費(fèi)方法[6],也就是說,用戶點(diǎn)擊該收錄網(wǎng)頁次數(shù)越多,相應(yīng)的收錄費(fèi)用也就越高,這對(duì)被收錄網(wǎng)頁而言,顯然是一種很好的激勵(lì)措施,愿意為較高的點(diǎn)擊率而支付更多的費(fèi)用。

在內(nèi)容上,Looksmart不僅在自己的目錄結(jié)構(gòu)中收錄網(wǎng)頁索引,而且還根據(jù)主題分門別類的收錄不少很有價(jià)值的內(nèi)容資源,應(yīng)該是個(gè)很不錯(cuò)的主題Web目錄。然而,這些收錄的內(nèi)容相關(guān)性卻因?yàn)楦鞣N原因而逐漸變差,后來在很大程度上又損害了Looksmart的聲譽(yù)。

然而在商業(yè)上發(fā)生了一連串的失敗,給Looksmart帶來了越來越多的不利影響。1998年,Looksmart以2000千萬美元收購一家非盈利的Web目錄站點(diǎn)Zeal來擴(kuò)展自己的目錄規(guī)模,但是到了2006年3月28日,Looksmart卻關(guān)閉了這個(gè)Zeal目錄。2002年3月,Looksmart還試圖通過收購WiseNut搜索引擎來獲得發(fā)展,結(jié)果也不理想。不過,最大的問題還不止這些。Looksmart曾經(jīng)通過加盟諸如MSN等門戶站點(diǎn),通過付費(fèi)收錄方式來獲利。然而,Looksmart一直以來建立的良好信譽(yù)卻隨著這個(gè)合作而逐漸變差,而且Looksmart在商業(yè)上也逐漸越來越依賴于微軟的MSN搜索引擎。到了2003年,微軟宣布拋棄與Looksmart的合作,對(duì)Looksmart來說,這無疑是個(gè)致命的打擊。后來,Looksmart開始改用一個(gè)稱為Furl的社會(huì)化書簽(Social Bookmarking)管理站點(diǎn)來期望獲得新的訪問流量增長,現(xiàn)在它主要為廣告商提供按點(diǎn)擊付費(fèi)的搜索網(wǎng)絡(luò)平臺(tái)服務(wù)。它的網(wǎng)址為:http://www.looksmart.com,主頁如圖3. 23所示:

clip_image051

圖3. 23 Looksmart的主頁界面(截取于2010-3)

綜上所述,Web目錄確實(shí)具有不少優(yōu)點(diǎn),所以在搜索引擎領(lǐng)域中一直都是一個(gè)不可或缺的角色。連Google都利用ODP目錄推出了自己的Web目錄站點(diǎn),網(wǎng)址為:http://dir.google.com,主頁如圖3. 24所示:

clip_image053

圖3. 24 Google的Web網(wǎng)頁目錄主頁界面(截取于2010-3)

然而,我們必須要看到這種方式并非現(xiàn)代搜索引擎的主流。由于Web網(wǎng)頁目錄需要大量的人工編撰工作,所以維護(hù)成本很高,縮放性很差。而且網(wǎng)頁目錄規(guī)模通常都不大,相對(duì)于關(guān)鍵詞查詢而言,我們可以認(rèn)為雖然關(guān)鍵詞查詢可能查準(zhǔn)率不高,但具有更高的查全率,而網(wǎng)頁目錄查詢則具有更高的查準(zhǔn)率,查全率則較低。

而且這種目錄結(jié)構(gòu)還存在一個(gè)不太引人注意的缺點(diǎn),那就是它要求用戶首先了解網(wǎng)頁目錄結(jié)構(gòu),否則用戶將很難使用。舉個(gè)例子,用戶想查詢“藍(lán)牙”的相關(guān)網(wǎng)頁,如果他根本不知道這是一種無線通訊技術(shù)的話,那他就根本找不到目錄的入口,即便用戶知道這是無線技術(shù),恐怕也很難在較短的時(shí)間快速定位到所要的子目錄,究竟“無線通訊技術(shù)”在“數(shù)據(jù)通訊”目錄下呢還是在“硬件”目錄下呢?而且,更為麻煩的是,如果用戶認(rèn)為它應(yīng)該在“數(shù)據(jù)通訊”目錄下,而目錄編撰者卻把“藍(lán)牙”歸入“硬件”目錄中,也就是說,良好的目錄使用效果需要用戶和編撰者對(duì)目錄結(jié)構(gòu)具有一致的思路和理解,事實(shí)上這很難辦到,因此就會(huì)導(dǎo)致用戶難以理解,甚至用戶會(huì)認(rèn)為在這個(gè)目錄中根本找不到自己所需的內(nèi)容。所以,現(xiàn)在比較流行的Web目錄往往采取主題化策略,如只針對(duì)新型站點(diǎn)資源進(jìn)行收集和整理,另外博客目錄(Blog Directory)、社會(huì)化書簽?zāi)夸浀鹊纫餐哂胁诲e(cuò)的應(yīng)用效果。

1.1.1.4 當(dāng)代著名搜索引擎

從2000年左右起,一批新型搜索引擎企業(yè)逐漸出現(xiàn),其中很大一部分搜索引擎至今還在提供服務(wù),并且成為了主導(dǎo)當(dāng)代Internet搜索引擎市場的重要力量。它們不論是在技術(shù)實(shí)力上,還是在商業(yè)運(yùn)營模式上,都比它們的前輩們?nèi)〉昧烁嗟某晒屯黄啤募夹g(shù)上看,雖然基于爬蟲或者Web目錄的傳統(tǒng)搜索引擎技術(shù)仍然還在發(fā)揮作用,但是各大新型搜索引擎所使用的核心技術(shù)已經(jīng)完全跳出了傳統(tǒng)的框架,紛紛提出自己的新技術(shù)和新方法,以期在功能和效果趕超過去的元老。從商業(yè)運(yùn)營模式上看,搜索引擎已經(jīng)成為現(xiàn)代門戶網(wǎng)站中最為常見的免費(fèi)服務(wù)之一,而且也是各大網(wǎng)站吸引用戶訪問的主要功能靚點(diǎn)。搜索引擎也從諸如競價(jià)排名等傳統(tǒng)服務(wù)開始轉(zhuǎn)型,推出一些新型的盈利模式,如Google所推出的AdSense 可以提供與網(wǎng)站的內(nèi)容相匹配的廣告,而網(wǎng)站可以在訪問者點(diǎn)擊這些廣告時(shí)獲得收益,而Google的AdWords則規(guī)定僅當(dāng)有用戶點(diǎn)擊網(wǎng)站在Google聯(lián)網(wǎng)中的廣告時(shí),網(wǎng)站才需支付相應(yīng)費(fèi)用。這些形式具有極大的創(chuàng)意,也改變了人們對(duì)搜索引擎的使用習(xí)慣和認(rèn)識(shí)。

1)Google

Google已經(jīng)成為現(xiàn)代Internet上最大的搜索引擎之一,而且在業(yè)務(wù)上已經(jīng)開始超越搜索引擎本身,開始向移動(dòng)開發(fā)、應(yīng)用軟件和操作系統(tǒng)等方向前進(jìn),成為可以和微軟等大公司抗衡的重要力量。不過,這個(gè)搜索引擎在1998年10月之前,僅僅只是個(gè)美國斯坦福大學(xué)(Stanford Unviersity)的一個(gè)小型學(xué)生項(xiàng)目。1995年,斯坦福大學(xué)計(jì)算機(jī)系博士生拉里·佩奇(Larry Page)和塞吉·布林(Sergey Brin)開始嘗試設(shè)計(jì)一個(gè)名稱為BackRub的項(xiàng)目。嚴(yán)格說來,BackRub只是一個(gè)可以統(tǒng)計(jì)分析網(wǎng)頁詞語信息的爬蟲程序。不過,佩奇和布林都認(rèn)為這個(gè)項(xiàng)目可以做下去,他們于1997年9月15日注冊(cè)了google.com的域名。Google這個(gè)名稱據(jù)說來自于“googol”[7]單詞,意思是10的100次方,這個(gè)巨大的數(shù)象征著Google能夠處理海量的Internet網(wǎng)頁信息。1999年2月,Google完成了從Alpha版到Beta版的升級(jí)[8]。通常,Google公司把1998年9月27日認(rèn)作是自己的生日,每年這個(gè)時(shí)候,Google搜索引擎的主頁Logo都會(huì)變成一個(gè)祝賀生日的模樣。

Google和前期的搜索引擎相比,采取了一系列新技術(shù),如用于網(wǎng)頁排序的Pagerank算法等,其實(shí)正是這個(gè)基于網(wǎng)頁鏈接分析的算法才使得Google具有了和以前搜索引擎完全不一樣的使用效果。另外,通過十幾年的發(fā)展,它還是開發(fā)了一大批讓人耳目一新的服務(wù),如近幾年所廣泛使用的地圖搜索和移動(dòng)搜索等。不過,正如所有成功的搜索引擎一樣,Google的成功也離不開商業(yè)上的努力。在2000年之前,Google的發(fā)展和推廣一直都不是很快。直到2000年開始為Yahoo!提供后臺(tái)搜索技術(shù)支持之后,Google才憑借Yahoo!快速發(fā)展起來,正如當(dāng)年網(wǎng)景提攜了Yahoo!一樣。在2002年到2003年間,Google連續(xù)兩年被評(píng)為互聯(lián)網(wǎng)世界第一品牌。從這以后,Google的發(fā)展就進(jìn)入了快速增長期。

不過,中國一直是Google未能始終取得輝煌的市場。事實(shí)上,Google直到2004年才進(jìn)入中國內(nèi)地。一個(gè)明顯的事實(shí)就是直到2005年4月29日Google才花費(fèi)巨資贖回了google.com.cn和google.cn的域名。這樁交易也是國內(nèi)有史以來跨國公司第一次以高價(jià)贖回與其品牌密切相關(guān)的域名,據(jù)估計(jì),為了這19個(gè)字母,Google支付的費(fèi)用應(yīng)在百萬元之上,平均每個(gè)字母價(jià)值超過5萬元[9]。在此之前,google.com.cn域名的擁有者卻是一個(gè)“創(chuàng)可貼”論壇,如圖3. 25所示:

clip_image055

圖3. 25 google.com.cn域名的前擁有者“創(chuàng)可貼”主頁界面(截取于2004-9)[10]

這種情況并非少見。直到2010年4月,還有人收藏著百度的美國域名站點(diǎn),http://www.baidu.us,期待著類似于Google故事的財(cái)富奇跡。這事實(shí)上也是一種一直以來始終存在的Internet域名收藏服務(wù),

2006年4月Google首席執(zhí)行官埃里克·施密特來到中國,將Google中文命名為“谷歌”,并開設(shè)了一個(gè)號(hào)稱最短的域名“www.g.cn”。而遺憾的是到了2010年3月Google終于宣布退出中國內(nèi)地市場,但是Google搜索引擎的強(qiáng)大搜索能力確實(shí)為中國的其他搜索引擎提供了一個(gè)良好的學(xué)習(xí)范本。Google的網(wǎng)址為:http://www.google.com,主頁如圖3. 26所示:

clip_image058

圖3. 26 Google搜索引擎的主頁界面(截取于2010-4)

2)微軟搜索引擎

讀者可以會(huì)很奇怪為什么這個(gè)標(biāo)題沒有具體的搜索引擎名稱?事實(shí)上,微軟一直都有自己的搜索引擎,而且還不止一個(gè)搜索引擎,不過這些搜索引擎一直在換。這充分反映了一個(gè)問題,那就是微軟想在搜索引擎領(lǐng)域中有所作為,然而始終沒有找到合適的突破口。不過,即便如此,也毫不妨礙微軟搜索引擎一直成為世界排名前三的著名搜索引擎之一。

微軟較早的一款著名搜索引擎是于2004年7月推出的MSN Search,可能在中國各大搜索引擎紛紛推出新版本時(shí),微軟太過于倉促,使得這款搜索引擎在剛推出時(shí)甚至都沒有簡體中文版本,而只有繁體中文版本,網(wǎng)址為:http://search.msn.com,主頁如圖3. 27所示:

clip_image060

圖3. 27 MSN Search搜索引擎的主頁界面(截取于2004-9)

到了2006年9月,微軟改用了Windows Live Search搜索引擎,網(wǎng)址為:http://www.live.com,主頁如圖3. 28所示:

clip_image062

圖3. 28 Windows Live Search搜索引擎的主頁界面(截取于2009-3)

不論是哪一款,當(dāng)時(shí)的市場反應(yīng)始終平平。為此微軟先后又推出若干個(gè)曇花一現(xiàn)的搜索引擎版本,如“杜威女士(Ms. Dewey)”就是一款號(hào)稱交互式搜索引擎的奇妙作品,它基于Windows Live Search搜索引擎的技術(shù)基礎(chǔ),但是在界面上使用Flash動(dòng)畫創(chuàng)造了一個(gè)虛擬女性助手,背景是一個(gè)現(xiàn)代城市街景。這個(gè)助手制作代價(jià)不菲,據(jù)說花了3天時(shí)間聘請(qǐng)明星雅尼娜·加萬卡(Janina Gavankar)真人錄像得到600多個(gè)視頻片段,并隨機(jī)使用以使得動(dòng)畫人物可以產(chǎn)生豐富多變的姿勢(shì)和表情,她甚至可以在用戶沒有任何輸入的閑暇時(shí)刻中拿出道具來玩耍。最為重要的是,她可以使用交互式的聲音提醒并告知用戶查詢的內(nèi)容和結(jié)果[11]。網(wǎng)址為:http://msdewey.com,主頁如圖3. 29所示:

clip_image064

圖3. 29 Ms. Dewey搜索引擎的主頁界面(截取于2009-3)

后來,微軟還采用諸如通過查詢關(guān)鍵詞來猜字謎并贏取獎(jiǎng)勵(lì)的方法來吸引用戶使用,最為夸張的是,在2008年11月,用戶還可以通過微軟搜索引擎購買惠普電腦并獲得40%的現(xiàn)金返還。然而,這些方法似乎都沒有效果。到了2007年3月,微軟在Internet搜索引擎市場的占有率已經(jīng)跌至兩年前的水平。不得已,微軟使出了最后的看家本領(lǐng),在2008年1月準(zhǔn)備以45億美元收購Yahoo!,希望兩家合并一起和Google競爭,此時(shí)的Google已經(jīng)占據(jù)了全球8成多的搜索引擎市場份額。不過,收購最終以失敗告終。

造成這種局面的原因有時(shí)很復(fù)雜,甚至都不一定是技術(shù)問題。如微軟在線用戶商業(yè)集團(tuán)高級(jí)副總裁尤瑟夫·邁瑟迪(Yusuf Mehdi)曾經(jīng)表示,微軟搜索服務(wù)不受歡迎的部分原因在于品牌不如Google。他進(jìn)一步舉例到,微軟曾做過用戶測(cè)試,在不知道用戶搜索引擎使用偏好的情況下,把微軟搜索引擎的查詢結(jié)果加上Google的Logo呈現(xiàn)在用戶面前,參測(cè)用戶無一例外地認(rèn)為,這是最好的查詢結(jié)果。事實(shí)上,現(xiàn)代搜索引擎技術(shù)已有較大的發(fā)展,用戶并不容易區(qū)別這些不同搜索引擎技術(shù)的不同之處。

2009年初,微軟開始了一個(gè)名叫Kumo的搜索引擎實(shí)驗(yàn)項(xiàng)目,并準(zhǔn)備以此來替代Live Search。Kumo在日語中為“云”和“蜘蛛”的意思。主頁如圖3. 30所示:

clip_image067

圖3. 30 Kumo實(shí)驗(yàn)搜索引擎的主頁界面(截取于2009-6)

這個(gè)名稱是不是隱含著在云計(jì)算年代中的搜索含義我們不得而知,但是我們知道,Kumo壓根就沒有正式發(fā)布。也許Kumo只是過渡產(chǎn)品,最終微軟于2009年5月發(fā)布了一個(gè)成熟的搜索引擎產(chǎn)品Bing,這個(gè)象鈴聲的單詞據(jù)說來自于一名德國百歲老人的姓氏,中文名稱為“必應(yīng)”,應(yīng)該為有求必應(yīng)之義。網(wǎng)址為:http://cn.bing.com,主頁如圖3. 31所示:

clip_image069

圖3. 31 Bing搜索引擎的主頁界面(截取于2009-6)

3)Ask

其實(shí),較Google和Bing而言,Ask搜索引擎并不算是非常著名,但是它的制作創(chuàng)意非常出色。它號(hào)稱為“自然語言搜索引擎(Natural Language Search Engine)”。也就是說,它允許用戶使用類似于口語中常見的問話句子來進(jìn)行查詢,因此易用性很強(qiáng)。

創(chuàng)建于1997年4月的Ask搜索引擎當(dāng)時(shí)的名稱是Ask Jeeves,意思是有問題可以詢問男仆,名稱很形象,問男仆難道不使用正常的句子嗎?因此早期的主頁上常常有個(gè)面帶微笑的英國男仆。不過,要想提供這種自然語句的查詢,技術(shù)難度很大,因此早期Ask搜索引擎使用人工編撰的方法來提供一些常見句子的匹配結(jié)果。后來Ask使用DirectHit搜索引擎來提供信息查詢服務(wù),此時(shí)的網(wǎng)頁查詢結(jié)果采用流行度作為主要排序指標(biāo)。2001年,Ask改用Teoma來提供查詢服務(wù),Teoma最大的特點(diǎn)在于采用網(wǎng)頁結(jié)果聚類方法來組織主題,以方便用戶快速得到所需內(nèi)容。2006年,Ask正式從Ask Jeeves更名過來。網(wǎng)址為:http://www.ask.com,主頁如圖3. 32所示:

clip_image071 clip_image073

圖3. 32 Ask搜索引擎的主頁界面(前者截取于2007-9,后者截取于2010-4)[12]

1.1.2 中國搜索引擎的發(fā)展歷史

之所以說中國搜索引擎而不說中文搜索引擎,是因?yàn)閲獾闹阉饕娲蠖荚谥袊O(shè)有公司并且營運(yùn)相應(yīng)的中文版本搜索引擎,如Google在2000年9月就推出了中文版本,2005年5月在上海開設(shè)了辦事處。我們所指的中國搜索引擎專指中國本地企業(yè)創(chuàng)辦的搜索引擎。事實(shí)上,中國本地搜索引擎的發(fā)展歷史要比國外晚的多,直到2000以后,中國內(nèi)地的搜索引擎市場才開始獲得快速發(fā)展。但是,作為全球網(wǎng)民最多的國家之一,中國一直都是各大搜索引擎廠商關(guān)注的重點(diǎn)。但是,由于中文處理的特殊性,國內(nèi)搜索引擎雖然起步晚,卻具有中文處理的先天優(yōu)勢(shì)和對(duì)中國市場更為了解的特殊能力,因此中國本地搜索引擎的發(fā)展相當(dāng)快,甚至超越了在中國營運(yùn)的國外搜索引擎巨頭。

1)百度

百度已經(jīng)成為全球最大的中文搜索引擎之一。這個(gè)詩意的名稱來自于宋詞名句“眾里尋他千百度”,巧妙表達(dá)了搜尋信息的涵義,不過也有人認(rèn)為它很有禪意。1991年畢業(yè)于北京大學(xué)信息管理系的李彥宏在獲得美國紐約州立大學(xué)布法羅分校(University at Buffalo, the State University of New York)計(jì)算機(jī)科學(xué)碩士學(xué)位后,并在Infoseek工作期間創(chuàng)建了ESP[13]技術(shù)將它成功應(yīng)用。1996年,他還首先解決了如何將基于網(wǎng)頁質(zhì)量的排序方法與基于相關(guān)性的排序方法進(jìn)行結(jié)合的問題,并因此獲得了美國專利。1999年底,李彥宏攜風(fēng)險(xiǎn)投資回國和其好友徐勇于2000年1月在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。剛起步的時(shí)候,百度主要為諸如搜狐和新浪等門戶網(wǎng)站提供搜索技術(shù)服務(wù),2001年8月開始正式提供自己的搜索引擎服務(wù)。2005年8月5日,百度赴美上市成功。另外,百度還于2004年8月收購以分類目錄為主要特色的國內(nèi)著名站點(diǎn)“hao123”,在Web目錄方面開始提供自己的服務(wù)。更為重要的是,百度還在競價(jià)排名服務(wù)等搜索引擎商業(yè)模式創(chuàng)新上取得了一定的成果。除此以外,今天的百度已經(jīng)在電子商務(wù)和社區(qū)搜索等領(lǐng)域開始了更多的嘗試。百度的網(wǎng)址為:http://www.baidu.com,主頁如圖3. 33所示:

clip_image075

圖3. 33 百度搜索引擎的主頁界面(截取于2010-4)[14]

所謂社區(qū)搜索(Community Search),是指利用某種社會(huì)交流平臺(tái)軟件,將人們存儲(chǔ)在腦海中的知識(shí)發(fā)掘出來,以解決其他用戶所要查詢的問題,也被稱為“協(xié)同搜索(Collaborative Search)”。諸如百度的“貼吧(http://tieba.baidu.com)”、“知道(http://zhidao.baidu.com)”和“百度Hi(http://im.baidu.com)”實(shí)時(shí)通訊工具,都能夠提供這種社區(qū)搜索服務(wù),對(duì)于在一個(gè)社區(qū)里面提出的一個(gè)問題,由人工參與解答而非搜索引擎通過機(jī)器自動(dòng)算法獲得結(jié)果。也有人稱之為問答式搜索或者在線百科全書等。

2)北大天網(wǎng)

很多人都不太了解北大天網(wǎng),事實(shí)上,它也不是商業(yè)公司運(yùn)作的,而是由北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室于1997年10月29日推出的搜索引擎。從實(shí)際運(yùn)行效果來看,該款搜索引擎為中國本地搜索引擎提供了大量技術(shù)人才,而且相關(guān)研究室也因此承擔(dān)了大量的搜索引擎相關(guān)學(xué)術(shù)研究工作,取得了不少成績,如北大天網(wǎng)中搜索引擎與互聯(lián)網(wǎng)信息挖掘組的李曉明、閆宏飛和王繼民所著的《搜索引擎—原理、技術(shù)與系統(tǒng)》就是一本很好的搜索引擎原理入門教程[15]。北大天網(wǎng)的網(wǎng)址為:http://e.pku.edu.cn,主頁如圖3. 34所示:

clip_image077

圖3. 34 北大天網(wǎng)搜索引擎的主頁界面(截取于2007-9)

除了具有一般的網(wǎng)頁查詢功能外,它還具有強(qiáng)大的FTP文件查詢能力,點(diǎn)擊圖3. 34中的“文件”鏈接即可查詢FTP文件資源。另外,北大天網(wǎng)還擁有一個(gè)巨大的“中國Web信息博物館”,它主要收集和展示歷史上的中國網(wǎng)頁信息內(nèi)容,目前存儲(chǔ)的網(wǎng)頁數(shù)量已達(dá)數(shù)十億以上。網(wǎng)址為:http://www.infomall.cn,主頁如圖3. 35所示:

clip_image079

圖3. 35 北大天網(wǎng)“中國Web信息博物館”的主頁界面(截取于2010-4)

國外也有類似于北大天網(wǎng)“中國Web信息博物館”的站點(diǎn),如“Internet檔案(Internet Archive)”,網(wǎng)址為:http://www.archive.org,如在其中查詢某站點(diǎn)的歷史網(wǎng)頁內(nèi)容記錄,如圖3. 36所示:

clip_image081

圖3. 36 在Internet Archive站點(diǎn)中查詢某站點(diǎn)的歷史網(wǎng)頁內(nèi)容頁面(截取于2009-4)

3)其他搜索引擎

中國本土的搜索引擎還有很多,下面對(duì)其他搜索引擎簡單做一說明。

搜狗是搜狐(Sohu)公司的子公司,1996年8月成立的搜狐公司也是最早提供網(wǎng)絡(luò)信息分類導(dǎo)航服務(wù)的網(wǎng)站,1998年2月,搜狐推出了分類目錄搜索引擎,是當(dāng)年Yahoo!搜索引擎對(duì)應(yīng)的中國版本。而搜狗則是搜狐于2004年8月3日專門推出的一款搜索引擎。據(jù)稱名稱來自于2001年電影《大腕》里的幽默臺(tái)詞“他們搜狐,我們搜狗,各搜各的!”。早期的搜狐也做搜索,但是自從推出搜狐以后,搜狐就加快了搜索引擎開發(fā)的進(jìn)度。另外,搜狗在拼音輸入等桌面應(yīng)用程序領(lǐng)域也一直表現(xiàn)不錯(cuò)。網(wǎng)址為:http://www.sogou.com,主頁如圖3. 37所示:

clip_image083

圖3. 37 搜狗搜索引擎的主頁界面(截取于2010-4)

搜狗為什么要做拼音呢?這與搜索引擎有沒有關(guān)系呢?正如搜狐副總裁王小川所言,搜索為拼音服務(wù),拼音為搜索服務(wù)。一方面從商業(yè)層次上看,拼音輸入法是一種使用面很廣的輸入法,利用這種免費(fèi)的輸入法可以極大的宣傳搜狗,增加用戶對(duì)搜狗搜索引擎的了解,擴(kuò)大搜索引擎的知名度;另一方面從技術(shù)層次上看,現(xiàn)代搜索引擎越來越重視對(duì)用戶行為的理解,認(rèn)為只有最為了解用戶需求的搜索引擎才能取得成功。利用人們?cè)谑褂幂斎敕ㄖ械脑~語組合等輸入信息可以有效的提供“線下(相對(duì)于網(wǎng)絡(luò)在線訪問而言,就是不在線的桌面應(yīng)用環(huán)境)”用戶的需求信息,以此來改進(jìn)搜索引擎,反之也可以利用搜索引擎用戶的線上查詢需求來增強(qiáng)拼音輸入法的有效性,如可以把當(dāng)前的熱門查詢?cè)~語組合排在輸入結(jié)果的前面等。

于1997年成立的網(wǎng)易是國內(nèi)第一家提供中文全文查詢服務(wù)的門戶站點(diǎn),之后經(jīng)過幾次升級(jí)并先后和Google和百度在搜索技術(shù)有過合作。同時(shí)它在創(chuàng)立時(shí)就推出了全中文搜索引擎目錄服務(wù),雖然這不是主要服務(wù)內(nèi)容。網(wǎng)易還曾經(jīng)擁有和維護(hù)著當(dāng)時(shí)唯一的開放式目錄體系中文版本(類似于著名的ODP),這個(gè)項(xiàng)目于2006年被關(guān)閉了。不過,就在2006年底,網(wǎng)易推出了自主研發(fā)的中文搜索引擎有道測(cè)試版,并于2007年12月推出正式版本。網(wǎng)址為:http://www.youdao.com,主頁如圖3. 38所示:

clip_image086

圖3. 38 有道搜索引擎的主頁界面(截取于2010-4)

雖然以門戶服務(wù)為主的新浪并非一個(gè)專業(yè)的搜索引擎,但是新浪于1999年2月2日就已經(jīng)推出了中文搜索引擎“新浪搜索”測(cè)試版,1999年10月9日,新浪還推出了高級(jí)搜索,所收集的網(wǎng)頁內(nèi)容規(guī)模和分類目錄的規(guī)范程度都比較不錯(cuò)。2000年11月1日,新浪又正式推出國內(nèi)第一家綜合搜索引擎,即可以同時(shí)對(duì)多種不同類型的信息內(nèi)容進(jìn)行同步查詢,在用戶的一次查詢過程中,就可以在結(jié)果網(wǎng)頁上獲得包含目錄、網(wǎng)站、新聞標(biāo)題、游戲等在內(nèi)的各類綜合查詢結(jié)果。2005年6月30日,新浪終于推出了專門的搜索引擎——新浪愛問搜索,網(wǎng)址為:http://www.iask.com,主頁如圖3. 39所示:

clip_image088

圖3. 39 愛問搜索引擎的主頁界面(截取于2010-4)

中搜是由“慧聰搜索”發(fā)展而來,它是由中國網(wǎng)、慧聰國際等公司共同創(chuàng)辦的中國搜索聯(lián)盟,于2002年9月正式改名為“中國搜索”,并于2003年8月推出搜索門戶,后來改稱“中搜”,網(wǎng)址為:http://www.zhongsou.com,主頁如圖3. 40所示:

clip_image090

圖3. 40 中搜搜索引擎的主頁界面(截取于2010-4)

甚至一些其他門戶站點(diǎn),如實(shí)時(shí)通訊軟件提供商騰訊也推出了自己的搜索引擎“搜搜”,網(wǎng)址為:http://www.soso.com,主頁如圖3. 41所示:

clip_image092

圖3. 41 騰訊“搜搜”搜索引擎的主頁界面(截取于2010-7)

除此以外,象中國臺(tái)灣和香港地區(qū)都有自己本地的搜索引擎。如由臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)GAIS實(shí)驗(yàn)室開發(fā)的Openfind搜索引擎成立于1998年1月,是臺(tái)灣最早開發(fā)的中文智能搜索引擎,采用GAIS實(shí)驗(yàn)室推出多元排序(PolyRank)核心技術(shù),今天的業(yè)務(wù)主要從事搜索產(chǎn)品相關(guān)服務(wù),網(wǎng)址為:http://www.openfind.com。再如中國香港搜索引擎Timway,網(wǎng)址為:http://www.timway.com。

1.2 搜索引擎的原理與工作機(jī)制

正如序言所說,本書并非技術(shù)原理類教程,因此并不打算對(duì)此話題做過多的講述。但是,通過以往的使用經(jīng)驗(yàn)表明,如果用戶對(duì)搜索引擎的基本工作機(jī)制有一些基本的了解,那么用戶可以更好的理解現(xiàn)代搜索引擎能夠做什么以及不能夠做什么,同時(shí),在使用當(dāng)中如果出現(xiàn)了問題,我們也可以更加容易知道個(gè)中原因,并有針對(duì)性的進(jìn)行改進(jìn),從而提高信息查詢的效果。因此,本節(jié)對(duì)此問題略作說明。

1.2.1 搜索引擎工作機(jī)制

從結(jié)構(gòu)上看,搜索引擎主要可以分為三個(gè)模塊,分別是網(wǎng)頁遍歷模塊、索引模塊和檢索模塊。下面我們結(jié)合搜索引擎的一個(gè)典型的工作流程,來談?wù)勊烤故侨绾芜\(yùn)行的。

假設(shè)用戶打開Google搜索引擎,鍵入“南京財(cái)經(jīng)大學(xué)”六個(gè)字,在耗費(fèi)大概0.15秒以后,用戶看到了最終的結(jié)果網(wǎng)頁,其中南京財(cái)經(jīng)大學(xué)的主頁鏈接被排在第一位,其他幾個(gè)相關(guān)站點(diǎn)分別羅列于下方,如圖3. 42所示:

clip_image094

圖3. 42 利用Google搜索引擎獲取“南京財(cái)經(jīng)大學(xué)”的查詢結(jié)果頁面(截取于2010-4)

這個(gè)短短的0.15秒究竟發(fā)生了什么呢?我們憑借直覺,感覺應(yīng)該是這樣的。搜索引擎獲取到用戶輸入的查詢?cè)~語(即所謂的關(guān)鍵詞),到Internet上去查看每一篇網(wǎng)頁內(nèi)容,并判斷網(wǎng)頁是否與所查詢的詞語相關(guān),然后把找到的網(wǎng)頁URL及其相關(guān)信息顯示給用戶即可。

這種看起來非常簡單的做法其實(shí)根本行不通。原因有很多,就說一個(gè)最為簡單的問題,那就是搜索引擎如何快速的在如此多的網(wǎng)頁中找到用戶所需的網(wǎng)頁?前文已經(jīng)說明,Google搜索引擎在2008年就已能獲取到萬億級(jí)的網(wǎng)頁數(shù)量,而且據(jù)學(xué)者Bar-Yossef和Gurevich在2006年采用隨機(jī)采樣方法的研究表明,當(dāng)時(shí)的Google搜索引擎大概只能獲取到實(shí)際Internet上64%的網(wǎng)頁[16]。可以毫不夸張的說,Internet真是一個(gè)海量的網(wǎng)頁世界。事實(shí)上,搜索引擎能夠獲取的網(wǎng)頁URL只會(huì)更多。因此,在如此多的網(wǎng)頁中,實(shí)時(shí)的在每篇網(wǎng)頁中逐字逐句的查找關(guān)鍵詞,顯然絕不可能在0.15秒完成。

讀者可能并不清楚為什么網(wǎng)頁數(shù)量和網(wǎng)頁URL數(shù)量并不一致。一般來說,一個(gè)網(wǎng)頁應(yīng)該具有一個(gè)URL,一個(gè)URL對(duì)應(yīng)一個(gè)網(wǎng)頁。對(duì)于傳統(tǒng)的靜態(tài)網(wǎng)頁而言,這是正確的。但是對(duì)于現(xiàn)在更為常見的動(dòng)態(tài)網(wǎng)頁而言,一個(gè)網(wǎng)頁完全可以對(duì)應(yīng)多個(gè)不同的URL,如下面兩個(gè)URL:

http://www.njmars.net/list.asp?boardid=4

http://www.njmars.net/list.asp?boardid=12

它們都是訪問http://www.njmars.net/list.asp網(wǎng)頁,但是后面跟著的參數(shù)并不一樣,所以讀者會(huì)發(fā)現(xiàn)它們分別打開不同的論壇欄目。

為此,搜索引擎需要事先做點(diǎn)準(zhǔn)備工作,就像從一個(gè)整理過的圖書架可以更快的找到所需要的圖書一樣。不過,搜索引擎的準(zhǔn)備工作比較復(fù)雜,可能得花費(fèi)它幾天到幾周的準(zhǔn)備時(shí)間。在這期間,它需要完成兩件重要的工作。

一是先利用爬蟲從Internet上獲取盡可能多的網(wǎng)頁,將其保存在搜索引擎自己的數(shù)據(jù)庫中。這里有兩個(gè)需要解釋的地方:一是之所以說是盡可能的多,是搜索引擎自己的技術(shù)局限性和網(wǎng)頁不斷增加的現(xiàn)狀,導(dǎo)致不可能獲取全部的網(wǎng)頁信息,通常爬蟲一秒鐘也只能獲取到不到100個(gè)網(wǎng)頁信息;二是之所以這樣做的原因是在獲取這些網(wǎng)頁后,再以它們作為用戶查詢的依據(jù),就不要在用戶查詢時(shí)再去實(shí)時(shí)查詢Internet上的網(wǎng)頁內(nèi)容。具體來看,爬蟲程序可以從一個(gè)或者幾個(gè)起始網(wǎng)頁開始,下載這些網(wǎng)頁,并將網(wǎng)頁內(nèi)容和URL等信息一起保存在搜索引擎自己的數(shù)據(jù)庫中。然后,爬蟲程序可以從這些網(wǎng)頁中進(jìn)一步得到其他網(wǎng)頁的鏈接,再次獲取這些超鏈所對(duì)應(yīng)的其他網(wǎng)頁,這個(gè)過程將不斷的進(jìn)行下去。通常這種過程我們稱之為“網(wǎng)頁遍歷”。由于不可能收集完所有的網(wǎng)頁,所以搜索引擎通常會(huì)在一段時(shí)間后或者在滿足一定條件時(shí)完成這種遍歷活動(dòng)。

因此,這時(shí)我們可以回答一個(gè)問題:為什么有時(shí)候搜索引擎找不到某些已經(jīng)存在的網(wǎng)頁?除去用戶方法錯(cuò)誤等主觀原因外,常見的一個(gè)原因就是搜索引擎可能沒有對(duì)這個(gè)網(wǎng)頁進(jìn)行遍歷和進(jìn)一步的索引,因此在利用該搜索引擎進(jìn)行查詢時(shí),用戶將無法獲得該網(wǎng)頁的任何信息。

二是需要對(duì)存儲(chǔ)在搜索引擎本地?cái)?shù)據(jù)庫的網(wǎng)頁信息進(jìn)行必要的分析和索引。分析的目的在于解析網(wǎng)頁內(nèi)容,如今天的搜索引擎可以查詢諸如Word文檔和Flash動(dòng)畫等各種常見格式的文件,這個(gè)功能就需要搜索引擎對(duì)收集來的文件信息進(jìn)行分析才能實(shí)現(xiàn)。索引過程也很復(fù)雜,細(xì)節(jié)我們可以不必關(guān)心,不過我們必須理解建立索引的必要性。如果沒有索引,對(duì)于這些數(shù)量極大的網(wǎng)頁內(nèi)容,如果采用直接掃描的方式,仍然不可能在很短的時(shí)間內(nèi)完成用戶查詢。建立索引好比是圖書館對(duì)圖書進(jìn)行重新編碼和整理,從而可以在較短的時(shí)間內(nèi)找到所需的內(nèi)容。本書的后面章節(jié)將會(huì)介紹很多具體的搜索引擎查詢方法,其實(shí)每種方法都可能需要不同的索引來處理,所以,搜索引擎的索引量非常大。優(yōu)秀的索引方法可以極大了提高查詢速度,甚至可以達(dá)到在毫秒級(jí)的查詢響應(yīng)能力。

到此,搜索引擎就完成了必要的準(zhǔn)備工作,開始提供查詢服務(wù)。在用戶輸入查詢關(guān)鍵詞后,搜索引擎利用該關(guān)鍵詞到索引中去查詢對(duì)應(yīng)的網(wǎng)頁,并將命中的網(wǎng)頁URL和諸如摘要等相關(guān)信息整理出來。由于可能會(huì)命中數(shù)以萬計(jì)的網(wǎng)頁結(jié)果,所以通常搜索引擎只顯示部分結(jié)果,其他的內(nèi)容放在“下一頁”中顯示。因此,這里又產(chǎn)生一個(gè)重要問題,把什么網(wǎng)頁放在第一頁呢?又根據(jù)什么把什么網(wǎng)頁放在第一條呢?可以想象,應(yīng)該把用戶最想得到的網(wǎng)頁結(jié)果放在第一頁的第一條。這就需要搜索引擎具有相關(guān)度排序能力。所謂相關(guān)度,可以理解為滿足用戶需求的程度。由于每個(gè)搜索引擎的相關(guān)度排序方法都不一樣,所以即便是同一個(gè)關(guān)鍵詞,不同的搜索引擎返回結(jié)果也往往具有非常明顯的差異。

圖3. 42所示的Google返回結(jié)果把“南京財(cái)經(jīng)大學(xué)”學(xué)校主頁放在第一頁的第一條,顯然是正確的。事實(shí)上,Google就是因?yàn)槭褂昧吮环Q為PageRank的高級(jí)網(wǎng)頁相關(guān)度排序方法才取得比較好的效果,才在很短的時(shí)間內(nèi)快速成長為一家著名的搜索引擎公司[17]。而百度創(chuàng)始人李彥宏當(dāng)年發(fā)明的超鏈分析技術(shù)也是這樣的網(wǎng)頁相關(guān)度排序方法??梢妼?duì)于搜索引擎而言,這種網(wǎng)頁相關(guān)度排序技術(shù)非常重要,尤其在強(qiáng)調(diào)網(wǎng)頁結(jié)果查準(zhǔn)率高的現(xiàn)在更是如此。

我們又可以回答一個(gè)問題了:為什么搜索引擎的有些結(jié)果網(wǎng)頁打不開?此時(shí)瀏覽器會(huì)顯示“無法找到該頁”,如圖3. 43所示:

clip_image096

圖3. 43 某些通過搜索引擎查詢到的不能打開的網(wǎng)頁界面(截取于2010-4)

更為奇怪的是,有時(shí)打開某些結(jié)果網(wǎng)頁,你會(huì)發(fā)現(xiàn)這個(gè)網(wǎng)頁壓根就沒有你所要的內(nèi)容。其實(shí)造成這些現(xiàn)象的原因可能都是一樣。因?yàn)樗阉饕姹闅v和索引網(wǎng)頁是需要一定時(shí)間,也許在當(dāng)時(shí)爬蟲遍歷網(wǎng)頁時(shí),這些網(wǎng)頁還存在或者還有某些關(guān)鍵詞信息,但是到用戶查詢的時(shí)候,這些網(wǎng)頁可能已經(jīng)被刪除,這時(shí)會(huì)出現(xiàn)上述“無法找到該頁”的錯(cuò)誤,或者網(wǎng)頁URL還有效,但是內(nèi)容已經(jīng)被修改,所以壓根就沒有用戶現(xiàn)在所要的內(nèi)容。

不過,這個(gè)問題并非不能解決。搜索引擎結(jié)果頁面每條命中網(wǎng)頁記錄后的“網(wǎng)頁快照”就提供了一種獲取搜索引擎所存儲(chǔ)的網(wǎng)頁原始內(nèi)容的能力。在上述情況出現(xiàn)的時(shí)候,可以通過使用網(wǎng)頁快照獲取所需內(nèi)容,如圖3. 44所示:

clip_image098

圖3. 44 百度搜索引擎中“南京財(cái)經(jīng)大學(xué)”命中結(jié)果網(wǎng)頁的網(wǎng)頁快照(截取于2010-4)

1.2.2 查詢結(jié)果的顯示模式和排序依據(jù)

同樣的查詢“南京財(cái)經(jīng)大學(xué)”在百度中的搜索結(jié)果如圖3. 45所示:

clip_image100

圖3. 45 利用百度搜索引擎獲取“南京財(cái)經(jīng)大學(xué)”的查詢結(jié)果頁面(截取于2010-4)

和圖3. 42所示的Google返回結(jié)果相比,兩者的區(qū)別比較明顯。不過,我們也能看到它們都有一種同樣的模式。一般而言,每個(gè)命中網(wǎng)頁都會(huì)給出諸如網(wǎng)頁URL、網(wǎng)頁標(biāo)題、網(wǎng)頁摘要等內(nèi)容。其中網(wǎng)頁標(biāo)題通常就是一個(gè)指向網(wǎng)頁URL的超文本,而且網(wǎng)頁URL還會(huì)以綠色顯示在網(wǎng)頁記錄的最底下,網(wǎng)頁摘要?jiǎng)t僅僅是網(wǎng)頁內(nèi)容中含有關(guān)鍵詞的一段文字,這些內(nèi)容中含有關(guān)鍵詞的部分通常都會(huì)紅色高亮顯示以示強(qiáng)調(diào)。除此以外,有時(shí)搜索引擎還會(huì)給出網(wǎng)頁更新時(shí)間(如2010-4-7)、網(wǎng)頁大小(如2K[18])等。再如,如果安裝了Google的工具欄,還能夠看到網(wǎng)頁的PageRank值等。

當(dāng)然,在結(jié)果網(wǎng)頁列表中,最令用戶關(guān)心的其實(shí)還是命中網(wǎng)頁的次序,這好比是梁山好漢的座次,越靠前越說明該結(jié)果網(wǎng)頁越重要和越相關(guān)。前文說過,這是相關(guān)度排序方法在起作用。不過,有一個(gè)問題需要回答:搜索引擎是根據(jù)什么來排序的?往往在不同的搜索引擎結(jié)果中網(wǎng)頁次序的差異非常大,即便是同一個(gè)搜索引擎的結(jié)果都會(huì)因?yàn)榘姹静煌芯薮蟛町?。有一個(gè)有趣的站點(diǎn)給出了Google英文版和Google中文版的顯示結(jié)果差異圖,網(wǎng)址為:http://www.langreiter.com/exec/google-vs-google.html,如圖3. 46所示:

clip_image102

圖3. 46 給出Google英文版和Google中文版在查詢“China”時(shí)的顯示結(jié)果差異(截取于2010-4)

早期的搜索引擎一般都是按照比較傳統(tǒng)的方法來對(duì)網(wǎng)頁進(jìn)行排序,大概有如下幾種方法:

一是按照詞語出現(xiàn)的次數(shù),即詞語頻率,簡稱為詞頻。如果網(wǎng)頁A出現(xiàn)了10次“貓”,顯然比只出現(xiàn)一次“貓”的網(wǎng)頁B更能反映與查詢?cè)~“貓”的相關(guān)性。因此,如果一個(gè)網(wǎng)頁含有的查詢?cè)~語越多,一般可以認(rèn)為該網(wǎng)頁和該查詢?cè)~語的相關(guān)度越大。

二是按照詞語出現(xiàn)的位置。如果網(wǎng)頁A在標(biāo)題中出現(xiàn)了“貓”,顯然要比在正文中出現(xiàn)“貓”的網(wǎng)頁B更能反映與查詢?cè)~“貓”的相關(guān)性。因此,搜索引擎可以根據(jù)詞語出現(xiàn)位置的不同分別設(shè)置不同的權(quán)重值,以此反映這種位置不同所產(chǎn)生的相關(guān)度差異。

不過,這些方法都存在著一個(gè)致命的問題。誰不想讓自己的網(wǎng)頁排在搜索引擎返回網(wǎng)頁結(jié)果的前面呢?網(wǎng)絡(luò)管理員完全可以通過在自己的網(wǎng)頁中重復(fù)或者故意在重要位置添加一些流行關(guān)鍵詞,從而獲得本來并不應(yīng)該獲得的次序提升。我們把這種行為稱為“搜索引擎作弊(Search Engine Spam)”。而早期的搜索引擎無一例外都存在著這種被欺騙的可能性。

如同評(píng)價(jià)一個(gè)人,他自己說怎么怎么好是沒有用的,而憑借詞頻和詞語出現(xiàn)位置來評(píng)價(jià)網(wǎng)頁相關(guān)性就如同采用這樣的自我評(píng)價(jià)方法一樣缺乏客觀性。顯然,更為客觀的方法應(yīng)該是由別人來評(píng)價(jià)。對(duì)于網(wǎng)頁而言,這種所謂的別人評(píng)價(jià)方法存在嗎?完全存在,這就是超鏈。

我們做一個(gè)分析。如果在查詢某一個(gè)詞語時(shí),有一個(gè)Yahoo!的網(wǎng)頁和某個(gè)用戶的個(gè)人博客網(wǎng)頁都被命中,那么哪個(gè)網(wǎng)頁更可能與當(dāng)前查詢用戶的信息需求相關(guān)呢?雖然我們沒有具體考察這些網(wǎng)頁的內(nèi)容,但是憑感覺,或者說有相當(dāng)大的概率可以保證,Yahoo!的網(wǎng)頁可能更相關(guān),因?yàn)閅ahoo!網(wǎng)站知名度高。為什么說Yahoo!網(wǎng)站知名度高呢?因?yàn)橛泻芏郔nternet上的網(wǎng)頁都有指向Yahoo!網(wǎng)站網(wǎng)頁的超鏈。對(duì)于這種超鏈,Yahoo!自己無法控制,它們是由其他人在自己網(wǎng)頁中建立的,從而較為客觀和間接的反映出目標(biāo)網(wǎng)頁的質(zhì)量和相關(guān)性。事實(shí)上,Google的PageRank和百度的超鏈分析技術(shù)都基于這種思想來給結(jié)果網(wǎng)頁進(jìn)行排序,實(shí)踐證明該方法很有效。然而,不可否認(rèn)的是,即便是這種方法,現(xiàn)在也仍然受到多方面的挑戰(zhàn),甚至催生出一種新的職業(yè):SEO(Search Engine Optimizer,搜索引擎優(yōu)化師),言下之意就是利用搜索引擎排序方法的特點(diǎn),有意識(shí)的對(duì)目標(biāo)網(wǎng)頁建立一些超鏈從而獲得查詢結(jié)果次序的提升。搜索引擎允許正當(dāng)?shù)膬?yōu)化提升行為,但是會(huì)檢測(cè)那些惡意的提升行為。2006年德國的寶馬汽車公司就因?yàn)檫@種惡意提升行為而遭到Google的封殺,以至于當(dāng)時(shí)從Google搜索引擎中再也無法找到德國寶馬汽車公司的網(wǎng)站信息,人們形象的稱之為“Google死刑”。

不過,細(xì)心的讀者可能還會(huì)發(fā)現(xiàn)百度結(jié)果網(wǎng)頁的右邊還有一組網(wǎng)頁結(jié)果,這是怎么回事?其實(shí),搜索引擎早已注意到這種排序機(jī)制對(duì)于企業(yè)產(chǎn)品營銷是非常重要的,與其你們你搶我奪的來爭,不如我搜索引擎自己來賣。搜索引擎可以通過競價(jià)出售的方式來銷售某些流行關(guān)鍵詞的排序位置,這也是現(xiàn)代搜索引擎一種重要的商業(yè)盈利模式。有些搜索引擎將這些競價(jià)排名的網(wǎng)頁和一般的網(wǎng)頁結(jié)果混合在一起,而諸如百度等搜索引擎則在結(jié)果網(wǎng)頁的右邊單獨(dú)顯示這些付費(fèi)排序結(jié)果內(nèi)容。不管怎么說,競價(jià)排名也成為一種重要的排序指標(biāo)。

更有意思的是,有些搜索引擎甚至還允許用戶自主選擇排序依據(jù),如北大天網(wǎng)的FTP搜索引擎,就可以根據(jù)“相關(guān)”、“時(shí)間”、“大小、“距離”和“穩(wěn)定”等指標(biāo)由用戶自主選擇排序依據(jù),從而方便用戶使用,比如,如果要下載的文件較大,則可以按照“大小”排序把大文件放在前面。頁面如圖3. 47所示:

clip_image104

圖3. 47 北大天網(wǎng)FTP搜索引擎可以根據(jù)多種指標(biāo)對(duì)結(jié)果進(jìn)行排序(截取于2004-9)

最后說明一點(diǎn),由于搜索引擎爬蟲程序會(huì)定期重新遍歷網(wǎng)頁,更新網(wǎng)頁索引數(shù)據(jù)庫,所以搜索結(jié)果和結(jié)果網(wǎng)頁的次序并非始終保持不變。有時(shí)這些結(jié)果網(wǎng)頁甚至?xí)@示出劇烈的排名波動(dòng),有的網(wǎng)站會(huì)在查詢結(jié)果中突然消失再也找不到,而有的網(wǎng)站則突然名列首位。如Google搜索引擎數(shù)據(jù)庫每月會(huì)有一次大規(guī)模的升級(jí),產(chǎn)生的這種波動(dòng)現(xiàn)象被人形象的稱之為“Google之舞(Google Dance)”。

1.3 特種搜索引擎

除了Web網(wǎng)頁搜索引擎外,Internet網(wǎng)絡(luò)上還有很多特殊類型的搜索引擎,如元搜索引擎、FTP搜索引擎、多媒體搜索引擎和地圖搜索引擎等。這些都能夠給用戶提供一些具有特殊功能的查詢方法,它們對(duì)Web網(wǎng)頁搜索引擎也是一種很好的功能補(bǔ)充。

1.3.1 元搜索引擎

元搜索引擎的原理和一般搜索引擎并不一樣,它并沒有采用標(biāo)準(zhǔn)的爬蟲和索引數(shù)據(jù)庫等復(fù)雜的結(jié)構(gòu),相反,它非常簡單。

為什么要使用元搜索引擎?元搜索引擎是如何工作的?在回答這些問題之前,我們先來看看傳統(tǒng)Web搜索引擎可能存在的問題。事實(shí)上,由于各個(gè)Web搜索引擎所使用的爬蟲技術(shù)和索引技術(shù)都各不相同,而且都把實(shí)現(xiàn)細(xì)節(jié)作為核心秘密并不對(duì)外公開,所以就使得各個(gè)Web搜索引擎的差異很大,比如現(xiàn)代搜索引擎的相關(guān)度排序算法都各不相同,通常任何兩個(gè)搜索引擎都會(huì)對(duì)同一個(gè)查詢?cè)~語提供完全不一樣的結(jié)果,如查詢“期貨行情”,百度的查詢結(jié)果和Google的查詢結(jié)果如圖3. 48所示:

clip_image106 clip_image108

圖3. 48 在百度和Google中查詢“期貨行情”的不同顯示結(jié)果頁面(截取于2010-7)

這就會(huì)造成一些困惑,究竟什么網(wǎng)頁是用戶最想得到的?而且不同的搜索引擎優(yōu)點(diǎn)和強(qiáng)項(xiàng)也各不一樣,經(jīng)常有人形象的說“內(nèi)事問百度,外事問Google”,說白一點(diǎn),就是百度查詢中文信息更為方便一些,而Google查詢外文信息則更為強(qiáng)大。

能不能把所有搜索引擎的功能結(jié)合起來提供一個(gè)更為強(qiáng)大的搜索引擎?這就是元搜索引擎。一般而言,元搜索引擎往往能夠提供更為方便和強(qiáng)大的查詢界面接口,用戶使用起來更為方便,如有的元搜索引擎增加了時(shí)間查詢功能,有些還能夠?qū)⒕W(wǎng)頁查詢、詞典查詢、百科查詢和尋人服務(wù)等全部結(jié)合成一個(gè)一站式的查詢站點(diǎn)。當(dāng)然,元搜索引擎自身沒有任何爬蟲和索引,不過它會(huì)將用戶的查詢轉(zhuǎn)發(fā)到其他真正的Web搜索引擎中,一般的轉(zhuǎn)發(fā)方式是轉(zhuǎn)發(fā)給多個(gè)搜索引擎,然后將獲取到的不同搜索引擎的查詢結(jié)果集中起來,按照自己提出的相關(guān)度排序算法重新排序和篩選,整理出最終的查詢結(jié)果返回給用戶。復(fù)雜的轉(zhuǎn)發(fā)方式甚至可以根據(jù)用戶查詢的不同而轉(zhuǎn)發(fā)到不同的搜索引擎和一些信息查詢站點(diǎn),以充分發(fā)揮其他搜索引擎和信息查詢站點(diǎn)的特殊優(yōu)勢(shì),最終也把結(jié)果整理后返回給用戶。所有這些處理步驟用戶都是看不見的,用戶唯一能夠感受到的只有一個(gè)功能更為強(qiáng)大和全面的搜索引擎,那就是元搜索引擎。

不妨做個(gè)比喻,比如火車訂票,如果直接到火車站去購票,雖然可以直接獲得所需的車票,但是有時(shí)并不方便。借助票務(wù)公司,上述缺點(diǎn)都可以很好的得以解決,雖然他們的火車票最終仍然來自于火車站。用戶直接把請(qǐng)求提交給票務(wù)公司,票務(wù)公司利用火車站的資源,通過增加自己的服務(wù)內(nèi)容以方便用戶使用,最終將火車票返回給用戶。我們可以把火車站看成是一個(gè)搜索引擎,而把票務(wù)公司看成是元搜索引擎,而用戶的買票則可以看成是信息查詢。

目前,主要的元搜索引擎有兩種類型:元搜索引擎站點(diǎn)和桌面元搜索引擎。

1.3.1.1 元搜索引擎站點(diǎn)

元搜索引擎站點(diǎn)是以Web網(wǎng)站的形式提供服務(wù),和一般的搜索引擎相比,外觀和使用方式十分相似。它們有Metacrawler、iTools和Dogpile等。

1)Metacrawler

最早的元搜索引擎就是于1995年由華盛頓大學(xué)(University of Washington)學(xué)生埃里克·塞爾伯格(Eric Selberg)和奧林·艾茲尼(Oren Etzioni)設(shè)計(jì)的Metacrawler,現(xiàn)在它主要利用Google、Yahoo!、Bing和Ask等搜索引擎來提供查詢服務(wù)。它的名字直接翻譯過來就是“元爬蟲”,這恐怕也是元搜索引擎名稱中那個(gè)“元”的來歷。它的網(wǎng)址為:http://www.metacrawler.com,主頁如圖3. 49所示:

clip_image110

圖3. 49 Metacrawler元搜索引擎的主頁界面(截取于2010-7)

值得注意的是,該元搜索引擎不能很好的支持中文信息查詢。如查詢“Investment(投資)”,結(jié)果頁面如圖3. 50所示:

clip_image112

圖3. 50 在Metacrawler元搜索引擎中查詢“Investment”的結(jié)果頁面(截取于2010-7)

除了能夠在網(wǎng)頁上部看到明顯的“View Results From(查看結(jié)果來自于)”說明外,每條記錄的后面都跟有諸如“Found on Google, Bing, Yahoo! Search(在Google,Bing,Yahoo! 中查詢到)”之類的說明,不同的命中結(jié)果都會(huì)跟隨不一樣的來源搜索引擎名稱,而且這些結(jié)果的內(nèi)容和排序都和后臺(tái)搜索引擎并不一樣。Metacrawler還在結(jié)果網(wǎng)頁中提供很多更為強(qiáng)大的查詢功能。如擴(kuò)展查詢,它顯示在頁面的右部,標(biāo)題為“Are you looking for(你是不是要找)”。同時(shí),還有歷史查詢記錄(Recent Searches)和流行查詢?cè)~(Popular Searches)。

除了這些功能外,Metacrawler還具有黃頁查詢和百頁查詢等高級(jí)功能,其中黃頁查詢包括了Metacrawler提供的百頁查詢服務(wù),即尋人服務(wù)。在Metacrawler主頁點(diǎn)擊“Yellow Pages(黃頁)”,即可看到黃頁查詢頁面,如圖3. 51所示:

clip_image114

圖3. 51 Metacrawler元搜索引擎提供的黃頁查詢(截取于2010-7)

在此用戶可以查詢企業(yè)、個(gè)人和地圖等信息,Metacrawler通過Superpages黃頁站點(diǎn)[19]返回公司目錄信息,通過Intelius尋人查詢站點(diǎn)[20]來提供尋人服務(wù)。如查詢“Microsoft(微軟)”的公司信息,查詢結(jié)果如圖3. 52所示:

clip_image116

圖3. 52 在Metacrawler元搜索引擎黃頁查詢中查詢“Microsoft”的結(jié)果頁面(截取于2010-7)

2)iTools

iTools也是一款非常不錯(cuò)的Web元搜索引擎。和Metacrawler相比,它所收錄的搜索引擎和提供的功能更多。網(wǎng)址為:http://www.itools.com,主頁如圖3. 53所示:

clip_image118

圖3. 53 iTools元搜索引擎的主頁界面(截取于2010-7)

iTools也不能很好的支持中文查詢,但是它提供的查詢功能確實(shí)太多,主要分為三大類,分別是“Search Tools(查詢工具)”、“Language Tools(語言工具)”和“Research Tools(研究工具)”。所有的工具都有默認(rèn)的搜索引擎或者查詢站點(diǎn),用戶可以更改這些設(shè)定。在頁面的左邊有一個(gè)列表,比如點(diǎn)擊“Search Tools(查詢工具)”即可看到查詢工具的默認(rèn)搜索引擎設(shè)置,并可以更改,不過和Metacrawler能夠同時(shí)查詢多個(gè)搜索引擎不一樣,iTools中的一個(gè)查詢功能只能設(shè)定一個(gè)默認(rèn)的搜索引擎來查詢,頁面如圖3. 54所示:

clip_image120

圖3. 54 在iTools元搜索引擎中更改默認(rèn)的查詢工具設(shè)置(截取于2010-7)

對(duì)于語言工具和研究工具而言,iTools的功能也非常多,如語言工具中利用Merriam-Webster(韋氏詞典)提供的詞典服務(wù)和利用微軟Encarta在線百科全書提供的百科全書查詢服務(wù)等。相關(guān)查詢界面如圖3. 55所示:

clip_image122

圖3. 55 iTools元搜索引擎提供的語言工具和研究工具(截取于2010-7)

1.3.1.2 桌面元搜索引擎

由于元搜索引擎實(shí)現(xiàn)難度小,完全可以將其制作成一個(gè)可以運(yùn)行在計(jì)算機(jī)上的應(yīng)用程序,這樣用戶只需打開這個(gè)程序就可以使用元搜索引擎的各項(xiàng)功能。這種程序被稱為桌面元搜索引擎。這些軟件大多都可以從Internet中下載,一般的軟件下載站點(diǎn)中“網(wǎng)絡(luò)工具”的“網(wǎng)絡(luò)搜索”欄目都會(huì)有收藏。

1)颶風(fēng)搜索通

它是一個(gè)桌面應(yīng)用程序,可以將用戶查詢轉(zhuǎn)發(fā)到包括百度、Google等在內(nèi)共7個(gè)搜索引擎,并將結(jié)果集中顯示在該程序界面中。如查詢“匯率”相關(guān)網(wǎng)頁結(jié)果,用戶能夠看到明顯的在各個(gè)搜索引擎中查詢結(jié)果的獲取進(jìn)度,界面如圖3. 56所示:

clip_image124

圖3. 56 在颶風(fēng)搜索通中查詢“匯率”的程序運(yùn)行界面(截取于2010-7)

點(diǎn)擊具體的每一個(gè)搜索引擎,可以看到該搜索引擎的查詢結(jié)果,如圖3. 57所示:

clip_image126

圖3. 57 在颶風(fēng)搜索通中查詢百度搜索引擎獲取的“匯率”相關(guān)網(wǎng)頁結(jié)果(截取于2010-7)

該桌面搜索引擎還可以允許用戶通過提交自定義搜索引擎來擴(kuò)展系統(tǒng)的查詢功能。

2)搜索奇兵

該系統(tǒng)功能更為強(qiáng)大一些,不僅可以對(duì)多個(gè)搜索引擎進(jìn)行同步查詢,而且還增加了諸如過濾重復(fù)域名、按更新時(shí)間排序、驗(yàn)證網(wǎng)址方法是否更加先進(jìn)與穩(wěn)定、過濾不合適字詞等功能,這些功能都是對(duì)現(xiàn)有搜索引擎功能的擴(kuò)充和完善。如查詢“iphone”的相關(guān)查詢結(jié)果界面如圖3. 58所示:

clip_image128

圖3. 58 在搜索奇兵中查詢“iphone”相關(guān)網(wǎng)頁結(jié)果(截取于2010-7)

1.3.2 FTP搜索引擎

FTP是早期Internet所提供的文件查詢服務(wù),但是隨著WWW服務(wù)的出現(xiàn),FTP并沒有消失,相反,人們?cè)诤芏嗲闆r下仍然需要使用這種功能,特別是在查詢音樂、軟件、電子書或者視頻等文件信息的時(shí)候,利用FTP可以一步到位的找到所需文件。Internet上現(xiàn)在仍有很多FTP服務(wù)器在運(yùn)行,其中相當(dāng)一部分是免費(fèi)的FTP服務(wù)器。然而,我們需要知道哪個(gè)FTP服務(wù)器上有哪些文件,這也是早期Archie出現(xiàn)的原因之一。

和元搜索引擎一樣,在Internet上有專門的基于WWW方式訪問的FTP搜索引擎站點(diǎn)和桌面FTP搜索引擎程序,這些不論是在功能上還是界面易用度上,都比早期的Archie等工具更為優(yōu)秀。

1.3.2.1 FTP搜索引擎站點(diǎn)

1)北大天網(wǎng)

它是一款國內(nèi)較為著名的FTP搜索引擎,由北京大學(xué)計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室運(yùn)行維護(hù)。它提供了網(wǎng)頁查詢和FTP文件查詢兩種主要功能。網(wǎng)址為:http://e.pku.edu.cn,主頁如圖3. 59所示:

clip_image130

圖3. 59 北大天網(wǎng)FTP搜索引擎的主頁界面(截取于2005-12)

點(diǎn)擊主頁上的“搜索文件”就可以查詢FTP文件。如查詢開發(fā)工具“JDK”的軟件包文件,可以直接在搜索框中輸入“JDK”,即可得到命中結(jié)果。和一般的Web搜索引擎不一樣的地方在于,這些命中結(jié)果都是可以直接下載的FTP文件鏈接,界面如圖3. 60所示:

clip_image132

圖3. 60 在北大天網(wǎng)FTP搜索引擎中查詢“JDK”的相關(guān)FTP文件結(jié)果頁面(截取于2005-12)

北大天網(wǎng)還允許用戶對(duì)結(jié)果按照不同指標(biāo)進(jìn)行排序已得到合適的結(jié)果次序。同時(shí)借助FTP搜索引擎,我們還可以得到更多的相關(guān)查詢結(jié)果。比如既然命中的FTP服務(wù)器上有JDK的相關(guān)文件,那么它就應(yīng)該還具有與此相關(guān)的更多資源。如在上述結(jié)果界面中點(diǎn)擊“資源位置”鏈接,即可打開相應(yīng)結(jié)果所在的FTP服務(wù)器文件目錄,從中可以看出與JDK相關(guān)的其他一些開發(fā)工具也都可以下載使用,界面如圖3. 61所示:

clip_image134

圖3. 61 在北大天網(wǎng)FTP搜索引擎中進(jìn)一步查詢與“JDK”相關(guān)的其他FTP文件結(jié)果(截取于2005-12)

2)Grid FTP搜索引擎

它是由中國科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)信息中心網(wǎng)絡(luò)技術(shù)研究中心運(yùn)行維護(hù)的FTP搜索引擎,既可以進(jìn)行中國科學(xué)技術(shù)大學(xué)的校園FTP資源查詢,也可以用于Internet中FTP資源的查詢。在功能上,它可以查詢諸如文件和影視等各種常見FTP資源。網(wǎng)址為:http://grid.ustc.edu.cn,主頁如圖3. 62所示:

clip_image136

圖3. 62 Grid FTP搜索引擎的主頁界面(截取于2010-7)

3)FileWatcher(文件看守者)

它是一款國外的FTP搜索引擎。除了支持一般的FTP文件名稱查詢外,還支持部分文件內(nèi)容的查詢功能,甚至提供了很多布爾查詢和模糊查詢功能。網(wǎng)址為:http://www.filewatcher.com,主頁如圖3. 63所示:

clip_image138

圖3. 63 FileWatcher FTP搜索引擎的主頁界面(截取于2010-7)

比如查詢“carrace(賽車游戲)”,界面如圖3. 64所示:

clip_image140

圖3. 64 在FileWatcher FTP搜索引擎中查詢“carrace”的結(jié)果頁面(截取于2010-7)

所有的查詢結(jié)果文件只要能夠找得到,一般都可以直接點(diǎn)擊下載,這是FTP搜索引擎最為重要的一個(gè)特點(diǎn)。

FileWatcher另一個(gè)非常強(qiáng)大的地方在于它還支持正則查詢(Regex Query)。比如正則查詢表達(dá)式“^car*game”就表示“以car開頭并后接game”的相關(guān)詞語,查詢結(jié)果如圖3. 65所示:

clip_image142

圖3. 65 在FileWatcher FTP搜索引擎中進(jìn)行正則查詢“^car*game”的結(jié)果頁面(截取于2010-7)

1.3.2.2 桌面FTP搜索引擎

此類桌面FTP搜索引擎有很多。和桌面元搜索引擎一樣,這些軟件也多位于下載站點(diǎn)中“網(wǎng)絡(luò)工具”的“網(wǎng)絡(luò)搜索”欄目。此類搜索引擎軟件不帶有自己的索引,往往只提供一個(gè)類似于爬蟲的搜索程序,可以掃描FTP服務(wù)器來獲取相應(yīng)的文件資源信息。

FTP搜索利器就是一款常見的桌面FTP搜索引擎軟件,該軟件允許用戶設(shè)置起始IP和結(jié)束IP,并自動(dòng)掃描此IP段的所有的FTP服務(wù)器,并可以瀏覽相應(yīng)FTP服務(wù)器下的所有文件信息。程序界面如圖3. 66所示:

clip_image144

圖3. 66 FTP搜索利器的程序運(yùn)行界面(截取于2010-7)

1.3.3 多媒體搜索引擎

從概念上看,多媒體搜索引擎是相對(duì)于一般文本搜索引擎而言的,也就是說,利用該搜索引擎用戶可以查詢諸如圖片、視頻和音頻等多媒體信息。事實(shí)上,現(xiàn)階段的大多數(shù)搜索引擎都支持多媒體查詢功能,如百度的MP3搜索和Google的圖片搜索等。

然而,現(xiàn)階段的多媒體搜索引擎都是利用文字信息來查詢,這種方式被稱之為基于文本(Text-based)的多媒體查詢方法。雖然看起來比較簡單和易于使用,但是由于一般的多媒體數(shù)據(jù)信息通常都會(huì)缺乏必要的文字信息說明,而且在現(xiàn)階段人們還難以有效和快速的從多媒體信息中抽取文字信息內(nèi)容,所以利用文字信息進(jìn)行查詢的效果通常都不是很好。

隨著技術(shù)的發(fā)展,人們也逐漸推出了一些更為高級(jí)的利用多媒體信息自身特征數(shù)據(jù)進(jìn)行查詢的方法,如按照音樂風(fēng)格和圖片顏色等方法,這種方式被稱之為基于內(nèi)容(Content-based)的多媒體查詢方法。

本節(jié)分別介紹圖片搜索引擎、音樂搜索引擎和視頻搜索引擎等三種最為常見的多媒體搜索引擎,同時(shí)對(duì)基于文本的查詢方法和基于內(nèi)容的查詢方法也分別予以說明。

1.3.3.1 圖片搜索引擎

比如百度的圖片搜索引擎,用戶可以從百度的主頁選擇“圖片”進(jìn)入,也可以直接進(jìn)入它的網(wǎng)址,為:http://image.baidu.com,主頁如圖3. 67所示:

clip_image146

圖3. 67 百度圖片搜索引擎的主頁界面(截取于2010-7)

比如想查詢中國工商銀行的標(biāo)志圖片,可以直接輸入“中國工商銀行標(biāo)志”,查詢結(jié)果如圖3. 68所示:

clip_image148

圖3. 68 在百度圖片搜索引擎中查詢“中國工商銀行標(biāo)志”的結(jié)果頁面(截取于2010-7)

雖然此次查詢效果不錯(cuò),但也需要掌握很多的查詢方法和注意事項(xiàng)。

首先應(yīng)當(dāng)理解,這種基于文字的多媒體查詢對(duì)于較為常見的普通查詢效果一般都不錯(cuò),但是對(duì)于功能較為獨(dú)特、專指性較強(qiáng)的查詢而言,則效果往往不甚理想。如查詢“南京財(cái)經(jīng)大學(xué)信息工程學(xué)院”,查詢結(jié)果如圖3. 69所示:

clip_image150

圖3. 69 在百度圖片搜索引擎中查詢“南京財(cái)經(jīng)大學(xué)信息工程學(xué)院”的結(jié)果頁面(截取于2010-7)

顯然結(jié)果不夠理想,這些圖片都是南京財(cái)經(jīng)大學(xué)的校園圖片。造成這種現(xiàn)象的主要原因有兩個(gè):一個(gè)相關(guān)圖片可能確實(shí)很少,二是相關(guān)圖片可能沒有足夠的有效文字進(jìn)行描述,因此無法查詢出來。

第二是要注意準(zhǔn)確表達(dá)用戶查詢需求。如查詢蘋果公司的著名標(biāo)記,直接輸入“蘋果”,查詢結(jié)果多為水果類圖片,如圖3. 70所示:

clip_image152

圖3. 70 在百度圖片搜索引擎中查詢“蘋果”的結(jié)果頁面(截取于2010-7)

此時(shí)可以考慮使用其他圖片搜索引擎,更換查詢?cè)~語或者采用更多的文本查詢策略等方法,這些內(nèi)容在下一章有專門說明。

第三可以考慮使用一些基于內(nèi)容的查詢方法,如在百度圖片搜索引擎中,我們能夠在搜索框下方看到諸如“新聞圖片”、“全部圖片”、“壁紙”、“表情”和“頭像”之類的類別說明,甚至還有更為高級(jí)的“圖片尺寸”和“圖片顏色”,其中“圖片顏色”就可以看成是一種典型的基于內(nèi)容的查詢方法,如選擇“黑色”,因?yàn)樘O果水果不可能為黑色,相反一些產(chǎn)品商標(biāo)則更易于采用黑色之類的典雅設(shè)計(jì)方案,查詢結(jié)果如圖3. 71所示:

clip_image154

圖3. 71 在百度圖片搜索引擎“蘋果”查詢結(jié)果頁面中選擇“黑色”圖片(截取于2010-7)

隨著技術(shù)的發(fā)展,現(xiàn)代圖片搜索引擎的查詢功能更為完善和豐富,如Idée公司實(shí)驗(yàn)室[21]推出的幾款基于顏色和圖片相似度的搜索引擎系統(tǒng)等。如其中基于顏色的圖片搜索引擎允許用戶選擇圖片所具有的顏色,自由查詢相應(yīng)的圖片,結(jié)果如圖3. 72所示:

clip_image156

圖3. 72 在Idée公司實(shí)驗(yàn)室圖片搜索引擎中根據(jù)顏色查詢圖片的結(jié)果頁面(截取于2010-7)

1.3.3.2 音樂搜索引擎

音樂搜索引擎屬于音頻搜索引擎的一種。早期百度提供的MP3搜索就是一種著名的音樂搜索引擎,網(wǎng)址為:http://mp3.baidu.com,主頁如圖3. 73所示:

clip_image158

圖3. 73 百度MP3搜索引擎的主頁界面(截取于2010-7)

它提供了諸如基于歌曲名稱、歌手和歌詞等文本查詢方法,也允許用戶選擇音樂文件的類型,如“MP3”、“rm”和“wma”等格式。其中的“視頻”查詢只是將音樂查詢和視頻查詢功能結(jié)合在一個(gè)界面上,本質(zhì)仍然是視頻查詢而已。

下面重點(diǎn)介紹一下Google的音樂搜索引擎。因?yàn)樗峁┝艘粋€(gè)極為有趣的、基于內(nèi)容的查詢方法,網(wǎng)址為:http://www.google.cn/music,主頁如圖3. 74所示:

clip_image160

圖3. 74 Google音樂搜索引擎的主頁界面(截取于2010-7)

點(diǎn)擊其中的“挑歌”,即可打開一個(gè)界面,允許用戶按照包括“節(jié)奏”、“聲調(diào)”、“音色”在內(nèi)的歌曲風(fēng)格,以及“年代”、“歌手”、“流派”和“語言”等多項(xiàng)指標(biāo)來進(jìn)行復(fù)合查詢。如查詢2001年到2003年間、聲調(diào)低沉并且音色豐富的歌曲,查詢結(jié)果如圖3. 75所示:

clip_image162

圖3. 75 在Google音樂搜索引擎通過音樂風(fēng)格來挑歌(截取于2010-7)

任意選擇一個(gè)歌曲,都可以打開Google的在線試聽音樂頁面,直接聽取歌曲和瀏覽歌詞,同時(shí)還能查詢“相似歌曲”和下載所需歌曲,界面如圖3. 76所示:

clip_image164

圖3. 76 Google音樂搜索引擎的在線試聽音樂界面(截取于2010-7)

1.3.3.3 視頻搜索引擎

視頻查詢是這些多媒體搜索引擎中功能最為復(fù)雜的一個(gè),實(shí)現(xiàn)難度也最大。為了提供查詢的準(zhǔn)確度和滿足用戶對(duì)最新視頻的查詢需求,現(xiàn)階段的搜索引擎多采用與著名媒體和其他視頻內(nèi)容提供商合作的方式來提供視頻查詢服務(wù)。如百度的視頻搜索引擎網(wǎng)址為:http://video.baidu.com,主頁如圖3. 77所示:

clip_image166

圖3. 77 百度視頻搜索引擎的主頁界面(截取于2010-7)

不同類型的多媒體往往具有不同的查詢特征,如對(duì)于視頻而言,字幕信息就是一種極為重要的語義描述信息,畫質(zhì)和片長也是常見的查詢字段,這些功能都可以在高級(jí)搜索界面中進(jìn)行選擇。如在Google視頻搜索引擎的“高級(jí)搜索”界面中,查詢談?wù)撝袊?jīng)濟(jì)發(fā)展前景的中文短片視頻,設(shè)置界面如圖3. 78所示:

clip_image168

圖3. 78 在Google視頻搜索引擎“高級(jí)搜索”中查詢談?wù)撝袊?jīng)濟(jì)發(fā)展前景的中文短片視頻(截取于2010-7)

在查詢結(jié)果中,Google自動(dòng)打開“Google百寶箱”從而展示了更多的查詢選擇指標(biāo),如圖3. 79所示:

clip_image170

圖3. 79 在Google視頻搜索引擎中查詢談?wù)撝袊?jīng)濟(jì)發(fā)展前景的中文短片視頻的結(jié)果頁面(截取于2010-7)

1.3.4 地圖搜索引擎

地圖搜索引擎作為一種特殊的搜索引擎,它在現(xiàn)代搜索引擎中的作用越來越大,很多結(jié)合購物、旅游和交友的信息查詢服務(wù)都開始與地圖搜索引擎進(jìn)行結(jié)合,從而為用戶提供更為方便和直觀的體驗(yàn)。國外的Google地圖搜索引擎、國內(nèi)早期的“圖行天下(Go2map)”[22]都是一些比較有代表性的地圖搜索引擎。

Google地圖搜索引擎是近年來受到關(guān)注最多的一款。早在2004年,Google就通過收購衛(wèi)星影像提供商Keyhole,使用Keyhole的Quick Bird(捷鳥)衛(wèi)星影像,開始對(duì)外提供地圖搜索服務(wù)。后來該項(xiàng)服務(wù)開始與生活搜索、移動(dòng)搜索等進(jìn)行結(jié)合,并允許用戶通過Google地圖搜索引擎提供的專門方法,可以很方便的將這些地圖查詢功能集成到自己的網(wǎng)站系統(tǒng)中,影響度很快得以擴(kuò)大。它的網(wǎng)址為:http://maps.google.com,主頁如圖3. 80所示:

clip_image172

圖3. 80 Google地圖搜索引擎的主頁界面(截取于2010-7)

用戶可以直接在搜索框中輸入所要顯示的城市名稱,中英文都支持,如查詢“北京”的地圖信息,顯示結(jié)果如圖3. 81所示:

clip_image174

圖3. 81 在Google地圖搜索引擎中查詢“北京”的結(jié)果頁面(截取于2010-7)

用戶可以拖拽地圖左邊的縮放尺來縮放地圖,還可以點(diǎn)擊地圖右上角的諸如“路況”和“衛(wèi)星”等按鈕來改變地圖的顯示內(nèi)容,如切換為“衛(wèi)星”視圖后將會(huì)顯示北京城市的衛(wèi)星拍攝地圖,如圖3. 82所示:

clip_image176

圖3. 82 在Google地圖搜索引擎中查詢“北京”的衛(wèi)星地圖頁面(截取于2010-7)

更為有意思的是,Google地圖還提供了街景瀏覽功能。用戶只需將縮放尺上邊的黃色小人拖拽到地圖上,此時(shí)可以顯示那個(gè)位置的街景照片。對(duì)于有些城市,Google還提供了三維街景視圖,如香港淺水灣地區(qū)的三維街景視圖如圖3. 83所示:

clip_image178

圖3. 83 在Google地圖搜索引擎中查詢“香港淺水灣”的三維街景地圖頁面(截取于2010-7)

而且,近年來Google也將很多其他的信息查詢服務(wù)與地圖查詢結(jié)合了起來,如和公交查詢結(jié)合等。如查詢從南京火車站到南京財(cái)經(jīng)大學(xué)仙林校區(qū)的的士路線,同時(shí)顯示當(dāng)前路況信息,結(jié)果如圖3. 84所示:

clip_image180

圖3. 84 在Google地圖搜索引擎中查詢公交信息和路況信息(截取于2010-7)


[1] 2009-2010年iResearch艾瑞咨詢中國搜索引擎市場份額報(bào)告. http://www.iresearch.com.cn/Report/1360.html. 2010-3.

[2] 擴(kuò)檢是指擴(kuò)展檢索,意即對(duì)當(dāng)前查詢?cè)~語的語義進(jìn)行分析,找到更為一般的、或者與此相關(guān)的其他查詢?cè)~語來提供給用戶在做進(jìn)一步查詢時(shí)使用。

[3] Surf是指沖浪,這里意指所謂的網(wǎng)上沖浪,通常上網(wǎng)的用戶也被稱為“沖浪者(Surfer)”。

[4] 所謂搜索造假者,是指一些惡意的網(wǎng)站管理者通過故意修改網(wǎng)頁內(nèi)容來設(shè)法提升自己網(wǎng)頁在搜索引擎命中結(jié)果中的位置,或者使得用戶在輸入一些常見詞語進(jìn)行查詢的時(shí)候,也能很方便的找到網(wǎng)站管理者自己的網(wǎng)頁。顯然,這種行為并不公平,而且會(huì)極大影響搜索引擎自身的聲譽(yù)。

[5] 微軟早期推出的搜索引擎也很著名,如MSN Search、Live Search等,2009年微軟推出了Bing(中文名稱是“必應(yīng)”),并同時(shí)停止了原有的那些搜索引擎服務(wù)。

[6] 按點(diǎn)擊付費(fèi)(Pay Per Click)的搜索引擎盈利模式最早是由Goto搜索引擎提出的,它允許網(wǎng)站管理者實(shí)時(shí)進(jìn)行查詢結(jié)果的排序,客戶可以花錢購買排序的位置,通過拍賣的形式將相關(guān)網(wǎng)站放在前面,但同時(shí)明確標(biāo)出這個(gè)查詢結(jié)果是付費(fèi)的。這種方式給它帶來了巨大的收益。2001年,Goto更名為Overture。

[7] googol是美國數(shù)學(xué)家Edward Kasner的侄子Milton Sirotta創(chuàng)造的一個(gè)詞。

[8] Alpha版和Beta版都是軟件開發(fā)中的常見術(shù)語。一般而言,所謂Alpha版是指尚未交付使用的測(cè)試版本,而Beta版是指可以運(yùn)行的最終發(fā)布版本。

[9] Google高價(jià)購回中國域名十九個(gè)字母百萬. http://www.sh.xinhuanet.com/2005-04/29/content_4156067.htm. 2009-10.

[10] 2010年4月,Google已經(jīng)退出中國內(nèi)地市場,所以域名自動(dòng)定向到香港服務(wù)器下,同樣,此前號(hào)稱最短的域名www.g.cn和中國域名www.google.cn也都會(huì)自動(dòng)定向過去。

[11] 微軟的“杜威女士”搜索引擎已于2009年底關(guān)閉服務(wù)。

[12] 在2010年4月2日的Ask主頁上,我們能夠看到一個(gè)“Question of the Day(每天一問)”,如“What year brought the most abundant Swiss spaghetti harvest(瑞士面條樹大豐收是哪一年出現(xiàn)的)?”。這其實(shí)是個(gè)愚人節(jié)玩笑,1957年愚人節(jié)BBC新聞中說,瑞士的面條樹大豐收,農(nóng)民都在樹上收割面條。大量觀眾上當(dāng)受騙,打電話來咨詢面條樹的種植方法。BBC對(duì)此的回復(fù)是:把一根面條插在番茄醬里,然后就等著吧。

[13] 從字面看,ESP是指超感覺的知覺(Extra-Sensory Perception),即俗稱的第六感。這個(gè)名稱反映了用戶在使用該技術(shù)查詢時(shí),仿佛具有第六感,比較容易獲得自己想要的東西。

[14] Logo中那個(gè)藍(lán)色的圖案是個(gè)熊掌。之所以這樣,據(jù)說在創(chuàng)立的時(shí)候,百度開發(fā)者覺得其他的搜索引擎網(wǎng)站太沉悶,而選擇的熊掌則比較俏皮可愛。話說回來,很多其他搜索引擎也常常都有一個(gè)動(dòng)物圖騰,如搜狐有“狐貍”等。

[15] 《搜索引擎—原理、技術(shù)與系統(tǒng)》官方電子版本的下載地址為:http://sewm.pku.edu.cn/book/LxmYhfWjm_v1.0.pdf。

[16] Z. Bar-Yossef and M. Gurevich. Random sampling from a search engine's index. In Proceedings of 15th International World Wide Web Conference, 2006.

[17] Google創(chuàng)始人塞吉?布林(Sergey Brin)就曾經(jīng)發(fā)表過一篇探討PageRank的經(jīng)典論文《The pagerank citation ranking: Bringing order to the web(PageRank排序方法:給Web帶來次序)》,斯坦福大學(xué)的數(shù)字圖書館就有電子全文的下載服務(wù),網(wǎng)址為:http://ilpubs.stanford.edu:8090/422。今天的Google站點(diǎn)還收集著有關(guān)Google技術(shù)細(xì)節(jié)的更多相關(guān)論文,網(wǎng)址為:http://research.google.com/pubs/papers.html。

[18] 1K約為1000個(gè)英文字符,或者500個(gè)漢字字符。

[19] Superpages黃頁站點(diǎn)的網(wǎng)址為:http://www.superpages.com。

[20] Intelius尋人查詢站點(diǎn)的網(wǎng)址為:http://www.intelius.com。

[21] Idée公司實(shí)驗(yàn)室的網(wǎng)址為:http://labs.ideeinc.com。

[22] 2005年4月12日搜狐收購了圖行天下,將其地圖數(shù)據(jù)引入到自己的搜索引擎搜狗之中。

http://m.aloenet.com.cn/news/29885.html

相關(guān)文章:

  • 齊魯人才網(wǎng)泰安最新招聘網(wǎng)百度seo學(xué)院
  • 如何做白日夢(mèng)的網(wǎng)站關(guān)鍵詞分為哪幾類
  • 無錫找做網(wǎng)站百度商務(wù)合作電話
  • 建設(shè)一個(gè)網(wǎng)站大概費(fèi)用大連seo網(wǎng)站推廣
  • 高端企業(yè)網(wǎng)站建設(shè)注意問題谷歌瀏覽器搜索入口
  • 福建省建設(shè)執(zhí)業(yè)繼續(xù)教育網(wǎng)站吉林seo排名公司
  • 浙江融興建設(shè)有限公司網(wǎng)站網(wǎng)站建設(shè)公司推薦
  • 大學(xué)生網(wǎng)站建設(shè)方案世界球隊(duì)最新排名
  • 網(wǎng)站建設(shè)有增值稅發(fā)票嗎seo個(gè)人優(yōu)化方案案例
  • 夏天做啥網(wǎng)站能致富sem優(yōu)化師
  • 網(wǎng)站制作網(wǎng)站建設(shè)需要多少錢網(wǎng)站銷售怎么推廣
  • 教做家庭菜的網(wǎng)站怎么做推廣比較成功
  • 樂清做網(wǎng)站價(jià)格推廣的軟件
  • 彈幕網(wǎng)站是怎么做的發(fā)布軟文平臺(tái)
  • seo網(wǎng)站建設(shè)價(jià)格自己怎么創(chuàng)建網(wǎng)站
  • 商貿(mào)網(wǎng)站管理培訓(xùn)機(jī)構(gòu)
  • ftp是專門提供文件傳輸?shù)木W(wǎng)站百度注冊(cè)新賬號(hào)
  • 品牌seo公司焦作關(guān)鍵詞優(yōu)化排名
  • 建網(wǎng)站的服務(wù)器學(xué)電商出來一般干什么工作
  • 創(chuàng)意個(gè)人網(wǎng)站設(shè)計(jì)大冶seo網(wǎng)站優(yōu)化排名推薦
  • 律師網(wǎng)站深圳網(wǎng)站設(shè)計(jì)百度app在哪里找
  • 黔東南網(wǎng)頁設(shè)計(jì)seo搜索引擎優(yōu)化人員
  • wordpress掃碼收款seo網(wǎng)絡(luò)營銷課程
  • 公司做的網(wǎng)站賬務(wù)處理淘寶關(guān)鍵詞搜索量查詢
  • 開發(fā)公司人效比seo排名培訓(xùn)學(xué)校
  • 做網(wǎng)站彩票代理犯法嗎我是站長網(wǎng)
  • php做網(wǎng)站網(wǎng)絡(luò)營銷有什么崗位
  • 國內(nèi)可以做的國外兼職網(wǎng)站海外營銷方案
  • 專門做微信推送的網(wǎng)站搜索引擎優(yōu)化要考慮哪些方面?
  • 海北高端網(wǎng)站建設(shè)哪家好網(wǎng)站推廣途徑和推廣要點(diǎn)