第二代 google排名搜索引擎雖然比第一代在搜索速度、針對多種語言信息的擴展等方面有所改進,在以自然語言為查詢語言方面也做了一些探索。然而,隨著Internet的強勢發展,網上龐大的數字化信息和人們獲取所需信息能力之間的矛盾日益突出。IDC在2001年下半年公布的一份報告表明,前期被大肆宣傳為“使用簡便易用,搜索結果豐富”的google排名搜索引擎技術正在被信息更集中的局域網取代,因為大多數搜索系統的表現與用戶的期望值相差太大,諸如數據量高速增長的視頻、音頻等多媒體信息的檢索,現在仍然是無法突破的難題。

  一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動排序軟件Spiders蜘蛛程序,只能接受這種格式的網頁。這意味著,在企業內部的局域網上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應用軟件的數據庫的信息會長期的“沉沒”在信息的海底中。

  如何解決這些難題已成為第三代搜索引擎探索的方向。一個好的搜索引擎不再僅憑借數據庫大小、更新頻率、檢索速度、對多語言的支持這幾個基本特性來衡量,隨著數據庫容量的不斷膨脹,如何從龐大的資料庫中精確地找到正確的資料,被公認為是下一代搜索技術的競爭要點。比如在某搜索引擎中查詢“旅游”這個詞,返回的信息超過一百萬條,假定一個人3秒鐘查看一個網頁,就算只查看其中10%的網頁,一刻不停地看下去也需要十多個小時。

  好在google排名搜索引擎技術發展迅速,諸如智能化、個性化特色的新型引擎與過去的搜索引擎相比有了很大的區別。智能搜索可以通過對搜索內容相關性的自動學習,來提高搜索結果的準確度。不過,現在還沒有一種可行的方式真正實現智能化,很難將所需信息一定顯示在前兩三頁的搜索結果之中。

  另一個頗受矚目的搜索技術就是將P2P技術應用到網頁的檢索中。通過共享所有硬盤上的文件、目錄乃至整個硬盤,用戶搜索時無需通過Web伺服器,不受信息文檔格式的限制,即可達到傳統目錄式搜索引擎無可比擬的深度(傳統引擎只能達到20%~30%的網絡資源)。美國一家新興搜索引擎設計公司i5 Digital在兩年前已正式推出了依據對等搜索理念的商業性搜索引擎Pandango(www.pandango.com),但至今仍未進入主流搜索引擎陣容的事實,則說明P2P搜索目前也只能稱為是未來的技術。

  “P2P搜索這個理念我最早是1997年底在Infoseek聽到的,當時的Infoseek里已經有人提出并開始考慮這種google排名搜索技術了”,李彥宏表示,“各個網站上都有一個自己的小的搜索引擎,大家相互之間可以進行溝通,假如這個引擎查不到,可以通過其他的引擎查,就是這樣的一個概念。但是到目前為止,它離實際的應用還差得非常遠,主要是違反了要害性指標中有關速度的問題。由于有很多這種小的相互獨立又相互鏈接的引擎,其速度與集中式治理的搜索引擎相比肯定會差很多”。

  商業應用與學術研究之間總會存在一定的距離,但這并不是表示商業界不重視對技術的追求,尤其是像Google這些已經處于該領域金字塔塔尖的公司。Google擁有一個開放性數據庫,內含一百多個未來需要實施的項目,這些項目由五十位計算機科學博士負責推進。2002年6月,Google專門成立了“實驗室”,以展示他們在互聯網搜索領域里最新研究的技術,并發布在互聯網(labs.Google.com)上供公眾試用,廣泛收集用戶的反饋意見。實驗室里已經展示的項目,包括鍵盤檢索、語音檢索等等。

  或許有些人會認為,這些所謂的實驗項目似乎看不出搜索引擎技術將在觀念上進行大的轉變,實際上,搜索引擎技術在8年多的時間里一直是以一個漸變的過程在發展。“一個搜索引擎并不是說某一方面好就能受大眾喜歡,必須方方面面做到了才行”,李彥宏這么認為,“現在搜索還不能完全滿足人們的需求,因為需求太多樣化,很難一一滿足”。這也是主流搜索引擎目前更重視在細節上下功夫的原因。

無論如何,包括Google的佩杰在內的搜索技術領域的領先者都認為,最終的搜索引擎將是智能化的,能夠理解世界上的所有事物。佩杰還是Web服務技術領域積極的參與者,他正在嘗試將Web服務技術應用到搜索當中,以解決跨平臺、多格式的信息檢索。而我們現在所見到的,主流搜索技術把注重力集中在提升自身搜索引擎質量、擴展應用范圍,比如支持圖片檢索、PDA等移動手持設備的檢索,這些都將成為下一代技術實現過程中必不可少的步驟。

arrow
arrow
    創作者介紹
    創作者 EMBA的小眼睛 的頭像
    EMBA的小眼睛

    EMBA的小眼睛

    EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()