在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。

定期搜索

搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。

提交網站搜索

另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站并將有關信息存入數據庫,以備用戶查詢。由于近年來搜索引擎索引規則發生了很大變化,主動提交網址并不保證你的網站能進入搜索引擎數據庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網站收錄。

范洪誠0988882677 發表在 痞客邦 留言(0) 人氣()

搜索引擎判定復制網頁一般都基于這么一個思想:

為每個網頁計算出一組信息指紋(Fingerprint),若兩個網頁有一定數量相同的信息指紋,則認為這兩個網頁的內容重疊性很高,也就是說兩個網頁是內容復制的。

很多搜索引擎判定內容復制的方法都不太一樣,主要是以下兩點的不同:

1、計算信息指紋(Fingerprint)的算法;

2、判定信息指紋的相似程度的參數。

范洪誠0988882677 發表在 痞客邦 留言(0) 人氣()

什么是robots.txt文件?


搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁并獲取網頁信息。
您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內容。


范洪誠0988882677 發表在 痞客邦 留言(0) 人氣()

半夜三更的忽然想起這個老想提出或者大家都知道的問題!

先續在這里,之后給予全面補充!

什么是泛解析:

嚴格來講,是這樣的:

假如對 abc.com 解釋到 0.0.0.0 這個 IP 地址,而且提供解釋的 DNS 伺服器支持泛解釋,那么除了“可以解釋”的域名外,其它沒有明確“指示”的域名將全部解釋到 0.0.0.0 上。

范洪誠0988882677 發表在 痞客邦 留言(0) 人氣()

上次發布了51被封文章后,引起了很多人的熱烈回應,大家也借機指出了51.com存在的大量搜索引擎友好性方面的錯誤。隨著事件深入分析,各位細心的網友發現了更多問題,以致直接懷疑51.com是不是在有意炒作。以下是后續的一些觀點摘要:


郭彥景:

“聯系到五一左右百度大規模檢查并封殺作弊網站,開始讓業界以為51.com是百度懲罰的網站之一,通過某朋友提示到51.com的robots.txt文件,讓大家明白了百度網站只收錄一頁的原因,并不是搜索引擎人為所至,而是51.com自身原因。”

” 眾所周知,網站80%的流量來源于搜索,假如說51.com流量非凡之大,脫離搜索也可生存,那它將搜索屏蔽是可以理解的。但現在51.com偏偏在高速發展期,需要搜索的大量流量,51.com的robots.txt文件是針對所有搜索的,不僅僅是針對與自己產品相沖突的百度。同時51.com將包括kf.51.com域名下的所有頁面也屏蔽,顯然說不過去。

范洪誠0988882677 發表在 痞客邦 留言(0) 人氣()

除了.edu 和.org域名可能被列為被信任的域名外,與域名有關的一些其他因素也可能會影響搜索引擎排名.
很多人都知道,Google在2005年2月正式申請成為域名注冊服務商。不是大家隨處可見的那種域名注冊代理,而是頂級域名注冊服務商。全世界.com域名注冊服務商只有100多個。
  一年多過去了,Google并沒有開始提供域名注冊服務。而且Google曾經說過,他們成為域名注冊商,并不是為了給用戶提供域名注冊服務,而是為了提高搜索排名質量。

  很顯然,域名注冊信息假如還沒有成為Google排名因素之一,至少Google有計劃那么做。大部分人都認為,Google實際上已經把域名注冊信息考慮在排名當中了。

  很多人認為,做為頂極域名注冊服務商,Google能獲得我們普通用戶所得不到的信息。實際上這是個誤解。Google所能獲得的域名注冊信息,和我們做whois搜索所得到的信息是一樣的。Google并沒辦法獲得其他域名注冊服務商客戶的真實資料。

范洪誠0988882677 發表在 痞客邦 留言(0) 人氣()