搜索引擎要知道你的網站內容,就需要去搜集資料。在Yahoo的創辦初期,有許多編輯天天泡在網上,訪問新站,然后搜集信息集合整理成序。當時的網站沒有現在這么多,所以還能做的過來。而現在的新站的出現數量,老站的更新都是爆炸式的,靠人工是不可能完成這個任務的。所以搜索引擎的就設計了程序,派他們來做這些工作。
探測器有許多種叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(機器人)。這些形象的叫法是描繪搜索引擎排除的蜘蛛機器人爬行在互聯網上探測新的信息。Google把這種探測器稱為Googlebot,百度叫做Baiduspiderr,MSN叫做,MSNbot,而Yahoo則叫slurp。這個探測器實際上是人們編制的計算機程序,由它不分晝夜地進入訪問網站,摘取網站內容、標簽、圖片等。然后依照搜索引擎的算法給他們制定索引。所以,這里說一下,它不是“爬行”而是光速訪問的。
一個搜索引擎能夠會同時派遣很多探測器。這些探測器或者從站長直接提交的URL去訪問,或者由一個網絡用戶所裝的搜索引擎工具欄(如Google工具欄)得知用戶去的網站,或者是從一個網站中指向另一個站的鏈接過去。所以說探測器不一定是從網站的首頁進入訪問,為了引來搜索引擎就需要使用一些方法。
但是,探測器對許多的網站是不能完整抓取的,這個大多是由于網站設計沒有按照搜索引擎探測器的思路來進行優化。比如說,如果一個網頁比較大,探測器也只能截取網頁的首部,而且只能跟著少量的鏈接走。Google目前能夠吸收100KB的文件,Yahoo相對多一些。這些都可以通過實驗來測試。將一個搜索關鍵詞放在一個很長的網頁(約150KB)中的尾部。然后看Google的cache說這個網頁只有100KB,很顯然,有一部分沒有抓取到。
這個現象告訴我們網頁的設計不要過大,過長。將一個較大的網頁分為若干小的頁面有以下幾個好處。
1.可以使網頁容易被探測器抓取。
2.更容易建立合理的站內鏈接關系。
3.每個頁面可以更加集中關鍵詞的主題。
4.減少服務器的負載。
5.對用戶來說,方便閱讀。