Google和Baidu收錄網(wǎng)站頁面的標(biāo)準(zhǔn)是不同的。
為了驗證這一點,我做一個實驗:我申請了一個新域名www.moon-blog.com,不再其他任何網(wǎng)站做鏈接,而直接往百度和Google搜索引擎的提交頁面進行提交。一個月過去了,百度收錄的網(wǎng)頁是24,900篇,Google收錄的網(wǎng)頁是0,這證實了我以前的猜測。
這說明了什么呢?說明百度比Google好嗎?絕對不是的。因為Baidu和Google收錄頁面的標(biāo)準(zhǔn)是完全不同的。
Google是按照網(wǎng)頁級別來收錄的,只要你有一定的網(wǎng)頁級別,Google會快速收錄的,而沒有網(wǎng)頁級別的網(wǎng)站,Google則堅決不去收錄。Baidu則很夸張,采用的是來者不拒,多多益善的原則,無休止的進行收錄。Baidu的這種不按網(wǎng)頁級別的收錄方式其實有很大的惡果,最主要的惡果是造成大量的垃圾網(wǎng)站流行,因為只要做一個垃圾站,Baidu就會立刻收錄(25000頁以內(nèi)),這等于變相的鼓勵大家去做垃圾站,去盲目采集。當(dāng)垃圾站橫行的時候,Baidu再通過人工的方式封站,對于大流量的網(wǎng)站再威脅其辦理百度競價排名。因此Baidu和大量的個人站長都有一段恩怨。
這兩種收錄方式哪種更好呢?我個人認(rèn)為Google的這種收錄方式是比較科學(xué)的。因為互聯(lián)網(wǎng)上的頁面是個天文數(shù)字,收錄應(yīng)該是有選擇的收錄,好的網(wǎng)站則多收錄,新站則應(yīng)該少收錄,等其慢慢知名了以后再多收錄,這樣也提高了效率,讓用戶搜索到更好的頁面而不是更多的頁面。而且Google的爬蟲占用服務(wù)器的資源較少,通常是先用head來查看網(wǎng)頁是否更新,如果更新了再抓取整個頁面,這種方法耗費流量較少。而百度則不管三七二十一上來就抓整個站,而且其爬蟲數(shù)量非常龐大,對于頁面較多的網(wǎng)站通常會耗費驚人的流量,并且常常造成惡劣的后果。例如我以前的月光軟件站有一段時間CPU耗費極大,IIS連接數(shù)也逼近1000,每天流量高達10多G,電信機房總威脅要限制我的帶寬,我以前一直以為是被別人DDOS攻擊,但是我購買了新的服務(wù)器,換了幾個IP,甚至更換了幾個機房,依然無法解決問題,不得已只好將服務(wù)器托管到外地流量充裕的機房,但CPU負(fù)荷還總是居高不下。直到我網(wǎng)站被百度封了后,百度爬蟲再也不再光故,這時我才驚奇地發(fā)現(xiàn),我的CPU和流量終于處于一種穩(wěn)定合理的狀態(tài)了,到目前為之,我站每天流量也有十多G,但CPU一直都沒有超過5%,服務(wù)器也很少出現(xiàn)死機和大量IIS連接的狀況,因此我開始懷疑,以前的所謂被DDOS攻擊,其實只是大量的百度爬蟲在抓取我的網(wǎng)站而已,由于其爬蟲數(shù)量龐大,才引起我服務(wù)器的超負(fù)荷運轉(zhuǎn)以至瀕于崩潰。
當(dāng)然,百度這種“貪婪”爬蟲抓取方法,雖然會讓用戶能夠在百度搜索出一些Google里搜索不到的頁面,但這實在是太損人利己了。其帶給網(wǎng)站站長的則是大量的負(fù)面效果:服務(wù)器和帶寬資源過渡消耗,垃圾站被變相鼓勵了,原創(chuàng)的有特色的網(wǎng)站則被邊緣化。
因此,中國的網(wǎng)民也出現(xiàn)了很奇怪的現(xiàn)象:大量的新網(wǎng)民和菜鳥人士喜歡用百度搜索,因為百度往往搜索到很多別人沒有的頁面,而專業(yè)人員和老鳥則更喜歡用Google,個人站長則普遍和百度有“個人恩怨”。因此百度在業(yè)界的Blog以及社區(qū)中口碑都不太好,但是依舊還是有大量流量。
聯(lián)系客服