返回列表 發帖

百度 Spider

*** 登錄論壇才可看到文章內的圖片 ***

我們在論壇以管理員身份去看 "在線用戶" 時,論壇會顯示訪問者的 IP 地址,有時我們會發現來遊客的數字一下子突然急升 (試過突然增加數十個),再看一下IP 地址, 發現有一連串連續  IP 地址,例如我們試過看到 123.125.71.x 的5個 來訪者,到我們論壇的不同帖子,好像在讀取資料,於是我們馬上利用Ping 去找一下這些IP 地址的來源,

ping -a 123.125.71.74

發現 Host 為 baiduspider-123-125-71-74.crawl.baidu.com,應該是百度搜尋引擎的Spider 來讀取網頁資料。最後我們 Ping 整個123.125.71.x ,發現由 123.125.71.11 到123.125.71.161 都是 spider。



附件: 您需要登錄才可以下載或查看附件。沒有帳號?註冊
Bill Tang     MSN:billtang@openplatform.com.hk
Openplatform Technology Co.,Ltd. 資訊坊科技有限公司  
無線工程施工、方案設計、無線產品、天饋材料、終端設備綜合供應商
Tel: 852-27491011  Fax: 852-81483532

什麽是Baiduspider
Baiduspider
是百度搜索引擎的一個自動程序,它的作用是訪問互聯網上的網頁,建立索引數據庫,使用戶能在百度搜索引擎中搜索到您網站上的網頁。


Baiduspideruser-agent是什麽?
百度各個産品使用不同的user-agent
産品名稱對應user-agent
無綫搜索Baiduspider-mobile
圖片搜索Baiduspider-image
視頻搜索Baiduspider-video
新聞搜索Baiduspider-news
百度搜藏Baiduspider-favo
百度聯盟Baiduspider-cpro
網頁以及其他搜索Baiduspider


Baiduspider對一個網站服務器造成的訪問壓力如何?
Baiduspider
會自動根據服務器的負載能力調節訪問密度。在連續訪問一段時間後,Baiduspider會暫停一會,以防止增大服務器的訪問壓力。所以在一般情况下,Baiduspider對您網站的服務器不會造成過大壓力。


爲什麽Baiduspider不停的抓取我的網站?
對于您網站上新産生的或者持續更新的頁面,Baiduspider會持續抓取。此外,您也可以檢查網站訪問日志中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網站。
如果您發現Baiduspider非正常抓取您的網站,請通過投訴平臺反饋給我們,幷請儘量給出Baiduspider對貴站的訪問日志,以便于我們跟踪處理。


如何判斷是否冒充Baiduspider的抓取?
方法1——Linux環境下
您可以使用host ip命令反解ip來判斷Baiduspider的抓取是否冒充。Baiduspiderhostname*.baidu.com的格式命名,非*.baidu.com即爲冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

方法2——windows環境下
開始->運行->tracert 123.456.78.90(即抓取您網站的IP地址)
或者開始->運行->nslookup 123.456.78.90
查看name信息,未標識爲Baiduspider即爲冒充。


我不想我的網站被Baiduspider訪問,我該怎麽做?
Baiduspider
遵守互聯網robots協議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網站,或者禁止Baiduspider訪問您網站上的部分文件。
注意:禁止Baiduspider訪問您的網站,將使您的網站上的網頁,在百度搜索引擎以及所有百度提供搜索引擎服務的搜索引擎中無法被搜索到。關于robots.txt的寫作方法,請參看我們的介紹:robots.txt寫作方法 您可以根據各産品不同的user-agent設置不同的抓取規則,如果您想完全禁止百度所有的産品收錄,可以直接對Baiduspider設置禁止抓取。
以下robots實現禁止所有來自百度的抓取:
User-agent: Baiduspider
Disallow: /

以下robots實現僅禁止來自百度視頻搜索的抓取:
User-agent: Baiduspider-video
Disallow: /

以下robots實現禁止所有來自百度的抓取但允許圖片搜索抓取/image/目錄:
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/

請注意:Baiduspider-cpro抓取的網頁幷不會建入索引,只是執行與客戶約定的操作,所以不遵守robots協議,如果Baiduspider-cpro給您造成了困擾,[url=mailto:請聯繫union1@baidu.com]請聯繫[url=mailto:union1@baidu.com[/url]union1@baidu.com[/url[/url]]。


爲什麽我的網站已經加了robots.txt,還能在百度搜索出來?
因爲搜索引擎索引數據庫的更新需要時間。雖然Baiduspider已經停止訪問您網站上的網頁,但百度搜索引擎數據庫中已經建立的網頁索引信息,可能需要數月時間才會清除。另外也請檢查您的robots配置是否正確。
如果您的拒絕被收錄需求非常急迫,也可以通過投訴平臺反饋請求處理。


我希望我的網站內容被百度索引但不被保存快照,我該怎麽做?
Baiduspider
遵守互聯網meta robots協議。您可以利用網頁meta的設置,使百度顯示只對該網頁建索引,但幷不在搜索結果中顯示該網頁的快照。
robots的更新一樣,因爲搜索引擎索引數據庫的更新需要時間,所以雖然您已經在網頁中通過meta禁止了百度在搜索結果中顯示該網頁的快照,但百度搜索引擎數據庫中如果已經建立了網頁索引信息,可能需要二至四周才會在綫上生效。


Baiduspider多長時間之後會重新抓取我的網頁?
百度搜索引擎每周更新,網頁視重要性有不同的更新率,頻率在幾天至一月之間,Baiduspider會重新訪問和更新一個網頁。



Baiduspider抓取造成的帶寬堵塞?
Baiduspider
的正常抓取幷不會造成您網站的帶寬堵塞,造成此現象可能是由于有人冒充Baiduspider惡意抓取。如果您發現有名爲Baiduspideragent抓取幷且造成帶寬堵塞,請儘快和我們聯繫。您可以將信息反饋至投訴平臺,如果能够提供您網站該時段的訪問日志將更加有利于我們的分析。

*** 以上資料來自百度網站 ***

TOP

返回列表