方法一:修改虛擬站點(diǎn)加入下列代碼
if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")
{
return 403;
}
方法二:網(wǎng)站更目?下增加Robots.txt,放在站點(diǎn)根目錄下
1.當(dāng)一個(gè)搜索蜘蛛訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。百度官方建議,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。
當(dāng)然,如果搜索引擎不遵守約定的Robots協(xié)議,那么通過(guò)在網(wǎng)站下增加robots.txt也是不起作用的。(在正式環(huán)境中,可以適當(dāng)允許搜索引擎抓取收錄)
2.如:Robots.txt文件內(nèi)容
User-agent: *
Crawl-delay: 500
Disallow: /wuyou/
Disallow: /php/
Disallow: /wuyou_admin/
Disallow: /actions/
3.解析:文件寫(xiě)法
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問(wèn)網(wǎng)站中所有包含問(wèn)號(hào) (?) 的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片
Disallow: /ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪問(wèn)以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片
sitemap: 網(wǎng)站地圖 告訴爬蟲(chóng)這個(gè)頁(yè)面是網(wǎng)站地圖