标签: robots

  • 百度都用了哪些robots.txt?

    ????? 首先来看百度搜索的:

    User-agent: Baiduspider
    Disallow: /baidu
    
    User-agent: *
    Disallow: /shifen/dqzd.html

    ????? 两个都是禁止收录,第一个是百度蜘蛛抓取www.baidu.com/baidu以下的内容,也就是百度竞价一类的。第二个页面无法访问,而shifen.com是百度的另外一个域名。

    ????? 百度百科
    ????? 百度知道

    User-agent: Baiduspider
    Allow: /
    Disallow: /w? 
    
    User-agent: Googlebot
    Allow: /
    
    User-agent: MSNBot
    Allow: /
    
    User-agent: *
    Disallow: /

    ????? b/w? 为百度百科、知道的搜索。这里比较有趣百度禁止了除百度、谷歌、MSN三家以外的所有蜘蛛的抓取。

    ????? 百度空间

    User-agent: Baiduspider
    Disallow:
    User-agent: Googlebot
    Disallow:
    User-agent:
    Disallow: /
    User-agent: MSNBot
    Allow: /

    ????? 百度图片

    User-agent: *
    Disallow:

    ????? 百度mp3

    User-agent: Baiduspider
    Disallow: /m

    ????? mp3.baidu.com/m 为百度mp3的搜索

    ????? 百度新闻

    User-agent: Baiduspider
    Disallow:  /ns

    ????? news.baidu.com/ns 为百度新闻的搜索