抓取蜘蛛爬虫痕迹 12 July 2010 14:42 Monday by 小屋 分享收藏

//获取蜘蛛爬虫名或防采集
function isSpider(){
    $bots = array(
                    'Google'    => 'googlebot',
                    'Baidu'        => 'baiduspider',
                    'Yahoo'        => 'yahoo slurp',
                    'Soso'        => 'sosospider',
                    'Msn'        => 'msnbot',
                    'Altavista'    => 'scooter ',
                    'Sogou'        => 'sogou spider',
                    'Yodao'        => 'yodaobot'
            );
    $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
    foreach ($bots as $k => $v){
        if (strstr($v,$userAgent)){
            return $k;
            break;
        }
    }
    return false;
}

 

获取哪种蜘蛛爬虫后保存蜘蛛痕迹。根据采集的时候HTTP_USER_AGENT为空可以来防止采集
//抓蜘蛛爬虫
$spi    = isSpider();
if($spi){
    $tlc_thispage    = addslashes($_SERVER['HTTP_USER_AGENT']);
    $file            = 'robot.txt';
    $time            = date('Y-m-d H:i:s',mktime());
    $handle            = fopen($file,'a+');
    $PR                = $_SERVER['REQUEST_URI'];
    fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r");
    fclose($handle);
}

作者: Sjolzy

--EOF--

引用地址:

相关评论:

  1. gravatar face
    QQ个性大全 3 月 18 日 对 “抓取蜘蛛爬虫痕迹” 发表最新评论。
    这个法子好,可以省事多了!

    这个法子好,可以省事多了!

      评分:5

  2. 3
    QQ个性大全 :

    这个法子好,可以省事多了!

  3. 2
    SEO赚钱培训 :

    还是不太明白..还有没有更好的办法?

    博主回复:PHP抓去爬虫痕迹的方法主要是根据$_SERVER['HTTP_USER_AGENT']这个变量的值来判断,判断的话我文章里有提供那个数组依据,剩下的就是记录了
  4. 1
    股票软件 :

    什么意思?把这个代码都放到自己网页里就ok了吗?

    博主回复:第一段是判断是不是蜘蛛是的话就返回定义的蜘蛛的名称不然则返回false,然后第二段根据isSpider返回的信息判断,是蜘蛛就把蜘蛛爬过的页面按fwrite那边的写入格式写在'robot.txt'文件里。

发表评论:

  给 “抓取蜘蛛爬虫痕迹” 评分

广告、无意义的评论必删!