抓取蜘蛛爬虫痕迹

//获取蜘蛛爬虫名或防采集
function isSpider(){
    $bots = array(
                    'Google'    => 'googlebot',
                    'Baidu'        => 'baiduspider',
                    'Yahoo'        => 'yahoo slurp',
                    'Soso'        => 'sosospider',
                    'Msn'        => 'msnbot',
                    'Altavista'    => 'scooter ',
                    'Sogou'        => 'sogou spider',
                    'Yodao'        => 'yodaobot'
            );
    $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
    foreach ($bots as $k => $v){
        if (strstr($v,$userAgent)){
            return $k;
            break;
        }
    }
    return false;
}

 

获取哪种蜘蛛爬虫后保存蜘蛛痕迹。根据采集的时候HTTP_USER_AGENT为空可以来防止采集
//抓蜘蛛爬虫
$spi    = isSpider();
if($spi){
    $tlc_thispage    = addslashes($_SERVER['HTTP_USER_AGENT']);
    $file            = 'robot.txt';
    $time            = date('Y-m-d H:i:s',mktime());
    $handle            = fopen($file,'a+');
    $PR                = $_SERVER['REQUEST_URI'];
    fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r");
    fclose($handle);
}

本文永久地址:https://sjolzy.cn/Traces-of-spiders-crawling-reptiles.html

--EOF--

随机文章

已有 5 条评论

  1. 这个法子好,可以省事多了!

  2. 还是不太明白..还有没有更好的办法?

    1. PHP抓去爬虫痕迹的方法主要是根据$_SERVER['HTTP_USER_AGENT']这个变量的值来判断,判断的话我文章里有提供那个数组依据,剩下的就是记录了

  3. 什么意思?把这个代码都放到自己网页里就ok了吗?

    1. 第一段是判断是不是蜘蛛是的话就返回定义的蜘蛛的名称不然则返回false,然后第二段根据isSpider返回的信息判断,是蜘蛛就把蜘蛛爬过的页面按fwrite那边的写入格式写在'robot.txt'文件里。

添加新评论