自己写一个网络爬虫蜘蛛程序 28 April 2010 22:33 Wednesday by 小屋 浏览(2727)

 

这里是维基百科对网络 爬虫的词条页面网络 爬虫以叫网络 蜘蛛网络 机器人,这是一个程序 ,其会自动的通过网络 抓取 互联网 上的网页 ,这种技术 一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术 是把网页 中的相关数据 保存下来,可以成为搜索引 擎。

从技相来说,实现抓取 网页 可能并不是一件很困难的事情 ,困难的事情 是对网页 的分析和整理 ,那是一件需要有轻量智能,需要大量数学计算的程序 才能做的事情 。下面一个简单的流程:


阅读全文>>