自己写一个网络爬虫蜘蛛程序

 

这里是维基百科对网络
爬虫的词条页面
网络
爬虫以叫网络
蜘蛛
网络
机器人,这是一个程序
,其会自动的通过网络
抓取
互联网
上的网页
,这种技术
一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术
是把网页
中的相关数据
保存下来,可以成为搜索引
擎。

从技相来说,实现抓取
网页
可能并不是一件很困难的事情
,困难的事情
是对网页
的分析和整理
,那是一件需要有轻量智能,需要大量数学计算的程序
才能做的事情
。下面一个简单的流程:


在这里,我们只是说一下如何写一个网页
抓取
程序

首先我们先看一下,如何使用
命令
行的方式
来找开网页

telnet somesite.com 80
GET /index.html HTTP/1.0
按回车两次

使用
telnet就是告诉你其实这是一个socket的技术
,并且使用
HTTP的协议,如GET方法
获得
网页
,当然,接下来的事你就需要解析HTML文法,甚至还需要解析Javascript,因为现在的网页
使用
Ajax的越来越
了,而很
网页
内容
都是通过Ajax技术
加载
的,因为,只是简单地解析HTML文件
在未来会远远不够。当然,在这里,只是展示一个非常简单的抓取
,简单到只能做为一个例子,下面这个示例
的伪代码

网页


for each 链接 in 当前网页

所有的链接
{
if(如果本链接是我们想要的 || 这个链接从未访问过)
{
处理对本链接
把本链接设置

为已访问
}
}
require “rubygems”
require “mechanize”

class Crawler < WWW::Mechanize

attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2

def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end

def init
@visited = []
end

def remember(link)
@visited << link
end

def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end

def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end

def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代码
就不必
说了,大家可以去试试。下面是如何使用
上面的代码

require “crawler”

x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end

x.callback = callback
x.start(”http://somesite.com”)

下面是一些和网络
爬虫相关的开源网络
项目

web标准常见问题整理

1.超链接访问过后hover样式就不出现的问题
2.FF下如何使连续长字段自动换行
3.ff下为什么父容器的高度不能自适应
4. IE6的双倍边距BUG
5. IE6下绝对定位的容器内文本无法正常选择的问题
6. IE6下为什么图片下方有空隙产生
7. IE6下这两个层中间怎么有间隙
8. list-style-image无法准确定位的问题
9. LI中内容超过长度后以省略号显示的方法
10.web标准中定义id与class有什么区别吗
11.如何垂直居中文本
12.如何对齐文本与文本输入筐
13.为什么FF下面不能水平居中呢
14.为什么FF下文本无法撑开容器的高度
15.为什么IE6下容器的宽度和FF解释不同呢
16.为什么web标准中IE无法设置滚动条颜色了
17.为什么我定义的样式没有作用呢
18.为什么无法定义1px左右高度的容器
19.为什么这个背景颜色无法显示
20.怎么样才能让层显示在FLASH之上呢
21.怎样使一个层垂直居中于浏览器中
22 .图片垂直与容器内
23.如何让三列横向排列
24.通用的加入收藏夹代码
25.复制到系统剪贴板之IE,ff兼容版
26.javascript为FF设置首页
27.IE6使用滤镜使PNG图片透明后,容器内链接失效的问题
28.禁用文本框中文输入法的通用方法

1.超链接访问过后hover样式就不出现的问题


提示:您可以先修改部分代码再运行

 

复制内容到剪贴板
代码:

被点击访问过的超链接样式不在具有hover和active了,很多人应该都遇到过这个问题,解决方法是改变CSS属性的排列顺序: L-V-H-A

2.FF下如何使连续长字段自动换行


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

众所周知IE中直接使用    word-wrap:break-word 就可以了, 这里FF中我们使用JS插入&#10;的方法来解决

3.ff下为什么父容器的高度不能自适应


 提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

为什么这个P撑不开DIV呢?解决的办法是在div 与 p 之间插入<div style="clear:both"></div>清除掉这个p的浮动.
什么?你在IE下也碰到过类似问题!那么参考:http://bbs.blueidea.com/viewthread.php?tid=2636904

4. IE6的双倍边距BUG


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

浮动后本来外边距10px,但IE解释为20px,解决办法是加上display:inline

5. IE6下绝对定位的容器内文本无法正常选择的问题


提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

上 面的问题在IE6、7中存在,解决问题的办法是让IE进入到quirks mode。关于quirks mode的相关知识,请参考:http://www.microsoft.com/china/msdn/library/webservices /asp.net/ASPNETusStan.mspx?mfr=true
aoao:在IE6版本是6.0.2900.2180.xpsp_sp2.gdr.070227-2254好像依然存在问题,加了背景色依然无效。接着测试中。。。

6. IE6下为什么图片下方有空隙产生


提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

解决这个BUG的方法也有很多,可以是改变html的排版,或者定义img 为display:block
或者定义vertical-align属性值为vertical-align:top | bottom |middle |text-bottom
还可以设置父容器的字体大小为零,font-size:0

7. IE6下这两个层中间怎么有间隙


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

这个IE的3PX BUG也是经常出现的,解决的办法是给.right也同样浮动 float:left 或者相对IE6定义.left margin-right:-3px;

8. list-style-image无法准确定位的问题


提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

这个list-style-image的定位问题也是经常有人问的,解决的办法一般是用li的背景模拟,这里采用相对定位的方法也可以解决

9. LI中内容超过长度后以省略号显示的方法


提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

此方法适用与IE与OP浏览器

10.web标准中定义id与class有什么区别吗


提示:您可以先修改部分代码再运行

 


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

一.
web标准中是不容许重复ID的,比如 div id="aa" 一个页面中不容许重复2次,而class 定义的是类,理论上可以无限重复的, 这样需要多次引用的定义便可以使用他.class还可以同时引用多个类,不同的类之间用空格隔开.
二.
属性的优先级问题,ID 的优先级要高于class,看上面的例子
三.
方便JS等客户端脚本,如果在页面中要对某个对象进行脚本操作,那么可以给他定义一个ID,否则只能利用遍历页面元素加上指定特定属性来找到它,这是相对浪费时间资源,远远不如一个ID来得简单.

11.如何垂直居中文本


提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

给容器设置一个与其高度相同的行高就可以了

12.如何对齐文本与文本输入筐


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

遇到此种问题,设置文本框的    vertical-align:middle 就可以了

13.为什么FF下面不能水平居中呢


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

FF下面设置容器的左右外补丁为auto就可以了

14.为什么FF下文本无法撑开容器的高度


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

标准浏览器中固定高度值的容器是不会象IE6里那样被撑开的,那我又想固定高度,又想能被撑开需要怎样设置呢?办法就是去掉height设置min-height:200px;  这里为了照顾不认识min-height的IE6 可以这样定义:
{
height:auto!important;
height:200px;
min-height:200px;
}

15.为什么IE6下容器的宽度和FF解释不同呢


提示:您可以先修改部分代码再运行



复制内容到剪贴板
代码:

问 题的差别在于容器的整体宽度有没有将边框(border)的宽度算在其内,这里IE6解释为200PX ,而FF则解释为220PX,那究竟是怎么导致的问题呢?大家把容器顶部的xml去掉就会发现原来问题出在这,顶部的申明触发了IE的quirks mode,关于quirks mode、standards mode的相关知识,请参考:http://www.microsoft.com/china/msdn/library/webservices /asp.net/ASPNETusStan.mspx?mfr=true

16.为什么web标准中IE无法设置滚动条颜色了


  提示:您可以先修改部分代码再运行

















































































 

复制内容到剪贴板
代码:

解决办法是将body换成html

17.为什么我定义的样式没有作用呢


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

这里你无法用.aa定义到li 遇到这种情况怎么解决呢?答案是提高.aa 的优先权 比如#aa ul li.aa 优先权相关文章参考-baidu搜索关键词: CSS的优先权

18.为什么无法定义1px左右高度的容器


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

IE6下这个问题是因为默认的行高造成的,解决的方法也有很多,例如:overflow:hidden | zoom:0.08 | line-height:1px

19.为什么这个背景颜色无法显示


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

IE中设置有背景色的ul并没有显示出来,这个属于haslayout问题,解决的办法也很多参考:http://bbs.blueidea.com/viewthread.php?tid=2636904

20.怎么样才能让层显示在FLASH之上呢


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

解决的办法是给FLASH设置透明<param name="wmode" value="transparent" />或者<param name="wmode" value="opaque" />

21.怎样使一个层垂直居中于浏览器中


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

这里我们使用百分比绝对定位,与外补丁负值的方法,负值的大小为其自身宽度高度除以二

22 .图片垂直于容器内

复制内容到剪贴板
代码:

参考:http://bbs.blueidea.com/thread-2666987-1-1.html

23.如何让三列横向排列


提示:您可以先修改部分代码再运行

 


  提示:您可以先修改部分代码再运行

 

提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

横向排列DIV可以使用浮动的方式比如float:left,或者用内联方式,还可以绝对定位对象等等.

24.通用的加入收藏夹代码


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

经常有朋友说他的加入收藏夹代码只支持IE,上面的例子可以很好的解决这个问题,在IE6-7. FF2.0  OP9.0中测试通过

25.复制到系统剪贴板之IE,ff兼容版


 提示:您可以先修改部分代码再运行

26.javascript为FF设置首页


提示:您可以先修改部分代码再运行

27.IE6使用滤镜使PNG图片透明后,容器内链接失效的问题。


  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

解决方法是为链接定义一个相对定位属性。position:relative

28.禁用文本框中文输入法的通用方法。

复制内容到剪贴板
代码:

IE可以用ime-mode:disabled,firefox3也开始支持IE的这一私有属性

 



  提示:您可以先修改部分代码再运行


复制内容到剪贴板
代码:

对于其他不支持的浏览器可以用如下方法模拟



 


 

 

标签: web, 大全, 常见, 标准

apache的多站点配置方法

本文来自小屋sjolzy.cn【原创】

 



例:主机IP是:192.168.1.1
你的主机上有三个域名:
www.a.com 网页文件放在E:\web\www\1
www.b.com 网页文件放在E:\web\www\2
www.c.com 网页文件放在E:\web\www\3

apache的httpd.conf中加入
#设置不同的域名到不同的目录
NameVirtualHost 192.168.1.1
<VirtualHost 192.168.1.1>  
DocumentRoot "E:\web\www\a"
ServerName www.a.com            
</VirtualHost>

<VirtualHost 192.168.1.1>  
DocumentRoot "E:\web\www\b"
ServerName www.b.com            
</VirtualHost>

<VirtualHost 192.168.1.1>  
DocumentRoot "E:\web\www\c"
ServerName www.c.com            
</VirtualHost>