不胜其烦的网络爬虫

robbin 2007-04-28
JavaEye网站最近一周以来,被网络爬虫频频光顾,已经封锁了包括微软的一个C段地址,百度的一个IP地址,以及若干不知名的网页爬虫和RSS爬虫。现在把这些导致JavaEye网站访问速度严重变慢的IP地址予以曝光,以惩效尤。

引用
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 58.61.164.0/24
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 65.55.209.0/24
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.34.190
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 219.134.225.57
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 137.82.84.97
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 218.82.24.151
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 218.81.64.35
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 60.28.204.10
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 61.141.190.190
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 203.81.20.0/24
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.160.178.195
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.160.179.137
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.160.179.33
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.160.181.124
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.160.181.126
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.96.19.49
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.160.180.117
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.32.94
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.32.95
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.32.96
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.32.97
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.32.98
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.32.99
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 202.108.22.144
抛出异常的爱 2007-04-28
如果知道IP可不可以反DDOS过去?
或用中型大小的垃圾信息传回去拖慢对方CPU速度。
让他们把我拉进黑名单?

空网页诱捕器之类的入口
爬虫是分不出来哪个是诱捕器的。。
两个同一IP的进入诱捕器就把这个IP封掉

这些都要都写j2ee服务器中太麻烦了
如果写出来的话能否买钱呢?

或者发布一个rss用来记录爬虫
每发现一个增加一个
发动网管一起找
型成一个反爬爬社区。。。
直到把所有的非法爬爬清出市场。
ddandyy 2007-04-28
我说的呢 最近家爱狂慢 经常点完没有反应
dovecat 2007-04-28
抛出异常的爱 写道
如果知道IP可不可以反DDOS过去?
或用中型大小的垃圾信息传回去拖慢对方CPU速度。
让他们把我拉进黑名单?
这个MS是个好主意...
robbin 2007-04-29
今天下午又封了两个IP地址:

引用
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 166.111.96.160
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 220.181.47.5


其中第一个IP地址疯狂爬网页,造成一段时间网站无法正常提供服务,这个IP地址166.111.96.160经查询,来自清华大学 经济管理学院(伟纶楼),严重鄙视之。
robbin 2007-04-29
爬虫还是没完没了,这才一会功夫,又封了两个IP地址:

引用
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 218.81.78.239
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 195.225.177.12


其中第2个IP地址经查询,来自乌克兰
xiaoych 2007-04-29
这样封下去也不是办法……
dovecat 2007-04-29
好象时刻要抓爬虫一样.确实烦.
ddandyy 2007-04-29
估计是RSS虫子
现在一帮无聊的人做这个
robbin 2007-04-29
ddandyy 写道
估计是RSS虫子
现在一帮无聊的人做这个


我估计也是这样的。我统计过,RSS流量占整个JavaEye网站流量的12%,算相当高的比例了。

现在的这些个网站,自己不好好做内容,成天想着走捷径,拿人家的内容,到头来还不是一个个都完蛋掉。

对付这种RSS爬虫,也没有什么好办法,我能想出来的唯一办法就是给RSS里面塞网站推广的内容,你要爬,就给我一起爬走,免费帮我推广。