如何利用网络爬虫寻战网站的所有者

  • A+
所属分类:网站建设

17年的冬季北京的雪的大概是没有办理下来进京证,北京市民没有感受到雪的到来,就迎来了立春的时节了。天气变暖,气温上升,耳边依然回想起赵忠祥老师的声音“春天来了,又到了万物复苏的季节……”也是的一年之际在于春。对于seoer的春天似乎迎来下一个得益于"人机语音交互的AI"的时机。

没错在即将到来春天的世界中,博主也将乘着春天的时间去学习有关于Phtyon爬虫的知识,一方面是拓宽自己的知识面,另一方面不断充实自己,下面的文字是博主作为小白的新手在了解有关于Phtyon爬虫相关的知识。

网络爬虫

  1.1网络爬虫的用途的

假如说,我是一家淘宝店的店主,但是和我竞争的店铺还有好几家,那么我在定价的时候,需要参考相同店铺的定价,但是如果我的产品数量非常庞大,需要经常去浏览其他店铺中的价格,那么这项工作将非常的消耗人力以及时间,此时我们的网络爬虫就可以自动化的完成这项工作。

另外,当我们需要大规模搜集一些网站上的数据时,我们也可以使用网络爬虫的方式代替人工采集,机器可以在人休息的时候继续代替人力工作,也极大的提升了我们的效率。并且我们的数据在收集到之后,还需要做一些整理和分析的工作,如何制作一个工业化标准的爬虫软件。

  1.2网络爬虫的合法性

在访问任意一个网站时,应该对自己的爬取行为所造成的后果有所了解,否则,我们可能将会被封禁IP,甚至是承担法律责任,我们可以通过控制我们的下载以及访问的速度,设置一个标识自己身份的用户代理。我们将在之后的内容中一步步实现这些要求。

一般来说,我们爬取的内容如果只是一些现实生活的数据,那么允许转载的,如果说涉及到了原创内容,可能会受到版权限制,我们可能需要和网站运营商进行沟通。

  1.3检查robots.txt

大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬取该网站时存在的相关限制。该文件是作为一个建议给出,但是一个良好的爬虫是应该遵守这些限制的。关于robots.txt文件的更详细内容可以参考 http://www.robotstxt.org下面的代码是一个示例文件中的内容,可以访问 http://www.taobao.com/robots.txt获取。

User-agent:Baiduspider

User-agent:*

Disallow:/

不允许任何爬虫访问该网站

User-agent:*

Disallow:允许任何爬虫访问该网站,一份空的robots.txt文件也代表这个意思。

User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/junk/

不允许任何爬虫访问该网站的/cgi-bin//tmp//junk/这三个路由,如果我们的爬虫访问到了这些路由,可能IP会被封禁几分钟甚至是永久。

User-agent:BadBot

Disallow:/禁止BadBot代理的爬虫访问网站

User-agent:*

Crawl-delay:?

不允许任何爬虫访问该网站的trap路由,并且我们需要在两次下载之后给一个5秒的抓取延迟。

1.3.2检查网站地图

大部分网站会提供一个Sitemap文件(网站地图)可以帮助爬虫定位网站最新的内容,而不需要爬取每一个网页。

1.3.3l利用网络爬虫寻战网站所有者

对于一些网站,我们可能需要了解他的所有者是谁,这时候需要使用一个叫做 whois的模块使用pip安装:

pip install python-whois

>>>import whois

>>>print whois.whoist("ke.qq.com)

"updated_date":[

"2017-04-1800:00:00",

"2017-04-1806:12:34"

"status":[

"clientDeleteProhibited https://icann.org/epp#clientDeleteProhibited",

"client TransferProhibited https://icann.org/eppi#client TransferProhibited",

"clientUpdateProhibited https://icann.org/eppf#clientUpdateProhibited",

"serverDeleteProhibited https://icann.org/epp#serverDeleteProhibited",

"serverTransferProhibited https://icann.org/eppi#server TransferProhibited",

"serverUpdateProhibited https://icann.org/epp#serverUpdateProhibited",

"clientDeleteProhibited http://www.icann.org./epp#clientDeleteProhibited",

"clientTransferProhibited http://www.icann.org/eppi#clientTransferProhibited"

"clientUpdateProhibited http://www.icann.org/eppi#clientUpdateProhibited"

"name":"Zhou Liguo",

"dnssec":"unsigned",

"city":"Shenzhen"…

我们可以通过这个函数来调取到这个网站的所有者以及相关信息。并且是隶属于QQ的服务器。

 

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: