网络爬虫

通常在虚拟机里测试整个系统,需要产生一定的实时流量,查看分析结果,就用一个脚本,爬很多知名的网站,当然为了同时产生返回Status Code为404的,也会爬一些本身就不存在的URL,其实爬虫这名字虽然时髦,其实跟用户通过浏览器浏览网页归根结底差别不是太大,因为他们的本质都是将服务器端的文件抓到了客户端然后进行分析或者浏览

用户通过浏览器输入URL,这时浏览器作为客户端对服务器发出请求,成功返回后就将服务器端的文件抓到了客户端,然后通过浏览器解析HTML将内容解释,展现给观众

网络爬虫同样也是通过URL来进行寻找自己的网页,把对应的网络资源读出来,保存到本地,相当于通过程序,脚本或者说命令行模拟浏览器的功能

搜索引擎要处理互联网网页,数据量巨大,要下载网页,本地还要镜像备份,所以这玩意是要靠技术的,各种性能,各种算法,各种优化,当然目前是那些巨头考虑的

最简单的爬,wget http://www.lihuia.com,平时虚拟机里做测试,就是用了一堆wget,让本地产生实时流量,但是还是低调点,别一直爬,否则不到30分钟,肯定被这些大牌公司认为是攻击,给限制访问了

# wget http://www.lihuia.com
2014-11-09 16:59:45 (25.3 KB/s) – “index.html.” 已保存 [49840]

python里通过urllib2可以同样得到

>>> import urllib2
>>> html = urllib2.urlopen(‘http://www.lihuia.com’).read()

猜想目前流行的大数据挖掘,可能就是通过爬大量的网站,当然为了性能,文件可能不一定要下载,可以通过管道得到文件内容,然后根据所要爬的关键字,通过正则表达式匹配或者其他方式,挖掘想要得到的信息,做相应的处理,当然没干过这行,仅凭猜想

发表评论