Tag Archive : 爬虫

/ 爬虫

PHP继续爬主页

2014-12-26 23:58:26 | PHP | 没有评论

半夜看着同学新换的cnblogs,瞧了瞧主页html的内容,居然标签内容和wordpress相差甚远,显然不是一家人,不来一家模子,看着痒痒的,继续来爬一把,这次懒得用python爬,比较单调,换换口味,用好久没动过手的PHP爬一爬,其实思路大同小异,只不过处理细节差异而已

先拿自己的wordpress试试水,还是通过正则表达式找到相关分类目录行,然后截取出关键字,做起来比较简单,就直接以脚本形式[……]

Read more

Python网络爬虫试水分类目录

2014-11-22 01:16:47 | Python | 没有评论

看旁边同事阿福每晚回去刷题研究算法,我来了一句,咋们用python把抓包分析改写了耍耍如何,pylibpcap和pynids接口都有,只不过上个月尝试过,在两者衔接的地方一直没有搞定,有福同学老道地说了一句:我倒是只想把HTTP部分改写下,听了他的话,感觉的确如此,那两部分都已经很成熟了,改来改去也就那模样,倒是HTTP的解析貌似更合适,过了会,他又来了句:我觉得还不如搞一个网络爬虫

网络爬虫只是[……]

Read more