学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了 ...

最近总是有人跟我斗图,想了想17年中旬时在网上看过一篇关于爬取斗图网表情包的py代码,但是刚想爬的时候发现网页结构发生了变化,而且斗图网还插入了很多广告,变化其实挺大的,所以临时写了一个爬虫,简单的爬取了斗图网的表情包。从这链接上看,page表示的是第几页,我只爬取了500多页(很奇怪白天明明看到一共有一千多页的,为啥晚上就只有548页?),纯属娱乐,表情包够用就行。

学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了

重点还是在于解析网页,页面上每一栏都是一组图,这组图有一个链接指向,所以我只要提取到这个链接,再打开这个链接,然后在新的网页上提取表情图片,下载下来就行了。解析网页使用了python的xpath,剩下的就是数学思维了,循环嵌套和判断什么的。

源码截图如下(使用的是python3):

学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了

为了保留表情的动态图效果,代码中加了判断是否为gif格式的图片。

学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了

因为网速不好,所以总共等待2秒

爬取的效果图如下:

学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了

于是可以放服务器,慢慢跑,图片下载的速度还是挺快的。

学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了

需要爬虫源码或者表情包的友友们,可以私信我。

后面爬了一部分后觉得用起来不太方便,觉得还是需要给图片命个名字,要不然真正斗图的时候,找不到对应的图片也麻烦,比较难搜索,所以加了几行代码,抓取图片名字,效果图如下,需要对应的图片时候直接搜索你想要的表情包大概的名字就可以了。修改后的源码截图就没放上去了,需要的话私信或者博客。

学会用python网络爬虫爬取斗图网的表情包,聊微信再也不怕斗图了


鲜花

握手

雷人

路过

鸡蛋
用心服务创业者
0851-88611148
周一至周五 9:00-18:00
意见反馈:admin@0851life.com

扫一扫关注我们

Powered by 童码少儿编程 X3.4© 2001-2013 0851life Inc.|网站地图