本想写点什么,可是学了这么久之后,我也不知道该怎么写.....( ╯□╰ )
千言万语汇总一句话,import resqusets
得益于有这个强大的库,爬取一个网站变得十分简单
这个页面是使用Ajax动态加载的,那么我们需要抓包找到请求地址
好了,现在我们知道了请求地址和请求体(GET),同时知道了响应内容是json格式的,这就变得十分简单了
下面,分析一下程序的思路,你需要使用resqusets.get方法请求内容,然后响应内容为json格式数据,可以使用json()转化为字典,然后可以把需要的数据直接取出来
其中某些pid的图片可能有多张,如果想要完整爬取就需要提取pid再做一次解析。
好了,一篇流水账写完了,其实学习最快的方法就是实践♪(´▽`)
其实我自己写了一个小程序,使用redis来存储pid实现去重,爬取每日top500下所有pid中的所有插画。这个小程序在第一次运行时,爬取了1800张图片.....我号竟然还在..ψ(._. )>
该项目已经在Github开源,后期会做一些维护和修改(佛系)
评论 (0)