本想写点什么,可是学了这么久之后,我也不知道该怎么写…..( ╯□╰ )

千言万语汇总一句话,import resqusets

得益于有这个强大的库,爬取一个网站变得十分简单

例如Pixiv的每日推荐

这个页面是使用Ajax动态加载的,那么我们需要抓包找到请求地址

好了,现在我们知道了请求地址和请求体(GET),同时知道了响应内容是json格式的,这就变得十分简单了

下面,分析一下程序的思路,你需要使用resqusets.get方法请求内容,然后响应内容为json格式数据,可以使用json()转化为字典,然后可以把需要的数据直接取出来

其中某些pid的图片可能有多张,如果想要完整爬取就需要提取pid再做一次解析。

好了,一篇流水账写完了,其实学习最快的方法就是实践♪(´▽`)

其实我自己写了一个小程序,使用redis来存储pid实现去重,爬取每日top500下所有pid中的所有插画。这个小程序在第一次运行时,爬取了1800张图片…..我号竟然还在..ψ(._. )>

该项目已经在Github开源,后期会做一些维护和修改(佛系)