风岛 风岛
  • 首页
  • 留言板
  • 链接
  • 番组计划
  • 关于
  • 图床
  • 注册
    登录
现在登录。
  • 首页
  • 动态
  • 专题
  • 番剧
  • 链接
  • 关于
首页 笔记 Python学习笔记 - V2.0

Python学习笔记 - V2.0

岛风だぜ 3年 前

本想写点什么,可是学了这么久之后,我也不知道该怎么写.....( ╯□╰ )

千言万语汇总一句话,import resqusets

得益于有这个强大的库,爬取一个网站变得十分简单

例如Pixiv的每日推荐 Python学习笔记 - V2.0-风岛

这个页面是使用Ajax动态加载的,那么我们需要抓包找到请求地址

Python学习笔记 - V2.0-风岛

Python学习笔记 - V2.0-风岛

好了,现在我们知道了请求地址和请求体(GET),同时知道了响应内容是json格式的,这就变得十分简单了

下面,分析一下程序的思路,你需要使用resqusets.get方法请求内容,然后响应内容为json格式数据,可以使用json()转化为字典,然后可以把需要的数据直接取出来

其中某些pid的图片可能有多张,如果想要完整爬取就需要提取pid再做一次解析。

好了,一篇流水账写完了,其实学习最快的方法就是实践♪(´▽`)

其实我自己写了一个小程序,使用redis来存储pid实现去重,爬取每日top500下所有pid中的所有插画。这个小程序在第一次运行时,爬取了1800张图片.....我号竟然还在..ψ(._. )>

该项目已经在Github开源,后期会做一些维护和修改(佛系)

 

#PAPA#pixiv#Python#Spider#学习#爬虫#笔记
0
岛风だぜ
咕咕咕
评论 (0)
返回
    发表评论
猜你喜欢
  • Python学习笔记(暂定)Ver1.7
  • Python学习笔记(暂定)Ver1.6
  • Python学习笔记(暂定)Ver1.5
岛风だぜ
咕咕咕
72
文章
7
评论
28
获赞
相关推荐
EDM七连 – 18/9 – 6
4年 前
魔法记录 - 夏日祭
3月 前
安排上了
5年 前
Copyright © 2018-2023 风岛. Designed by nicetheme. 我们终将毁于我们所热爱的东西 赣ICP备19011603号
隐藏
变装