爬虫准备工作

以爬取豆瓣电影Top250为例子来学习

需要分析的点

URL分析

第一页的URL:https://movie.douban.com/top250

image-20210421165440430

第二页的URL:https://movie.douban.com/top250?start=25&filter=

filter参数去掉也正常返回

https://movie.douban.com/top250?start=25

image-20210421165502559

我把start参数修改成27,也能正常返回:

image-20210421165732445

通过这三次响应可以分析出来,start参数是电影序号,如果是27就从显示28个开始显示,至于为什么我猜可能是因为豆瓣在存储这个数据的时候下标从是0开始的。并且每一页25部电影,250部电影数据分10页。

分析页面

利用开发者工具来分析网页,F12打开开发者工具,在Elements下找到需要的数据位置

点击工具栏最左边的箭头可以定位元素位置,可以快速找到我们需要的数据,最下面那一行也很有用,显示了查找元素所在的标签层级,方便之后获取数据

image-20210421183657096

Network里可以查看HTTP请求相关内容,可以看看请求包里有什么,比如常见的cookie、User-Agent等等

image-20210421183146701

是否需要模拟登录

有些内容只有登录状态下才能查看,所以要先模拟登录,查看网站的cookie、用户名密码参数等信息然后在python请求的时候加上这部分信息模拟登录,这部分还不是很了解,只是知道有这个点

参考

python模拟登录的四种方法

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2020-2021 Blog of Tianze

请我喝杯咖啡吧~

支付宝
微信