爬虫准备工作

2021-04-21

Word count: 390 | Reading time≈ 1 min

以爬取豆瓣电影Top250为例子来学习

需要分析的点

第一页的URL：https://movie.douban.com/top250

第二页的URL：https://movie.douban.com/top250?start=25&filter=

把filter参数去掉也正常返回

https://movie.douban.com/top250?start=25

我把start参数修改成27，也能正常返回：

通过这三次响应可以分析出来，start参数是电影序号，如果是27就从显示28个开始显示，至于为什么我猜可能是因为豆瓣在存储这个数据的时候下标从是0开始的。并且每一页25部电影，250部电影数据分10页。

利用开发者工具来分析网页，F12打开开发者工具，在Elements下找到需要的数据位置

点击工具栏最左边的箭头可以定位元素位置，可以快速找到我们需要的数据，最下面那一行也很有用，显示了查找元素所在的标签层级，方便之后获取数据

Network里可以查看HTTP请求相关内容，可以看看请求包里有什么，比如常见的cookie、User-Agent等等

有些内容只有登录状态下才能查看，所以要先模拟登录，查看网站的cookie、用户名密码参数等信息然后在python请求的时候加上这部分信息模拟登录，这部分还不是很了解，只是知道有这个点

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.