爬虫的步骤

踩点

访问频率

先判断目标站是否有限制访问频率,比如 dy2018.com 就有限制,访问频率太高的话,部分页面会 502,那么就要加入「二次采集」。

不过限制的站点还是比较少的。

html 布局

流式列表页面还没弄过,很少这种站点。

采集内容

首页

推荐、最近更新

列表页

有上一页、下一页的页数列表。

内容页(内页)

爬虫脚本

脚本里,要有两个 action,一个 update,一个 create。

参数也可以设置以下几个:

  • startPage # 从哪一页开始
  • startId
  • debugId

发表评论

电子邮件地址不会被公开。 必填项已用*标注