模拟登录

当抓取需要登录的页面时,简单的方法是在浏览器中真实登录后将cookie复制到“采集器设置»请求头信息»抓取页面»Cookie”中,由于cookie通常会有时间限制很容易失效,需要经常复制新的cookie字符串

为解决这个问题,可以通过添加“采集器设置»起始页网址»前置页”来模拟登录

以官网登录界面为例:https://www.skycaiji.com/login

使用谷歌浏览器“检查”功能测试,输入账号密码点击登录,获取到表单数据:

模拟登录-表单数据

添加前置页,将“表单网址”复制到“前置页网址”中,开启“请求前置页网址”将请求方式设置为“post”,添加“发送数据”输入“表单数据”

模拟登录-前置页规则

勾选“全局抓取页面时使用当前页COOKIE”,保存后在底部看到“测试抓取前置页”,点击测试查看前置页抓取结果

模拟登录-测试抓取前置页

复杂参数

以上示例比较简单,通常情况下会遇到动态参数、验证码等问题

动态参数:可以将动态参数所在页面添加为前置页,使用“提取内容标签”将动态参数抓取出来,然后在“登录”前置页的“发布数据”中添加参数,参数值调用刚才设置的内容标签

验证码:同理将验证码所在页面添加为前置页,使用“提取内容标签”将验证码的链接抓取出来,然后使用函数,在函数中进行识别操作(由于验证码识别技术非常复杂官方无法提供支持,建议在函数中调用第三方api接口来实现)