爬山虎采集器是一款超好用的网页采集工具,能将用户关注的网页数据全部采集。本软件支持一键提取数据,对于一些淘宝客来说,这款软件是他们必备的软件。喜欢收集网页数据的朋友,这款爬山虎您不能错过。
一键提取数据
简单易学,通过可视化界面,鼠标点击即可抓取数据
快速高效
内置一套高速浏览器内核,加上HTTP引擎模式,实现快速采集数据
适用各种网站
能够采集互联网99%的网站,包括单页应用Ajax加载等等动态类型网站
向导模式
简单易用,轻松通过鼠标点击自动生成
脚本定时运行
可按照计划定时运行,无需人工
独创高速内核
自研的浏览器内核,速度飞快,远超对手
智能识别
对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别
广告屏蔽
定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则
多种数据导出
支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等
下面小编就以淘宝页面采集为例,好好给大家讲解怎么使用爬山虎采集器:
爬山虎采集器如何采集淘宝数据?
1、淘宝列表页采集(淘宝奶粉信息采集)
采集内容:搜索”奶粉“关键词后,出现的列表信息
采集字段:名称,图链接,价格,销量,店铺名,产地等。
第一步:新建任务
进入主页,选择“新建任务”输入需要采集的网址。
351第二步:抓取数据
面板中,选择“分页设置"按钮,点击“自动识别分布",采集器方可自动识别抓取商品列表信息。
412第三步:设置
(1)浏览器设置:为了提高加载速度,可以设置:拦截广告,禁用flash,禁止弹窗等
(2)计划任务:根据个人需要,无需要人工操作,可以按时按量自动采集导出数据。
435第四步:数据加载、导出和保存
(1)加载数据
任务列表中:选中任务/点击开使
327即可查看抓取数据的进程,也可以手动暂停停止。
197(2)导出数据
选中任务/右击/导出数据
(3)保存数据
选择合适的导出方式及编码
我们选择excel作为导出为格式,数据导出后如下图
一、如何导出导入任务规则
1. 如何导入任务规则
选中一个分组文件夹,然后右击,选择导入任务
334然后选择需要导入的XML任务文件,注意是.xml后缀的文件。
2. 如何导出任务规则?
在左侧的任务列表,选中需要导出的任务规则,右击任务。
然后,弹出保存窗口,选择保存的目录和文件名称
二、采集网页提示浏览器版本低怎么办?
采集少数网页时(比如知乎),会出现提示浏览器版本太低,而无法显示正常内容。
这里,我们可以尝试修改浏览器的UserAgent(UA)。 在任务编辑器,第三步,UserAgent设置,选择最新版本的UA。
更改完成后,在第二步重新加载下网页就可以了。
注意:重新加载网页时,确认地址栏中的网址正确,而非跳转后地址
2 软件同时支持32位64位运行环境;
3 如果软件无法正常打开,请右键使用管理员模式运行。