21.7K Star力荐!跨平台的开源免费可视化爬虫,让数据采集不再是难题!
00 分钟
2024-4-27
2024-5-2
type
status
date
slug
summary
tags
category
password
icon
朋友们!你是否曾梦想着轻松地从网上抓取数据,却苦于编程技能的门槛?现在,有了EasySpider,这一切都变得触手可及!这不仅仅是一个工具,它是一个革命性的网络爬虫神器,让你能够像专业人士一样,无需编写一行代码,就能轻松设计和执行爬虫任务。无论是动态内容还是复杂页面,EasySpider都能帮你搞定。而且,它完全免费,开源,跨平台,还有活跃的社区支持。准备好了吗?让我们一探究竟,看看EasySpider如何让你的数据采集之旅变得既轻松又高效!
notion image

一、概述

  • EasySpider 是一个开源且免费的可视化网络爬虫工具,允许用户通过图形界面设计和执行爬虫任务,无需编写代码,适合无编程背景的用户以及专业人士使用。
  • 自发布以来,该项目在 GitHub 上已经赢得了超过21.7K的Star,证明了其受欢迎的程度。
notion image

二、软件特点

  • 交互性和用户友好:EasySpider提供点击式的图形用户界面(GUI),让任务设计变得快速而轻松。
  • 灵活性:它能够适应各种网络资源和平台,包括支持动态内容,如由JavaScript生成的内容。
  • 可配置性:用户可以设计包含无限循环、条件判断和字段的复杂爬取任务。
  • 跨平台:EasySpider支持Windows、Linux和MacOS,确保了广泛的适用性。
  • 开源 & 可信:源代码完全公开,透明,用户无需担心隐私泄露的风险。
  • 免费:文档中列出的所有功能均免费。
notion image

三、安装与使用

1.下载安装

访问 EasySpider GitHub Releases 页面获取EasySpider官网下载对应系统的安装包。
notion image

2.设计任务

下载解压后,启动 EasySpider 主程序,选择语言(如中文)。
notion image
点击“设计/修改任务”选项。
notion image
在设计模式页面有3个选项,“使用纯净版浏览器设计”就类似我们在浏览器中隐身模式,不带任何用户信息,一般用的比较多的就是这个选项;“纯净版浏览器设计(手机模式)”适用于一些移动端适配的页面;“使用带用户信息浏览器设计”会保存用户的登录信息,不用每次重新登录。在本次示例中,我们选择了“使用纯净版浏览器设计”选项。
notion image
接下来应用会打开两个窗口,一个是程序设计窗口,还有一个是浏览器窗口。我们选择浏览器窗口,这里展示的是任务列表,我们点击左上角的“创建新任务”来新建一个数据抓取任务。
notion image
以淘宝PC首页为例,在新任务页面中输入网页网址,点击“开始设计”按钮。
notion image
这个时候浏览器会打开淘宝首页,同时大家可以发现在网页右下角多了一个弹窗,这个弹窗就是EasySpider的操作台,里面有一些操作选项和提示。
notion image
我们以抓取“猜你喜欢”这个模块的商品信息为例,当我们鼠标在每个商品卡片上划过时,都会有一个明显的边框,标识这是一个可以选择的元素,这个边框就是EasySpider自动识别的,我们可以在这个卡片上右键进行选中,然后这里只是选中了单个卡片,我们期望是选择所有卡片,在右下角的操作台弹窗中选择“扩大选区”,EasySpider会自动帮我们选择同级别的相似模块,这样就帮我们把所有的商户信息卡片选中了。
notion image
可以看到右下角弹窗中成功捕获到了商品的名称和链接,点击“采集数据”选项,即可采集到所有商品的所有信息,并分成不同字段保存。
notion image
上面的这些操作在流程设计窗口中都会进行图形化展示,还有更多高级选项可以在这里增加,如循环、条件判断、输入文字等等,大家可以根据自己的场景需要自行设计。
notion image

3.保存任务

流程设计完成后记得点击左侧的“保存任务”按钮进行保存,这样后续可以重复执行。
notion image

4.命令行执行任务

软件还可以单独以命令行的方式进行执行,从而可以很方便的嵌入到其他系统中。以我们刚刚保存的这条任务为例,从应用首页进入任务管理页面,点击进入任务详情页,在详情页中点击“本地直接执行(纯净模式)”按钮。
notion image
点击按钮后会打开一个“执行任务说明”的窗口,按照提示我们打开电脑上的终端窗口,进入到EasySpider文件夹,然后拷贝红框中的命令,接口自动执行这条数据抓取命令。
notion image
如下图所示,命令开始正常执行。
notion image
当任务执行完成后,在EasySpider的文件夹下会有一个Data目录,里面存储了每个任务抓取的数据表格。
notion image
打开数据表格可以看到我们抓取的信息,有没有很兴奋,一行代码都没写,就顺利的完成了网页数据的抓取,效率贼高!
notion image

四、更多案例和场景

在EasySpider的GitHub主页上还提供了众多案例和问题解答,常见的问题都有解决方案,包括如何使用 EasySpider 进行各种操作,如 Docker 运行示例、页面滚动设置、登录网站爬取、动态调试、循环点击链接、OCR 识别、验证码处理、IP 切换、流程图逻辑解析等,还提供了 API 调用示例、命令行执行任务指南、并行多任务执行教程等。并且这款开源软件还在持续更新中,相信未来的功能会越来越完善,为作者点赞!
notion image
更多的数据抓取场景太大可以自行探索,就像很多租房的朋友,通过这款工具就可以实现自动抓取房源信息,极大的提高了找房效率。
notion image

五、小结

朋友们,看到这里,如果你对数据采集充满热情,EasySpider就是你的不二之选。无需编程,轻松设计爬虫任务,跨平台支持,还有活跃的社区。现在就下载EasySpider,一起探索数据的无限可能吧!
 

评论
Loading...