我不懂,我乱说的🤣

前言

爬虫是一门技术,有很多种方式或者是工具去实现,可以用 Excel 、采集器、扩展程序、写代码 等去实现。

都是工具,只不过是易用性、使用范围、效率等有所区别,仅此而已。

Excel

不要看不起 Excel,真的可以用来爬取数据的,用 Excel 爬数据

采集器

采集器有很多,八爪鱼、火车头之类的,但是我只推荐 后羿采集器

扩展程序

谷歌浏览器可以添加一些扩展程序来实现很多功能,油猴、Web Scraper之类的。

单纯说爬取数据的话,我觉得 Web Scraper 还是挺好的。

webscraper中文网: http://www.iwebscraper.com/

不写代码爬数据

写代码

网页端爬虫

具体爬取的是网页端上面的一些数据

直接请求接口

先是对网站的一些接口进行分析,然后使用代码来请求接口,最终把请求到的数据入库。

自动化模拟人工

Selenium / Pyppeteer

自动化 + 拦截接口

Selenium / Pyppeteer 结合 mitmproxy / anyproxy

requests

应用端爬虫

具体可以分为两种,一种是纯爬取,一种是自动化+拦截接口。

直接请求接口

先用 Fiddler / Charles / Wireshark 抓包分析,找到接口,然后构造代码去请求/爬取数据

纯爬取

使用 Appium / Airtest 来控制手机爬取数据

自动化 + 拦截接口

使用 Appium / Airtest 来控制手机,手机连接 mitmproxy / anyproxy 的代理,使用 mitmproxy / anyproxy 拦截数据,直接把手机端请求的一些网络请求拦截下来,把里面的 json 数据取出,然后入库。