我不懂,我乱说的🤣
前言
爬虫是一门技术,有很多种方式或者是工具去实现,可以用 Excel 、采集器、扩展程序、写代码 等去实现。
都是工具,只不过是易用性、使用范围、效率等有所区别,仅此而已。
Excel
不要看不起 Excel,真的可以用来爬取数据的,用 Excel 爬数据
采集器
采集器有很多,八爪鱼、火车头之类的,但是我只推荐 后羿采集器
扩展程序
谷歌浏览器可以添加一些扩展程序来实现很多功能,油猴、Web Scraper之类的。
单纯说爬取数据的话,我觉得 Web Scraper 还是挺好的。
webscraper中文网: http://www.iwebscraper.com/
写代码
网页端爬虫
具体爬取的是网页端上面的一些数据
直接请求接口
先是对网站的一些接口进行分析,然后使用代码来请求接口,最终把请求到的数据入库。
自动化模拟人工
Selenium / Pyppeteer
自动化 + 拦截接口
Selenium / Pyppeteer 结合 mitmproxy / anyproxy
requests
应用端爬虫
具体可以分为两种,一种是纯爬取,一种是自动化+拦截接口。
直接请求接口
先用 Fiddler / Charles / Wireshark 抓包分析,找到接口,然后构造代码去请求/爬取数据
纯爬取
使用 Appium / Airtest 来控制手机爬取数据
自动化 + 拦截接口
使用 Appium / Airtest 来控制手机,手机连接 mitmproxy / anyproxy 的代理,使用 mitmproxy / anyproxy 拦截数据,直接把手机端请求的一些网络请求拦截下来,把里面的 json 数据取出,然后入库。