不写代码爬数据-0 - 君子的梦呓

0 课前准备
1 打开 web scraper
2 爬取某乎上的数据
3 爬取更多页
4 爬取更多的数据
5 相关说明

0 课前准备

1.谷歌浏览器，这个去这里下载 2.Web Scraper , 能科学上网的直接去这里下载安装，不能科学上网的就到百度网盘

链接: https://pan.baidu.com/s/1sh7s-PZdkk-ppUFGouyzEg 提取码: 3d9h

安装的时候如果出现问题，可以查看这个

安装完成之后，能在谷歌浏览器上看到 Web Scraper

1 打开 web scraper

打开 Web Scraper 其实很简单, 按 F12 或者点击鼠标右键，然后点击检查如果你的界面是下图这样，左右分开的，那么需要调整一下先点击右上角那三个点，然后点击 Dock side 里面的 Dock to bottom 当你能看到 Web Scraper 这个的时候，点击一下就能打开了。

2 爬取某乎上的数据

https://www.zhihu.com/people/excited-vczh/answers

进入上面这个链接，打开web scraper

先点击 Create new sitemap，然后点击 Create Sitemap，然后会跳转到一个新的界面跳转到这个新的界面之后，网页的链接，也就是我刚刚给出的链接填到 Start URL 里面

Sitemap name 填自己能记住的词，英文+数字都可以，只能用英文开头。

然后点击 Create Sitemap 点击 Create Sitemap之后会跳转到一个新的界面，然后点击 Add new selector 然后会跳转到一个新的界面， Select 这里先选择标题这个数据，先点击 Seletor 这一行里面的 Select 然后会出现下图这一个东西，需要的就是它。 Select 在页面上用鼠标点击两个标题，然后就能选中所有的标题，接着点击一下 Done selecting

Select

接下来的就是在 id 那填个名字，勾选一下 Multiple ，接着点击 Save selector。 Save selector 之后会跳转到一个新的界面，点击一下 sitemap 。。。，然后再点击 Scrape Scrape 点击 Start scraping，然后等它自己运行运行完成之后，就能看到一个 refresh，点击一下， refresh 就能看到数据点击 sitemap 。。。，然后再点击 Export data as CSV，然后点击 Download now 就能下载到爬取的数据了。打开看一下下载回来的文件查看数据

3 爬取更多页

上面的只有一页，对不对，可以有更多页

先来看一下页面链接的规则，

answers?page=1 answers?page=2 answers?page=3 answers?page=4

这个是有顺序的

页面链接我们点击一下 sitemap 。。。，然后点击 Edit metadata 进来之后，我们可以添加多个 Start URL，点击那个【+】就可以了

Save sitemap ，然后去 Scrape Scrape 数据是多了，没错，但是一个一个填写链接，直接就能填写到自闭，对不对。

Edit metadata，进入去修改一下，把链接改成 https://www.zhihu.com/people/excited-vczh/answers?page=[1-3]

然后保存，运行一下看看。 Edit metadata

4 爬取更多的数据

显然，上面的数据只有一个 title，没有回答的内容，也没有点赞/评论数

所以得加上，再创建一个 sitemap，或者直接把刚刚的 title 删掉，回到最初的起点,Add new selector 进来之后点击 Type 那一行，选择 Element Element 然后点击 select，去选中整个回复的 div，先点击一个，然后在点击一个，web scraper 会自动把同类型的选中，然后 Done selecting 随便命个名，勾选 Multiple，然后 Save。 Save

接着就是点击刚刚创建的 selector，进入里面进入刚刚创建的 selector 进来之后还是 Add new selector 这一个不用勾选 Multiple 阅读全文是需要点击的，那么 Type 就选择 Popup Link，一样不用勾选 Multiple，然后 Save。点击阅读全文然后是回复接着是发布时间赞同数，这里需要在 Regex 里面填写 [1-9]\d*，这里是个正则。点赞数评论数据，同样用正则提取数字。整体的样子我们可以看一下整体的结构，点击 Sitemap 。。。然后点击 Selector graph 一个一个点开之后是这样样子的