1. 首页
  2. 网络营销赋能

不用写代码,30 秒抓取李笑来所有微博

不用写代码,30 秒抓取李笑来所有微博

学习金字塔中说道,“最有效的学习方法就是教别人”。

如果我们学到某些知识,能清楚的讲给别人听;
或者我们学会某些技能,可以教给别人使用;

那就说明,我们真的学会了。

互联网从业者,平时可能需要到微博、百度,知乎之类的网站,统计一些数据,做产品分析,用户喜好之类的分析。

但是有时候数据量比较大,手动统计太费时间,编程的话,门槛太高。

我给大家分享一个谷歌插件,webscraper,不用写代码,点点鼠标就可以抓取互联网上大量的数据。

这个插件,功能十分强大。

微信公众号,微博,百度,知乎、淘宝等等,只要是网页上可以显示的信息,都可以抓取到。

比如:咪蒙的公众号。我只用了30秒设置插件,然后出去喝了杯水,回来后,就看到数据结果:咪蒙的631篇文章标题。

由于数量太大,我只截取了最后一段。

不用写代码,30 秒抓取李笑来所有微博

真是太爽了,有没有。

想象一下,你打开一个网页,设置抓取格式,软件开始工作。你站起来,伸个懒腰,去外面倒一杯咖啡,回来后,需要的数据已经完整展现在你面前,多方便。

今天我来给大家分享这个软件——webscraper。

我们一步一步来,这次我们用李笑来微博作为例子。

一、下载安装

我们需要安装两个软件:

  • Chrome浏览器
  • webscraper插件

谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。

webscraper插件安装方法有两种:

1、直接在浏览器输入地址:http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

不用写代码,30 秒抓取李笑来所有微博

按照提示点击“安装”即可

2、从云盘下载webscraper安装包:

链接:https://pan.baidu.com/s/1bp0Iftd
密码: 11kt

下载好以后,
(1)Chrome 浏览器中输入:chrome://extensions/
(2)将下载好的文件拖动到此此页面
(3)根据提示点击:Add extensions;即完成安装。

以上,所需软件就已安装完毕。

二、打开软件

webscraper打开的入口有三种方法:
1、windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools
2、mac: Cmd+Opt+I, 或者 Tools / Developer tools
3、或者:右键——> 审查元素(适用于各个系统)
不用写代码,30 秒抓取李笑来所有微博
如上图,大家可以看到,红框标注的地方,出现了一个webscraper,没有安装之前是看不到的。

三、创建sitemap

不用写代码,30 秒抓取李笑来所有微博
如上图,我们点击“create sitemap”,进入下面👇图片;
不用写代码,30 秒抓取李笑来所有微博
如上图:

这个步骤需要输入 2 个信息:

  • Sitemap name:根据自己的实际情形自定义,比如抓的是张佳玮的文章,就取名  zhangjiawei。
  • Start URL:当前网址 (可直接从浏览器复制)。我们的话要抓取李笑来的微博,就填 https://weibo.com/bylixiaolai?refer_flag=1001030101_&ssl_rnd=1509760362.444&is_hot=1

最后点击  Create Sitemap 按钮即可

四、设置selector

不用写代码,30 秒抓取李笑来所有微博
如上图,点击“Add new selector”,进入下图;
不用写代码,30 秒抓取李笑来所有微博

如上图,我们按照标号来挨个看。

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
  2. 选择 “Type”,此处选择Element scroll down
  3. 点击 “Select” 进行元素抓取
  4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
  5. 点击第一个帖子
  6. 点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!”
  7. 勾选 “Multiple”
  8. 输入 Delay(延迟时间,意思是等待多长时间后,再进行抓取,建议填 2000)
  9. 点击”Save Selector“

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

不用写代码,30 秒抓取李笑来所有微博

点击上图的“content”,进入下图:
不用写代码,30 秒抓取李笑来所有微博

如上如,标号1,你会发现,这里多了一个content。
我们点击这里,标号2的地方,“Add new selector”,进入下图:
不用写代码,30 秒抓取李笑来所有微博

如上图:我们按照标号依次看:

  1. 输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))
  2. 选择 “Type”,此处选择Text
  3. 点击 “Select” 进行元素抓取
  4. 上一步,点击“Select”后,会出现标号4出悬浮的工具框
  5. 注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。
  6. 点击”Save Selector“,其他的都不用设置。

以上,我们抓取李笑来微博的所有设置都已完成。

五、开始抓取

这步,我们开始正式抓取:

不用写代码,30 秒抓取李笑来所有微博
如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:
不用写代码,30 秒抓取李笑来所有微博

这几个都默认就行,直接点击标号4的“Start scraping”。

点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。

你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。

完毕后,会出现抓取的数据,如下图:
不用写代码,30 秒抓取李笑来所有微博

六、导出到本地电脑

不用写代码,30 秒抓取李笑来所有微博
如上图,点击中间这列,点击下拉框中的“Export data as CSV”,会进入下图。
不用写代码,30 秒抓取李笑来所有微博

如上图,点击“Download now”,即可将数据下载到本地,以表格的形式存储。

文件可以用excel打开,mac下用numbers打开即可。

至此,李笑来的微博我们已经全部抓取完毕了。

怎么样,是不是很厉害。

其实这个软件的功能远不止此,大家操作起来吧。


这个工具有时候会受到一些程序员的鄙视,他们说自己会写代码,不屑于用这类工具。

写代码当然可以做到这点,但是,如果你不是专业写爬虫的程序员,你要写一个功能来抓取某些数据,就拿咪蒙公众号历史文章来说,我用这个插件30秒就成完成,你用30秒估计刚打开编辑器,连引用的库都还没写完吧。

所以别来抬杠。。。


 | 明白
来源 | 多元思维Hack(ID:mingbai621)
免责声明:本文仅代表作者个人观点,与穷思笔记网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

发表评论

登录后才能评论

联系我们

 

在线咨询:点击这里给我发消息

邮件:2267450086@qq.com

QR code