3. 网页采集器

标签： Hawk文档

1. 原理（建议阅读）

网页采集器的功能是获取网页中的数据（废话）。通常来说，目标可能是列表（如购物车列表），或是一个页面中的固定字段（如JD某商品的价格和介绍，在页面中只有一个）。因此需要设置其读取模式。传统的采集器需要编写正则表达式，但方法过分复杂。

如果认识到html是一棵树，只要找到了承载数据的节点即可。XPath就是一种在树中描述路径的语法。指定XPath，就能搜索到树中的节点。

有关XPath的详细信息，建议参考网上相关章节。

![QQ截图20160501105743.jpg-20kB][1]

手工编写XPath也很复杂，因此软件可以通过关键字，自动检索XPath，提供关键字，软件就会从树中递归搜索包含该数据的叶子节点。因此关键字最好是在页面中独一无二的。

如上图所示，只要提供“北京”和“42”这两个关键字，就能找到parent节点，进而获取div[0]和div[1]这两个列表元素。通过div[0]和div[1]两个节点的比较，我们就能自动发现相同的子节点（name,mount）和不同的节点（北京:上海,37:42）。相同的节点会保存为属性名，不同的节点为属性值。但是，不能提供北京和37，此时，公共节点是div[0]，这不是列表。

软件在不提供关键字的情况下，也能通过html文档的特征，去计算最可能是列表父节点（如图中的parent）的节点，但当网页特别复杂时，猜测可能会出错，所以需要至少提供两个关键字（属性）。

本算法原理是原创的，可查看源码或留言交流。

2. 两种工作模式

Hawk把网页分成两种类型:

列表(List)->多文档模式
- 如二手房房源信息
- 某个购物清单
普通文档（One）->单文档模式
- 如京东的某个商品页面
- 某条新闻页面

对一些复杂的页面，可能包含多个列表和文档。Hawk建议你一次只抓取其中的一类信息，同时抓取多类信息会相当复杂。

你可以在网页采集器的【工作模式】下拉菜单中选择目标模式，默认List.

注意:

当你没有为网页采集器添加任何属性时，默认行为是返回只有一个字段Content的单文档，内容为整个页面。

单文档和多文档模式，会让网页采集器在数据清洗模块中产生不同的行为。建议阅读...

基本列表

我们以爬取链家二手房为例，介绍网页采集器的使用。首先双击图标，加载采集器：

在最上方的地址栏中，输入要采集的目标网址，本次是

　http://bj.lianjia.com/ershoufang/

![image_1aur41jc51vi6fa71eu0qaa19bv9.png-48.9kB][2]

并点击刷新网页。此时，下方展示的是获取的html文本。原始网站页面如下：

![QQ截图20160501121150.jpg-88kB][3]

可以点击复制到粘贴板，方便使用其他工具对获取的页面进行搜索。

全自动模式

直接点击手气不错,第一次弹出来的列表可能不是我们想要的，没关系。关闭当前窗口，会弹出如下的对话框：

![image_1aur4cis61djc147c2b1e101o6um.png-44.5kB][4]

选择否，即可继续检查下一个可能的列表目标，直到检索到你要的内容为止，属性的名称是自动推断的，如果不满意，可以修改列表第一列的属性名，在对应的列中敲键盘回车提交修改。之后系统就会自动将这些属性添加到属性列表中。最后点击是，确认结果。

你会发现，生成的数据中不包含超链接，因为超链接是不可见的标签(attribute)，Hawk默认是不检索之的，需要勾选提取标签 即可。

手动模式

由于软件不知道到底要获取哪些内容，因此需要手工给定几个关键字，让Hawk搜索关键字，并获取位置。

以上述页面为例，通过检索820万和51789（单价,每次采集时都会有所不同），我们就能通过DOM树的路径，找出整个房源列表的根节点。

下面是实际步骤

![QQ截图20160501121344.jpg-21.6kB][6]

由于要抓取列表，所以读取模式选择List。填入搜索字符700，发现能够成功获取XPath, 编写属性为“总价” ，点击添加字段，即可添加一个属性。类似地，再填入30535，设置属性名称为“单价”，即可添加另外一个属性。

如果发现有错误，可点击编辑集合，对属性进行删除，修改和排序。

你可以类似的将所有要抓取的特征字段添加进去，或是直接点击手气不错，系统会根据目前的属性，推测其他属性:

![QQ截图20160501121405.jpg-138.5kB][7]

结果检查

工作过程中，可点击提取测试 ，随时查看采集器目前的能够抓取的数据内容。这样，一个链家二手房的网页采集器即可完成。可属性管理器的上方，可以修改采集器的模块名称，这样就方便数据清洗 模块调用该采集器。

3. 单文档模式

该模式只能从一个网页中抽取一个文档出来。你可以设置多个属性，这样采集器就会从网页中依次将其抽取出来。

以抓取新闻内容为例： http://www.ce.cn/xwzx/gnsz/gdxw/201609/21/t20160921_16119449.shtml 页面如下： ![image_1at5pff7g7m71jtq1b2o1hlq1dt9.png-76.5kB][8]

你可以在搜索关键字中，搜索【2016年09月21日】，属性填写为时间，搜索【人民日报】，属性为【来源】。

提取正文需要注意，你可以随意填写正文中的一部分关键字，例如【量子隐形传态是一种传递量子】，这样Hawk就检索出了XPath: 前面省略/div[1]/p[1]

如果你直接使用这个路径，则抓取的内容只有这一段。为了抓取正文，我们可以将/p[1]部分去掉，只获取其父节点。这样就能抓取全文数据（是不是很赞）？

如果你想获取原始正文的html，则在属性列表的对话框里，可以勾选某个属性的【HTML标签】。

此时，点击提取测试，看看是不是获取了所需的数据？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

3. 网页采集器

3. 网页采集器

1. 原理（建议阅读）

2. 两种工作模式

基本列表

全自动模式

手动模式

结果检查

3. 单文档模式

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally