实验课程

THIS NAME

实验课程

当前位置：首页 >> 实验课程 >> 正文

网络爬虫技术与应用-XPath路径表达式

发布日期：2024-03-06 作者：井睿勍来源：点击：

XPath路径表达式

一、实验目的

1、掌握XPath节点的基本类型，以及如何使用路径表达式来选取XML文档中的节点或节点集。

二、实验设备与器件

PC机、phpstudy（wamp环境）、sublime text或者php storm工具

三、实验内容

相关知识

XPath基本概念

XPath是一门在XML文档中查找信息的语言。

XPath节点

在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。以下面的 XML 文档为例进行说明:

<?xml version="1.0" encoding="UTF-8"?><bookstore>

  <book>

    <title lang="en">python</title>

    <author>Robert</author>

    <year>2010</year>

    <price>39.99</price>

  </book>

   <book>

    <title lang="en">java</title>

    <author>james</author>

    <year>2012</year>

    <price>89.99</price>

  </book></bookstore>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

· 根节点（Root Node）

根节点是一棵树的最顶层，根节点是唯一的。树上其它所有元素节点都是它的子节点或后代节点。对根节点的处理机制与其它节点相同。对树的匹配总是先从根节点开始。文档中的<bookstore>即为根节点。

· 元素节点（Element Nodes）

元素节点相对应的是文档中每个元素，一个元素节点的子节点可以为元素节点、注释节点、处理指令节点和文本节点。元素节点可以定义一个唯一的标识(id)。元素节点可以有拓展名，由两部分组成：命名空间 URL 和本地命名。文档中的<book>即为元素节点。

· 文本节点（Text Nodes）

文本节点包含一组字符数据，任何一个文本节点都没有相邻的兄弟文本节点，而且文本节点没有扩展名。文档中的python即为文本节点。

· 属性节点（Attribute Nodes）

每个元素节点有一个相关联的属性节点集合，元素是每个属性节点的父节点，但属性节点却不是其父元素的子节点。这就是说，通过查找元素的子节点可以匹配出元素的属性节点，但反过来不成立，只是单向的。再有，元素的属性节点没有共享性，也就是说不同的元素节点不共有同一个属性节点。文档中的lang="eng"即为属性节点。

· 命名空间节点（Namespace Nodes）

每个元素节点都有一个相关联的命名空间节点集。在XML文档中，命名空间是通过保留属性声明的。因此，在XPath中，该类节点与属性节点极为相似，它们与父元素之间的关系是单向的，并且不具有共享性。

· 处理指令节点（Processing Instruction Nodes）

处理指令节点对应于XML文档中的每一条处理指令。它也有扩展名，扩展名的本地命名指向处理对象，而命名空间部分为空。

· 注释节点（Comment Nodes）

注释节点对应于文档中的注释。

Xpath路径表达式的基本语法

选取节点
XPath使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step 来选取的。下面列出了最常用的路径表达式：

属性	值
nodename	选取此节点的所有子节点
/	从根节点选取
//	选择任意位置的某个节点
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

在下面的表格中，我们列出了一些路径表达式以及表达式的结果：

属性	值
bookstore	选取bookstore元素的所有子节点
/bookstore	选取根元素bookstore
/bookstore/book/	选取属于bookstore的子元素的所有book元素。
//book	选取所有book子元素，而不管它们在文档中位置
//@lang	选取名为lang的所有属性

谓语（Predicates）
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

属性	值
/bookstore/book[1]	选取属于bookstore子元素的第一个book元素
/bookstore/book[last()]	选取属于bookstore子元素的最后一个book元素
/bookstore/book[last()-1]	选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position()<3]	选取最前面的两个属于bookstore元素的子元素的book元素
//title[@lang]	选取所有拥有名为lang的属性的title元素
//title[@lang=‘eng’]	选取所有title元素，且这些元素拥有值为eng的 lang属性
//title[@lang=‘eng’ and @class=“good”]	选取所有title元素，且这些元素拥有值为eng的lang属性和值为good的class属性
/bookstore/book[price>39.00]	选取bookstore元素的所有book元素，且其中的 price 元素的值须大于 39.00
/bookstore/book[price>39.00]/title	选取bookstore元素中的book元素的所有title元素，且其中的price元素的值须大于39.00

选取未知节点
XPath通配符可用来选取未知的`XML元素。

属性	值
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

属性	值
/bookstore/*	选取bookstore元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的title元素。

选取若干路径
通过在路径表达式中使用"|"运算符，您可以选取若干个路径。
在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
//book/title 丨 //book/price	选取book元素的所有title和price元素。
//title 丨 //price	选取book元素的所有title和price 元素。
/bookstore/book/title 丨 //price	选取属于bookstore元素的book 元素的所有title元素，以及文档中所有的price元素。

编程要求

请在右侧的编辑器中的Begin - End区域内编辑代码，通过XPath路径表达式选取指定的节点。XML示例文档如下所示：

<?xml version="1.0" encoding="UTF-8"?><bookstore>

  <book>

    <title lang="en">python</title>

    <author>Robert</author>

    <year>2010</year>

    <price>39.99</price>

  </book>

   <book>

    <title lang="en">java</title>

    <author>james</author>

    <year>2012</year>

    <price>89.99</price>

  </book></bookstore></bookstore>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

· 【任务一】：选取bookstore元素的所有子节点

· 【任务二】：选取所有book子元素

· 【任务三】：选取所有拥有名为lang的属性的title元素

· 【任务四】：选取属于bookstore子元素的第一个book元素

· 【任务五】：选取bookstore元素的所有book元素，且其中的price元素的值须大于 69.00

测试说明

在按编程要求完成操作后，请点击评测按钮，系统会自动对你的操作进行评测。
当你的结果与预期输出一致时，即为通过。

上一条：网络爬虫技术与应用-Scrapy爬虫基础下一条：数据标注-语音数据标注

【关闭】

首页

新闻动态

通知公告

实验室介绍

实验课程

虚拟仿真

实验室预约

数智化课程

实验课程

THIS NAME

实验课程

网络爬虫技术与应用-XPath路径表达式

相关知识

XPath基本概念

XPath节点

Xpath路径表达式的基本语法

编程要求

测试说明

实验课程

THIS NAME

实验课程

网络爬虫技术与应用-​XPath路径表达式

相关知识

XPath基本概念

XPath节点

Xpath路径表达式的基本语法

编程要求

测试说明

网络爬虫技术与应用-XPath路径表达式