XPath完全指南从基础语法到实用示例代码详解帮助开发者快速掌握XML文档定位技巧提高开发效率解决复杂查询需求应对各种挑战

2025-12-13 08:40:46

引言

XPath是一种在XML文档中查找信息的语言，它用于在XML文档中通过元素和属性进行导航。XPath是W3C标准，它是XSLT、XQuery和XPointer等XML技术的基础。掌握XPath对于处理XML文档至关重要，无论是Web开发、数据转换还是系统配置，XPath都能提供强大而灵活的文档定位能力。本指南将详细介绍XPath的基础语法、高级技巧以及实际应用场景，帮助开发者快速掌握XML文档定位技巧，提高开发效率，解决复杂查询需求，应对各种挑战。

XPath基础概念

什么是XPath

XPath（XML Path Language）是一种在XML文档中查找信息的语言。它使用路径表达式来选取XML文档中的节点或节点集。这些路径表达式看起来很像计算机文件系统中的路径，但提供了更强大的查询能力。

XPath与XML的关系

XPath被设计用于XML文档，它提供了在XML文档树结构中导航的能力。XML文档是由节点构成的树，而XPath允许我们在这棵树中定位特定的节点或节点集。XPath可以用来选取元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。

XPath的版本历史

XPath 1.0：1999年成为W3C推荐标准，是最广泛使用的版本。

XPath 2.0：2007年成为W3C推荐标准，增加了更丰富的数据类型和函数库。

XPath 3.0：2014年成为W3C推荐标准，进一步增强了功能。

XPath 3.1：2017年成为W3C推荐标准，是当前最新版本，增加了对地图和数组的支持。

XPath语法基础

节点类型

在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML文档是被作为节点树来对待的，树的根被称为文档节点或根节点。

路径表达式

XPath使用路径表达式来选取XML文档中的节点或节点集。节点是沿着路径（path）或者步（steps）来选取的。

下面是一些最常用的路径表达式：

表达式

描述

nodename

选取此节点的所有子节点

从根节点选取

从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置

选取当前节点

选取当前节点的父节点

选取属性

例如，考虑以下XML文档：

Everyday Italian

Giada De Laurentiis

2005

30.00

Harry Potter

J.K. Rowling

2005

29.99

Learning XML

Erik T. Ray

2003

39.95

以下是一些基本的XPath表达式及其结果：

/bookstore：选取根元素bookstore

bookstore/book：选取bookstore的所有子元素book

//book：选取所有book子元素，而不管它们在文档中的位置

bookstore//book：选取bookstore元素下所有的book元素，无论它们位于bookstore之下的什么位置

//@category：选取名为category的所有属性

/bookstore/book[1]：选取属于bookstore子元素的第一个book元素

/bookstore/book[last()]：选取属于bookstore子元素的最后一个book元素

/bookstore/book[position()<3]：选取属于bookstore子元素的前两个book元素

//title[@lang]：选取所有拥有名为lang的属性的title元素

//title[@lang='en']：选取所有title元素，且这些元素拥有值为en的lang属性

/bookstore/book[price>35.00]：选取bookstore元素的所有book元素，且其中的price元素的值须大于35.00

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。

例如：

/bookstore/book[1]：选取第一个book元素

/bookstore/book[last()]：选取最后一个book元素

/bookstore/book[position()<3]：选取前两个book元素

//title[@lang]：选取所有带有lang属性的title元素

//title[@lang='en']：选取所有lang属性值为’en’的title元素

/bookstore/book[price>35.00]：选取price元素值大于35的所有book元素

通配符

XPath通配符可用来选取未知的XML元素。

通配符

描述

匹配任何元素节点

匹配任何属性节点

node()

匹配任何类型的节点

例如：

/bookstore/*：选取bookstore元素的所有子元素

//*：选取文档中的所有元素

//title[@*]：选取所有带有属性的title元素

运算符

XPath表达式中可以使用多种运算符：

运算符

描述

实例

返回值

计算两个节点集

//book | //cd

返回所有拥有book和cd元素的节点集

加法

6 + 4

减法

6 - 4

乘法

6 * 4

div

除法

8 div 4

等于

price=9.80

如果price是9.80，则返回true。如果price是9.90，则返回false。

不等于

price!=9.80

如果price是9.90，则返回true。如果price是9.80，则返回false。

小于

price<9.80

如果price是9.00，则返回true。如果price是9.90，则返回false。

小于或等于

price<=9.80

如果price是9.80，则返回true。如果price是9.90，则返回false。

大于

price>9.80

如果price是9.90，则返回true。如果price是9.80，则返回false。

大于或等于

price>=9.80

如果price是9.90，则返回true。如果price是9.80，则返回false。

或

price=9.80 or price=9.70

如果price是9.80，则返回true。如果price是9.50，则返回false。

and

与

price>9.00 and price<9.90

如果price是9.80，则返回true。如果price是8.50，则返回false。

mod

计算除法的余数

5 mod 2

XPath轴（Axes）

XPath轴定义了相对于当前节点的节点集。轴名称用于指定当前节点与所选节点之间的关系。

常用轴

轴名称

结果

ancestor

选取当前节点的所有先辈（父、祖父等）

ancestor-or-self

选取当前节点的所有先辈以及当前节点本身

attribute

选取当前节点的所有属性

child

选取当前节点的所有子元素

descendant

选取当前节点的所有后代元素（子、孙等）

descendant-or-self

选取当前节点的所有后代元素以及当前节点本身

following

选取文档中当前节点的结束标签之后的所有节点

following-sibling

选取当前节点之后的所有兄弟节点

namespace

选取当前节点的所有命名空间节点

parent

选取当前节点的父节点

preceding

选取文档中当前节点的开始标签之前的所有节点

preceding-sibling

选取当前节点之前的所有兄弟节点

self

选取当前节点

轴的使用方法

轴的使用语法为：轴名称::节点测试[谓语]

例如：

child::book：选取当前节点的所有book子节点

attribute::lang：选取当前节点的lang属性

child::*：选取当前节点的所有子元素

attribute::*：选取当前节点的所有属性

child::text()：选取当前节点的所有文本子节点

child::node()：选取当前节点的所有子节点

descendant::book：选取当前节点的所有book后代

ancestor::book：选取当前节点的所有book先辈

ancestor-or-self::book：选取当前节点的所有book先辈以及当前节点（如果它是book节点）

child::*/child::price：选取当前节点的所有price孙节点

轴的示例

考虑以下XML文档：

Everyday Italian

Giada De Laurentiis

2005

30.00

Harry Potter

J.K. Rowling

2005

29.99

假设当前节点是第一个book元素下的title元素（”Everyday Italian”），以下是一些使用轴的XPath表达式及其结果：

ancestor::book：选取当前节点的父节点book

ancestor-or-self::*：选取当前节点及其所有祖先节点（title和book）

child::text()：选取当前节点的文本子节点（”Everyday Italian”）

descendant::*：选取当前节点的所有后代元素（在这个例子中没有，因为title元素没有子元素）

following::book：选取当前节点之后的所有book元素（第二个book元素）

following-sibling::*：选取当前节点之后的所有兄弟节点（author, year, price）

parent::*：选取当前节点的父节点（book）

preceding-sibling::*：选取当前节点之前的所有兄弟节点（在这个例子中没有，因为title是第一个子元素）

self::*：选取当前节点本身（title）

XPath函数

XPath提供了丰富的函数库，用于处理节点集、字符串、布尔值和数字。

节点函数

函数名

描述

语法

last()

返回当前处理的节点列表中的最后一个节点的位置编号

last()

position()

返回当前节点在节点列表中的位置编号

position()

count(node-set)

返回节点集node-set中的节点数量

count(node-set)

id(string)

返回ID类型属性值等于string的元素节点

id(string)

local-name(node-set?)

返回节点集中第一个节点的本地名称（不带命名空间前缀）

local-name(node-set?)

namespace-uri(node-set?)

返回节点集中第一个节点的命名空间URI

namespace-uri(node-set?)

name(node-set?)

返回节点集中第一个节点的限定名称（带命名空间前缀）

name(node-set?)

例如：

//book[last()]：选取最后一个book元素

//book[position() <= 2]：选取前两个book元素

count(//book)：计算文档中book元素的数量

local-name(//book)：返回第一个book元素的本地名称（不带命名空间前缀）

字符串函数

函数名

描述

语法

string(object?)

将对象转换为字符串

string(object?)

concat(string, string, string*)

连接多个字符串

concat(string, string, string*)

starts-with(string1, string2)

如果string1以string2开头，则返回true

starts-with(string1, string2)

contains(string1, string2)

如果string1包含string2，则返回true

contains(string1, string2)

substring(string, start, length?)

返回从start位置开始的length长度的子字符串

substring(string, start, length?)

substring-before(string1, string2)

返回string1中string2之前的部分

substring-before(string1, string2)

substring-after(string1, string2)

返回string1中string2之后的部分

substring-after(string1, string2)

string-length(string?)

返回字符串的长度

string-length(string?)

normalize-space(string?)

去除字符串前后的空白，并将内部的连续空白替换为单个空格

normalize-space(string?)

translate(string1, string2, string3)

将string1中出现在string2中的字符替换为string3中对应位置的字符

translate(string1, string2, string3)

例如：

concat('Hello', ' ', 'World')：返回”Hello World”

starts-with('Hello World', 'Hello')：返回true

contains('Hello World', 'World')：返回true

substring('Hello World', 7, 5)：返回”World”

string-length('Hello World')：返回11

normalize-space(' Hello World ')：返回”Hello World”

布尔函数

函数名

描述

语法

boolean(object)

将对象转换为布尔值

boolean(object)

not(boolean)

返回布尔值的相反值

not(boolean)

true()

返回true

true()

false()

返回false

false()

lang(string)

如果上下文节点的语言与string匹配，则返回true

lang(string)

例如：

boolean(//book)：如果文档中存在book元素，则返回true

not(//book[@category='web'])：如果文档中没有category属性为’web’的book元素，则返回true

true()：返回true

false()：返回false

数字函数

函数名

描述

语法

number(object?)

将对象转换为数字

number(object?)

sum(node-set)

返回节点集中所有节点的数值之和

sum(node-set)

floor(number)

返回不大于number的最大整数

floor(number)

ceiling(number)

返回不小于number的最小整数

ceiling(number)

round(number)

返回最接近number的整数

round(number)

例如：

number('123')：返回123

sum(//price)：返回所有price元素值的总和

floor(3.14)：返回3

ceiling(3.14)：返回4

round(3.14)：返回3

实用示例代码

基本查询示例

以下是一些基本的XPath查询示例，使用前面提到的XML文档：

Everyday Italian

Giada De Laurentiis

2005

30.00

Harry Potter

J.K. Rowling

2005

29.99

Learning XML

Erik T. Ray

2003

39.95

选取所有book元素：

//book

选取第一个book元素：

/bookstore/book[1]

选取所有带有category属性的book元素：

//book[@category]

选取所有category属性为”web”的book元素：

//book[@category='web']

选取所有price大于30的book元素：

//book[price > 30]

选取所有title元素，且这些元素的lang属性为”en”：

//title[@lang='en']

选取所有book元素的title子元素：

//book/title

选取所有book元素的所有子元素：

//book/*

选取所有包含”Harry”的title元素：

//title[contains(text(), 'Harry')]

选取所有author为”J.K. Rowling”的book元素：

//book[author='J.K. Rowling']

复杂查询示例

选取所有category属性为”cooking”或”web”的book元素：

//book[@category='cooking' or @category='web']

选取所有price大于30且category属性为”web”的book元素：

//book[price > 30 and @category='web']

选取所有title元素，且这些元素的lang属性为”en”，然后按字母顺序排序：

//title[@lang='en']

注意：XPath本身不提供排序功能，但可以在XSLT或XQuery中使用XPath表达式进行排序。

选取所有book元素，且这些元素的title子元素包含”XML”：

//book[title[contains(text(), 'XML')]]

选取所有book元素，且这些元素的author子元素以”J.K.“开头：

//book[author[starts-with(text(), 'J.K.')]]

选取所有book元素，且这些元素的year子元素大于2000，然后按year降序排列：

//book[year > 2000]

同样，排序需要在XSLT或XQuery中完成。

选取所有book元素，且这些元素的price子元素大于30，然后只显示title和price：

//book[price > 30]/title | //book[price > 30]/price

选取所有book元素，且这些元素的category属性不等于”children”：

//book[@category != 'children']

选取所有book元素，且这些元素的title子元素的lang属性为”en”或”fr”：

//book[title[@lang='en' or @lang='fr']]

选取所有book元素，且这些元素的author子元素包含”Rowling”或”Ray”：

//book[author[contains(text(), 'Rowling') or contains(text(), 'Ray')]]

在不同编程语言中使用XPath

Java中使用XPath

在Java中，可以使用javax.xml.xpath包来处理XPath表达式。以下是一个示例：

import javax.xml.parsers.DocumentBuilder;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.xpath.XPath;

import javax.xml.xpath.XPathConstants;

import javax.xml.xpath.XPathExpression;

import javax.xml.xpath.XPathFactory;

import org.w3c.dom.Document;

import org.w3c.dom.NodeList;

public class XPathExample {

public static void main(String[] args) {

try {

// 创建DocumentBuilderFactory

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

// 创建DocumentBuilder

DocumentBuilder builder = factory.newDocumentBuilder();

// 解析XML文件

Document document = builder.parse("books.xml");

// 创建XPathFactory

XPathFactory xPathFactory = XPathFactory.newInstance();

// 创建XPath对象

XPath xpath = xPathFactory.newXPath();

// 编译XPath表达式

XPathExpression expr = xpath.compile("//book[@category='web']/title/text()");

// 计算XPath表达式的结果

NodeList nodes = (NodeList) expr.evaluate(document, XPathConstants.NODESET);

// 输出结果

for (int i = 0; i < nodes.getLength(); i++) {

System.out.println(nodes.item(i).getNodeValue());

}

} catch (Exception e) {

e.printStackTrace();

}

Python中使用XPath

在Python中，可以使用lxml库来处理XPath表达式。以下是一个示例：

from lxml import etree

# 解析XML文件

tree = etree.parse("books.xml")

# 获取根元素

root = tree.getroot()

# 使用XPath表达式选取所有category属性为"web"的book元素的title子元素的文本

titles = root.xpath("//book[@category='web']/title/text()")

# 输出结果

for title in titles:

print(title)

JavaScript中使用XPath

在JavaScript中，可以使用document.evaluate()方法来处理XPath表达式。以下是一个示例：

// 假设我们有一个XML文档存储在xmlDoc变量中

var xmlDoc; // 这里应该是XML文档对象

// 创建XPath表达式

var xpath = "//book[@category='web']/title/text()";

// 计算XPath表达式

var nodes = xmlDoc.evaluate(xpath, xmlDoc, null, XPathResult.ANY_TYPE, null);

// 处理结果

var result = nodes.iterateNext();

while (result) {

console.log(result.textContent);

result = nodes.iterateNext();

}

C#中使用XPath

在C#中，可以使用System.Xml.XPath命名空间来处理XPath表达式。以下是一个示例：

using System;

using System.Xml;

using System.Xml.XPath;

class XPathExample

{

static void Main()

{

// 创建XPathDocument

XPathDocument doc = new XPathDocument("books.xml");

// 创建XPathNavigator

XPathNavigator nav = doc.CreateNavigator();

// 编译XPath表达式

XPathExpression expr = nav.Compile("//book[@category='web']/title/text()");

// 计算XPath表达式

XPathNodeIterator iterator = nav.Select(expr);

// 输出结果

while (iterator.MoveNext())

{

Console.WriteLine(iterator.Current.Value);

}

PHP中使用XPath

在PHP中，可以使用SimpleXMLElement或DOMXPath类来处理XPath表达式。以下是一个使用DOMXPath的示例：

// 创建DOMDocument对象

$doc = new DOMDocument();

// 加载XML文件

$doc->load('books.xml');

// 创建DOMXPath对象

$xpath = new DOMXPath($doc);

// 执行XPath查询

$query = "//book[@category='web']/title/text()";

$entries = $xpath->query($query);

// 输出结果

foreach ($entries as $entry) {

echo $entry->nodeValue . "\n";

}

XPath高级技巧

命名空间处理

当XML文档使用命名空间时，XPath表达式需要考虑这些命名空间。以下是一个带有命名空间的XML文档示例：

xmlns:cat="http://www.example.com/category">

Everyday Italian

Giada De Laurentiis

2005

30.00

Harry Potter

J.K. Rowling

2005

29.99

要在这个文档中使用XPath，我们需要处理命名空间。以下是几种处理方法：

1. 使用本地名称（local-name）函数

//*[local-name()='bookstore']/*[local-name()='book']

这个表达式选取所有bookstore元素下的所有book元素，而不考虑它们的命名空间。

2. 使用命名空间前缀

在大多数XPath实现中，你可以注册命名空间前缀，然后在XPath表达式中使用这些前缀。例如，在Java中：

// 创建命名空间上下文

SimpleNamespaceContext nsContext = new SimpleNamespaceContext();

nsContext.bindNamespaceUri("bs", "http://www.example.com/bookstore");

nsContext.bindNamespaceUri("cat", "http://www.example.com/category");

// 设置命名空间上下文

xpath.setNamespaceContext(nsContext);

// 使用命名空间前缀

XPathExpression expr = xpath.compile("/bs:bookstore/bs:book[@cat:category='web']");

3. 使用通配符和谓语

/*/*[@*[local-name()='category' and .='web']]

这个表达式选取所有具有category属性且该属性值为”web”的元素，而不考虑它们的命名空间。

性能优化

XPath查询的性能对于大型XML文档来说非常重要。以下是一些优化XPath查询性能的技巧：

1. 使用更具体的路径

避免使用//运算符，因为它会搜索整个文档。尽量使用更具体的路径：

// 不推荐

//book

// 推荐

/bookstore/book

2. 使用谓语限制结果集

尽早使用谓语来限制结果集：

// 不推荐

//book[author='J.K. Rowling']

// 推荐

/bookstore/book[author='J.K. Rowling']

3. 使用索引

如果可能，使用索引来访问元素：

// 不推荐

//book[position()=1]

// 推荐

/bookstore/book[1]

4. 避免使用复杂的函数

避免在XPath表达式中使用复杂的函数，特别是那些需要处理大量节点的函数：

// 不推荐

//book[contains(title, 'XML')]

// 推荐

//book[title[contains(text(), 'XML')]]

5. 使用变量

如果多次使用相同的值，考虑使用变量：

// 不推荐

//book[price > 30 and @category='web'] | //book[price > 30 and @category='cooking']

// 推荐

//book[price > 30 and (@category='web' or @category='cooking')]

常见问题和解决方案

1. 问题：XPath表达式不返回任何结果

可能原因：

XML文档结构与XPath表达式不匹配

命名空间问题

大小写敏感问题

解决方案：

检查XML文档结构，确保XPath表达式与文档结构匹配

处理命名空间问题，可以使用本地名称函数或注册命名空间前缀

确保XPath表达式中的元素和属性名称与XML文档中的大小写一致

2. 问题：XPath表达式返回过多结果

可能原因：

XPath表达式过于宽泛

没有使用足够的谓语来限制结果集

解决方案：

使用更具体的路径

添加更多的谓语来限制结果集

使用更具体的轴

3. 问题：XPath表达式性能差

可能原因：

使用了//运算符

使用了复杂的函数

没有使用索引

解决方案：

尽量避免使用//运算符

简化XPath表达式，避免使用复杂的函数

使用索引来访问元素

4. 问题：处理带有命名空间的XML文档

可能原因：

没有正确处理命名空间

XPath表达式没有考虑命名空间

解决方案：

使用本地名称函数

注册命名空间前缀并在XPath表达式中使用这些前缀

使用通配符和谓语

实际应用场景

Web scraping

XPath在Web scraping中非常有用，特别是在解析HTML文档时。以下是一个使用Python和lxml库进行Web scraping的示例：

from lxml import html

import requests

# 获取网页内容

page = requests.get('http://example.com')

tree = html.fromstring(page.content)

# 使用XPath提取数据

titles = tree.xpath('//h1/text()')

links = tree.xpath('//a/@href')

# 输出结果

for title in titles:

print(title)

for link in links:

print(link)

XML文档转换

XPath在XML文档转换中也扮演着重要角色，特别是在XSLT中。以下是一个使用XSLT和XPath的示例：

Everyday Italian

Giada De Laurentiis

2005

30.00

Harry Potter

J.K. Rowling

2005

29.99

Bookstore

Title	Author	Year	Price

配置文件处理

XPath在处理XML配置文件时也非常有用。以下是一个使用Java和XPath处理配置文件的示例：

import javax.xml.parsers.DocumentBuilder;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.xpath.XPath;

import javax.xml.xpath.XPathConstants;

import javax.xml.xpath.XPathExpression;

import javax.xml.xpath.XPathFactory;

import org.w3c.dom.Document;

public class ConfigReader {

public static void main(String[] args) {

try {

// 创建DocumentBuilderFactory

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

// 创建DocumentBuilder

DocumentBuilder builder = factory.newDocumentBuilder();

// 解析XML配置文件

Document document = builder.parse("config.xml");

// 创建XPathFactory

XPathFactory xPathFactory = XPathFactory.newInstance();

// 创建XPath对象

XPath xpath = xPathFactory.newXPath();

// 获取数据库URL

XPathExpression expr = xpath.compile("//config/database/url/text()");

String dbUrl = (String) expr.evaluate(document, XPathConstants.STRING);

System.out.println("Database URL: " + dbUrl);

// 获取数据库用户名

expr = xpath.compile("//config/database/username/text()");

String dbUsername = (String) expr.evaluate(document, XPathConstants.STRING);

System.out.println("Database Username: " + dbUsername);

// 获取数据库密码

expr = xpath.compile("//config/database/password/text()");

String dbPassword = (String) expr.evaluate(document, XPathConstants.STRING);

System.out.println("Database Password: " + dbPassword);

// 获取日志级别

expr = xpath.compile("//config/logging/@level");

String logLevel = (String) expr.evaluate(document, XPathConstants.STRING);

System.out.println("Log Level: " + logLevel);

} catch (Exception e) {

e.printStackTrace();

}

数据提取和转换

XPath在数据提取和转换中也非常有用。以下是一个使用Python和lxml库提取和转换数据的示例：

from lxml import etree

# 解析XML文件

tree = etree.parse("books.xml")

# 创建XSLT转换器

transform = etree.XSLT(etree.parse("books.xsl"))

# 执行转换

result = transform(tree)

# 输出结果

print(str(result))

总结与最佳实践

XPath是一种强大的语言，用于在XML文档中查找信息。通过掌握XPath，你可以高效地处理XML文档，无论是Web scraping、数据转换还是配置文件处理。

最佳实践

使用具体的路径：避免使用//运算符，尽量使用更具体的路径。

处理命名空间：当处理带有命名空间的XML文档时，确保正确处理命名空间。

优化性能：对于大型XML文档，优化XPath查询性能非常重要。

使用谓语限制结果集：尽早使用谓语来限制结果集。

测试XPath表达式：使用工具测试XPath表达式，确保它们返回预期的结果。

考虑使用变量：如果多次使用相同的值，考虑使用变量。

了解XPath函数：熟悉XPath函数库，它们可以帮助你处理各种数据类型。

学习XPath轴：了解XPath轴，它们可以帮助你更灵活地导航XML文档。

保持简单：尽量保持XPath表达式简单，避免不必要的复杂性。

使用适当的工具：使用适当的工具来开发和测试XPath表达式。

通过遵循这些最佳实践，你可以更有效地使用XPath来处理XML文档，提高开发效率，解决复杂查询需求，应对各种挑战。

XPath是一种强大而灵活的语言，掌握它将使你在处理XML文档时更加得心应手。希望这篇指南能帮助你快速掌握XPath，并在实际工作中应用它来解决问题。

白茯苓、赤茯苓、茯神、茯苓皮的区别
联通流量卡定向APP包含哪些，联通定向流量免流范围

光之远征团跨服战

XPath完全指南从基础语法到实用示例代码详解帮助开发者快速掌握XML文档定位技巧提高开发效率解决复杂查询需求应对各种挑战

Bookstore

最新发表

友情链接