如何用Python从XML中提取所有链接

星降 2025-12-23 00:00:00 次阅读

推荐使用xml.etree.ElementTree提取href/src/url属性链接，或lxml配合XPath精准匹配多类链接位置；需清洗空格、补全相对路径、过滤非HTTP协议并处理命名空间。

用Python从XML中提取所有链接，核心是解析XML文档并定位含URL的元素（如、、https://https://www./link/263b1243ca2dbeb358777ceabc4a2e4c等），再提取其属性值或文本内容。推荐使用内置的xml.etree.ElementTree（轻量、标准库、够用）或第三方库lxml（支持XPath、更灵活、解析HTML混合内容更强）。

用ElementTree提取href属性链接

适用于结构清晰、链接主要在href、src等属性中的XML（如RSS、自定义配置XML）：

加载XML：用ET.parse()读文件，或ET.fromstring()读字符串
查找所有带href属性的元素：用root.iter()遍历所有元素，检查elem.get("href")
同样可扩展检查src、url、xlink:href等常见链接属性

示例代码：

import xml.etree.ElementTree as ET
tree = ET.parse("example.xml")
root = tree.getroot()
links = []
for elem in root.iter():
href = elem.get("href") or elem.get("src") or elem.get("url")
if href and href.startswith(("http://", "https://")):
links.append(href)
print(links)

用XPath配合lxml精准提取（推荐进阶场景）

当XML较复杂、需匹配命名空间、或要提取https://https://www./link/263b1243ca2dbeb358777ceabc4a2e4c这类文本型链接时，lxml + XPath更可靠：

安装：pip install lxml
用//a/@href | //link/@href | //url/text() | //loc/text()一次性匹配多类链接位置
自动处理命名空间（如Atom/RSS常用xmlns:xhtml="http://www.w3.org/1999/xhtml"）

示例代码：

from lxml import etree
tree = etree.parse("feed.xml")
提取所有href属性 + loc/url元素的文本
expr = '//@href | //@src | //loc/text() | //url/text() | //xhtml:a/@href'
links = [link for link in tree.xpath(expr) if isinstance(link, str) and link.strip().startswith(("http://", "https://"))]
print(links)

注意链接格式与清洗

提取出的链接常含空格、换行、相对路径或无效前缀，建议统一后处理：

用.strip()去首尾空白
用urllib.parse.urljoin(base_url, rel_path)补全相对链接（需提供XML文档所在基础URL）
过滤掉mailto:、tel:、javascript:等非HTTP链接（按需）
去重可用list(set(links))，但注意保持顺序时改用dict.fromkeys(links)

处理带命名空间的XML（如RSS 2.0、Atom）

很多标准XML定义了默认或前缀命名空间，直接用find("link")会失败。正确做法是声明命名空间字典：

ns = {
    "rss": "http://purl.org/rss/1.0/",
    "atom": "http://www.w3.org/2005/Atom",
    "dc": "http://purl.org/dc/elements/1.1/"
}
查找Atom中的 
for link in root.xpath("//atom:link[@rel='alternate']/@href", namespaces=ns):
print(link)