什么是Schematron Schematron规则验证教程

Schematron是一种基于XPath的XML验证语言,专注业务规则而非结构定义,通过assert/report实现断言检查,由schema、pattern、rule三层结构组成,常与XSD互补使用。

什么是Schematron

Schematron 是一种基于 XPath 的 XML 文档验证语言,它不描述数据结构,而是表达业务规则和逻辑约束。和 XML Schema(XSD)不同,Schematron 不关心元素是否合法、是否嵌套正确、类型是否匹配,而是专注“这个 XML 是否满足我的业务要求”。比如:“每个 book 元素必须包含一个非空的 title”,或“当 statusarchived 时,expiryDate 不得为空”。这类判断靠断言(assert)或报告(report)实现。

Schematron 规则的基本结构

一个 Schematron 文件本质是 XML,核心由三部分组成:

  • schema:根元素,声明命名空间 http://purl.oclc.org/dsdl/schematron
  • pattern:一组相关规则的容器,可带 ID 和名称,用于组织逻辑域(如“元数据规则”“业务状态规则”)
  • rule:定义验证上下文(用 @context 指定 XPath 路径),内部包含

例如:


  
    
      
        每本图书必须有非空标题。
      
       0">
        图书价格必须大于零。
      
    
  

如何用 Python(lxml)做 Schematron 验证

最常用且轻量的方式是使用 lxml.etree.Schematron。前提是已安装 lxml(pip install lxml):

  • 把 Schematron 规则读作 etree.XML() 对象,传给 etree.Schematron() 构造器
  • etree.parse() 加载待验证的 XML 文档
  • 调用 schematron.validate(xml_doc),返回布尔值
  • 若失败,可用 schematron.error_log 查看具体哪条断言未通过、在哪一行

注意:lxml 内置的 Schematron 支持基于 ISO Schematron 1.5 标准,但不支持所有高级特性(如 或外部变量)。复杂场景建议配合 Jing 工具链。

常见验证模式与实用技巧

实际编写规则时,几个高频要点:

  • normalize-space() 判断文本是否真正非空,避免仅含空格的“假内容”
  • 跨元素约束用相对 XPath,如 ../authorfollowing-sibling::date
  • 报错信息尽量写清楚,直接面向业务人员,例如“发货日期不能早于下单日期”比“assert failed at line 42”有用得多
  • 多个 pattern 可按模块拆分,再用 合并,便于复用和维护

它不替代 XSD,而是互补——XSD 确保“语法正确”,Schematron 保证“语义合理”。两者结合,XML 数据质量才真正可控。