Java怎么把一个大XML文件按记录分割

星降 2025-12-22 00:00:00 次阅读

Java处理大XML文件应使用StAX或SAX流式解析，避免DOM导致OOM；StAX通过XMLEventReader逐事件读取、深度计数识别record边界，并用XMLEventWriter写入独立文件；SAX则用ContentHandler配合字符缓存与深度管理实现轻量拆分。

Java处理大XML文件时，不能直接用DOM加载整个文档（内存会爆），得用SAX或StAX边读边拆。核心思路是：监听开始标签，识别每条记录的根元素（比如或），累计内容直到对应结束标签，然后写入独立文件。

StAX（javax.xml.stream）是拉模式解析器，代码清晰、内存可控、支持写入。假设原始XML长这样：

Alice30
Bob25

目标是把每个存成 record_1.xml、record_2.xml。

如果只关心简单扁平结构（无深层嵌套），SAX更省内存。写一个ContentHandler，重写startElement和endElement方法：

在startElement中判断是否为记录起始标签（如qName.equals("record")），如果是，初始化StringBuilder并提取关键属性（如id）
在characters中追加文本内容（注意trim和忽略空白）
在endElement中判断是否为该记录结束标签，是则把缓存内容写入文件，并清空缓存
缺点：不自动处理嵌套标签的文本拼接，需手动维护栈或深度变量