如何递归解压嵌套 ZIP 中的 PDF 文件（支持多层 ZIP 嵌套）_技术教程

本文提供一种纯内存方式递归解析多层嵌套 zip 文件（zip in zip in zip…）并精准提取指定 pdf 文件的完整解决方案，避免流关闭异常与文件跳过问题。

在处理归档数据时，常遇到“ZIP 文件中嵌套 ZIP，而目标 PDF 位于深层 ZIP 内”的场景。Java 标准库的 ZipInputStream 并不支持直接在已读取的 ZipEntry 上重新创建可遍历的 ZipInputStream——若尝试复用原流（如 new ZipInputStream(zis)），极易触发 java.io.IOException: Stream Closed；若改用 FileInputStream 重读原始文件，则完全丢失嵌套路径上下文，无法定位内层 ZIP 的

真实字节位置。

正确解法是：将每个 ZIP Entry 的全部字节先完整读入内存（byte[]），再以此构建新的 ZipInputStream 进行递归解析。整个过程无需临时文件、不依赖磁盘路径，且天然支持任意深度嵌套。

以下为精简、健壮、可直接复用的核心实现：

import java.io.*;
import java.nio.file.Files;
import java.util.zip.ZipEntry;
import java.util.zip.ZipInputStream;

public class NestedZipExtractor {

    private static final String ZIP_EXTENSION = ".zip";
    private static final int BUFFER_SIZE = 4096;

    /**
     * 从顶层 ZIP 文件中递归查找并返回指定名称的 PDF 文件原始字节
     * @param zipPath 顶层 ZIP 文件路径
     * @param targetPdfName 目标 PDF 文件名（含 .pdf 后缀，区分大小写）
     * @return PDF 文件二进制内容
     * @throws IOException 解析失败时抛出
     */
    public static byte[] extractPdfFromNestedZip(String zipPath, String targetPdfName) throws IOException {
        try (ZipInputStream zis = new ZipInputStream(
                new BufferedInputStream(new FileInputStream(zipPath)))) {
            ByteArrayOutputStream result = new ByteArrayOutputStream();
            digInto(zis, targetPdfName, result);
            return result.toByteArray();
        }
    }

    /**
     * 递归扫描 ZIP 流：匹配目标文件 or 提取内层 ZIP 并继续递归
     */
    private static void digInto(ZipInputStream zis, String targetName, ByteArrayOutputStream output)
            throws IOException {
        ZipEntry entry;
        while ((entry = zis.getNextEntry()) != null) {
            String name = entry.getName();

            // ✅ 成功匹配目标 PDF
            if (name.equals(targetName)) {
                copy(zis, output);
                return;
            }

            // ? 发现内嵌 ZIP，递归进入
            if (name.toLowerCase().endsWith(ZIP_EXTENSION)) {
                byte[] innerZipBytes = readEntryToBytes(zis);
                try (ZipInputStream innerZis = new ZipInputStream(
                        new ByteArrayInputStream(innerZipBytes))) {
                    digInto(innerZis, targetName, output);
                }
                // 若递归中已找到目标，output 非空，可提前退出（可选优化）
                if (output.size() > 0) return;
            }

            zis.closeEntry(); // 必须显式关闭当前 entry
        }
    }

    /**
     * 将当前 ZipEntry 的全部内容读入字节数组
     */
    private static byte[] readEntryToBytes(ZipInputStream zis) throws IOException {
        ByteArrayOutputStream mem = new ByteArrayOutputStream();
        copy(zis, mem);
        return mem.toByteArray();
    }

    /**
     * 通用流拷贝工具（适用于二进制数据）
     */
    private static void copy(InputStream from, OutputStream to) throws IOException {
        byte[] buf = new byte[BUFFER_SIZE];
        int len;
        while ((len = from.read(buf)) > 0) {
            to.write(buf, 0, len);
        }
        to.flush();
    }

    // ✅ 使用示例：提取 "report.pdf" 并保存到磁盘
    public static void main(String[] args) throws IOException {
        String topLevelZip = "C:/Data/archive.zip";
        String targetPdf = "documents/report.pdf"; // 注意：需包含完整路径（如 ZIP 内路径）

        byte[] pdfBytes = extractPdfFromNestedZip(topLevelZip, targetPdf);

        // 保存结果
        Files.write(new File("C:/output/report.pdf").toPath(), pdfBytes);
        System.out.println("✅ PDF 已成功提取：" + targetPdf);
    }
}

关键注意事项：

路径匹配要精确：targetPdf 必须与 ZIP 内部存储的完整路径（如 "data/2025/invoice.pdf"）完全一致，包括大小写和斜杠方向。
内存安全：该方案将每个 ZIP Entry 全量加载至内存。若内层 ZIP 极大（>100MB），建议改用临时文件 + RandomAccessFile 或流式分块处理。
异常处理增强：生产环境应补充 try-catch 包裹 digInto() 调用，并记录未找到目标文件的日志。
扩展性提示：可轻松改造为批量提取所有 .pdf 文件、按正则匹配、或回调处理每一份匹配结果。

此方案彻底规避了 Stream Closed 异常，逻辑清晰、层次分明，是处理任意深度 ZIP 嵌套场景的推荐实践。