如何从 JSON 字符串数组中安全提取 cancellationDate 字段

本文介绍如何在 python 中正确解析嵌套在字符串列表中的 json 数据,并安全提取 `cancellationdate` 字段值,涵盖转义处理、异常防护与结构化访问。

在实际开发中(如处理 API 响应或日志数据),你可能会遇到类似如下格式的数据:一个包含 JSON 字符串的 Python 列表,而该字符串本身是被双重转义的(例如 "{\"CancellationDate\":\"2025-01-16T00:40:59.0928615+00:00\"}")。此时直接使用 jsonpath 或 json.loads() 一次性解析会失败——因为外层是 Python 字符串列表,内层才是 JSON 内容,且原始字符串中反斜杠已参与转义。

✅ 正确做法是:逐项 json.loads() 解析每个字符串元素 → 转为字典 → 安全取键。以下是推荐实现:

import json

# 原始输入:字符串列表(每个元素是 JSON 格式的字符串)
json_string_list = [
    "{\"RequestedByUser\":false,\"RequestedBySystem\":null,\"RequestedBySellerNotification\":null,\"RequestedByPaymentNotification\":true,\"Reason\":null,\"CancellationDate\":\"2025-01-16T00:40:59.0928615+00:00\"}"
]

# 存储成功解析的字典
parsed_dicts = []

for s in json_string_list:
    try:
        # 将 JSON 字符串解析为 Python 字典
        data = json.loads(s)
        parsed_dicts.append(data)
    except json.JSONDecodeError as e:
        print(f"警告:跳过无效 JSON 字符串 '{s[:50]}...': {e}")
        continue

# 提取所有 CancellationDate(支持多条记录)
cancellation_dates = [
    d.get("CancellationDate") for d in parsed_dicts if isinstance(d, dict)
]

if cancellation_dates:
    print("提取到的取消日期:", cancellation_dates[0])  # 输出:2025-01-16T00:40:59.0928615+00:00
else:
    print("未找到有效的 CancellationDate")

? 关键说明

  • json.loads() 可自动处理标准 JSON 转义(包括 \"),无需手动替换或正则清洗;
  • 使用 .get("CancellationDate") 替代 ["CancellationDate"] 可避免 KeyError;
  • 包裹 try/except 是必须实践,防止单条脏数据导致整个流程中断;
  • 若输入可能含空值、None 或

    非字符串类型,建议增加 if isinstance(s, str) and s.strip() 预校验。

? 进阶提示:若数据量大,可考虑用 json.loads() 批量解析 + pandas.json_normalize() 结构化;若需 ISO 时间标准化,可用 datetime.fromisoformat() 进一步解析该时间字符串。

总之,面对“字符串里的 JSON”,核心逻辑永远是:先解字符串 → 再读 JSON → 最后取字段,切勿试图绕过 json.loads() 直接用正则或字符串切割——既脆弱又不可靠。