如何使用 NumPy 高效移除零方差列

碧海醫心 2025-12-31 00:00:00 次阅读

本文介绍如何用一行简洁的 numpy 代码识别并删除数组中所有方差为零（即所有非 nan 值完全相同）的列，同时正确处理含 nan 的情况。

在数据预处理中，常需剔除无信息量的列——例如全为同一数值（如全为 10）、或仅含缺失值与同一常数的列。这类列的方差为 0，对模型训练无贡献，甚至可能引发数值不稳定。NumPy 提供了高效向量化方案，无需显式循环。

核心方法是利用 np.var() 沿列方向（axis=0）计算方差，并结合布尔索引筛选：

import numpy as np

X = np.array([[1, 10, np.nan, 0],
              [2, 10, np.nan, 0],
              [3, 10, np.nan, 0]])

# 一步移除零方差列（自动跳过 NaN，仅基于有效值计算方差）
X_filtered = X[:, np.var(X, axis=0, ddof=0) != 0]
print(X_filtered)

输出：

[[ 1. nan]
 [ 2. nan]
 [ 3. nan]]

✅ 关键说明：

np.var(X, axis=0) 默认忽略 NaN（需确保使用较新 NumPy 版本；若遇 nan 传播问题，可改用 np.nanvar(X, axis=0) 更显式）；
ddof=0（默认）表示总体方差；若需样本方差，设 ddof=1，但判断是否为 0 时结果一致；
该操作不改变原数组，返回视图或副本（取决于底层内存布局），建议显式赋值；
零方差列包含：全相同数值列（如第 2 列全为 10）、全 NaN 列（方差为 nan，nan != 0 为 False，故不会被保留——需注意！）。

⚠️ 重要提醒：np.var() 对全 NaN 列返回 nan，而 nan != 0 恒为 False，因此上述代码不会保留全 NaN 列——这通常符合预期。但若需显式控制 NaN 列行为，推荐组合使用：

# 更鲁棒的写法：显式排除全 NaN 列 + 零方差列
valid_mask = ~(np.all(np.isnan(X), axis=0) | (np.nanvar(X, axis=0) == 0))
X_filtered = X[:, valid_mask]

综上，X[:, np.nanvar(X, axis=0) != 0] 是兼顾简洁性、可读性与健壮性的首选方案，适用于绝大多数真实场景的数据清洗任务。

上一篇文章

php本地部署后js文件加载失败_静态资源路径错误排查与修正

2025-12-31 931次阅读

下一篇文章

如何在Pandas中按多列分组计算并广播结果到原始DataF

2025-12-31 1257次阅读

php本地部署后js文件加载失败_静态资源路径错误排查与修正

如何在Pandas中按多列分组计算并广播结果到原始DataF

相关文章