如何使用 NumPy 高效移除零方差列

本文介绍如何用一行简洁的 numpy 代码识别并删除数组中所有方差为零(即所有非 nan 值完全相同)的列,同时正确处理含 nan 的情况。

在数据预处理中,常需剔除无信息量的列——例如全为同一数值(如全为 10)、或仅含缺失值与同一常数的列。这类列的方差为 0,对模型训练无贡献,甚至可能引发数值不稳定。NumPy 提供了高效向量化方案,无需显式循环。

核心方法是利用 np.var() 沿列方向(axis=0)计算方差,并结合布尔索引筛选:

import numpy as np

X = np.array([[1, 10, np.nan, 0],
              [2, 10, np.nan, 0],
              [3, 10, np.nan, 0]])

# 一步移除零方差列(自动跳过 NaN,仅基于有效值计算方差)
X_filtered = X[:, np.var(X, axis=0, ddof=0) != 0]
print(X_filtered)

输出:

[[ 1. nan]
 [ 2. nan]
 [ 3. nan]]

关键说明

  • np.var(X, axis=0) 默认忽略 NaN(需确保使用较新 NumPy 版本;若遇 nan 传播问题,可改用 np.nanvar(X, axis=0) 更显式);
  • ddof=0(默认)表示总体方差;若需样本方差,设 ddof=1,但判断是否为 0 时结果一致;
  • 该操作不改变原数组,返回视图或副本(取决于底层内存布局),建议显式赋值;
  • 零方差列包含:全相同数值列(如第 2 列全为 10)、全 NaN 列(方差为 nan,nan != 0 为 False,故不会被保留——需注意!)。

⚠️ 重要提醒:np.var() 对全 NaN 列返回 nan,而 nan != 0 恒为 False,因此上述代码不会保留全 NaN 列——这通常符合预期。但若需显式控制 NaN 列行为,推荐组合使用:

# 更鲁棒的写法:显式排除全 NaN 列 + 零方差列
valid_mask = ~(np.all(np.isnan(X), axis=0) | (np.nanvar(X, axis=0) == 0))
X_filtered = X[:, valid_mask]

综上,X[:, np.nanvar(X, axis=0) != 0] 是兼顾简洁性、可读性与健壮性的首选方案,适用于绝大多数真实场景的数据清洗任务。