Python数据分析入门教程_Pandas基础操作详解

舞姬之光 2026-01-08 00:00:00 次阅读

Pandas是Python数据分析核心工具，提供DataFrame和Series等高效数据结构，支持创建、查看、筛选、处理缺失值与重复值、统计及分组计算等全流程操作。

想用Python做数据分析，Pandas是绕不开的核心工具。它提供了高效、灵活的数据结构（如DataFrame和Series），让读取、清洗、计算和可视化数据变得直观又简洁。掌握基础操作，是迈出数据分析第一步的关键。

创建和查看数据：从零开始构建DataFrame

最常用的方式是从字典或列表构造DataFrame，也可以直接读取外部文件。创建后建议立刻用head()、info()和describe()快速了解数据概况。

用字典创建：`pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [25, 30]})`
读取CSV：`df = pd.read_csv('data.csv')`（注意编码和分隔符参数）
查看前5行：`df.head()`；查看数据类型与缺失值：`df.info()`

选取与筛选：精准定位你需要的行和列

Pandas提供多种索引方式，loc（按标签）、iloc（按位置）和布尔索引是最常用的三种。别混淆它们的使用场景——标签索引适合带明确列名/索引名的操作，位置索引适合按行列号取值。

选一列：`df['age']` 或 `df.age`（推荐前者，更稳定）
选多列：`df[['name', 'age']]`（注意是双层中括号）
条件筛选：`df[df['age'] > 28]`，支持 &（且）、|（或）、~（非）组合

处理缺失值和重复值：让数据更干净

真实数据常有空值（NaN）或重复记录。Pandas提供了简单但有力的方法来识别、填充或删除它们。关键是先检查再处理，避免误删有效信息。

检查缺失：`df.isnull().sum()` 统计每列空值数量
删除空行：`df.dropna()`；删除空列：`df.dropna(axis=1)`
填充空值：`df['age'].fillna(df['age'].mean())` 或用固定值 `.fillna(0)`
去重：`df.drop_duplicates()`（默认所有列都相同才去重，可指定 subset 参数）

简单统计与分组计算：快速获取洞察

不需要写循环，一行代码就能完成常见汇总任务。分组聚合（groupby）是探索性分析的利器，配合 agg 可同时计算多个指标。

基础统计：`df['age'].mean()`、`df['age'].max()`、`df.describe()`
按类别统计：`df.groupby('gender')['salary'].mean()`
多指标聚合：`df.groupby('dept').agg({'salary': ['mean', 'std'], 'age': 'max'})`

Databricks 中调试 Spark UDF 参数的实用

上一篇文章

Databricks 中调试 Spark UDF 参数的实用

2026-01-08 705次阅读

下一篇文章

Python怎么算平方

2026-01-08 1058次阅读