首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

Pandas入门:安装与基本操作

  • 24-12-16 16:07
  • 3869
  • 8377
juejin.cn

引言

在数据科学领域,Pandas 是一个非常强大的 Python 库,它提供了高效的数据结构和数据分析工具。Pandas 的名称来源于“面板数据”(Panel Data)和“Python 数据分析”(Python Data Analysis)。本文将从 Pandas 的安装开始,逐步介绍其基本操作,并指出一些常见的问题和易错点,帮助初学者快速上手。

image.png

安装 Pandas

使用 pip 安装

Pandas 可以通过 Python 的包管理工具 pip 来安装。打开命令行或终端,输入以下命令:

bash
代码解读
复制代码
pip install pandas

使用 Anaconda 安装

如果你使用的是 Anaconda 发行版,可以通过 Conda 包管理器来安装 Pandas:

bash
代码解读
复制代码
conda install pandas

导入 Pandas

安装完成后,可以在 Python 脚本或 Jupyter Notebook 中导入 Pandas:

python
代码解读
复制代码
import pandas as pd

基本数据结构

Pandas 主要提供了两种数据结构:Series 和 DataFrame。

Series

Series 是一维数组,可以存储任何数据类型(整数、字符串、浮点数等)。每个元素都有一个对应的索引值。

创建 Series

python
代码解读
复制代码
data = [1, 2, 3, 4, 5] s = pd.Series(data) print(s)

输出:

go
代码解读
复制代码
0 1 1 2 2 3 3 4 4 5 dtype: int64

DataFrame

DataFrame 是二维表格型数据结构,可以看作是由多个 Series 组成的。每个列可以有不同的数据类型。

创建 DataFrame

python
代码解读
复制代码
data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago'] } df = pd.DataFrame(data) print(df)

输出:

markdown
代码解读
复制代码
Name Age City 0 Alice 25 New York 1 Bob 30 Los Angeles 2 Charlie 35 Chicago

常见操作

查看数据

查看前几行

python
代码解读
复制代码
print(df.head(2))

输出:

markdown
代码解读
复制代码
Name Age City 0 Alice 25 New York 1 Bob 30 Los Angeles

查看后几行

python
代码解读
复制代码
print(df.tail(2))

输出:

markdown
代码解读
复制代码
Name Age City 1 Bob 30 Los Angeles 2 Charlie 35 Chicago

选择数据

选择单列

python
代码解读
复制代码
print(df['Name'])

输出:

vbnet
代码解读
复制代码
0 Alice 1 Bob 2 Charlie Name: Name, dtype: object

选择多列

python
代码解读
复制代码
print(df[['Name', 'Age']])

输出:

markdown
代码解读
复制代码
Name Age 0 Alice 25 1 Bob 30 2 Charlie 35

过滤数据

按条件过滤

python
代码解读
复制代码
filtered_df = df[df['Age'] > 30] print(filtered_df)

输出:

markdown
代码解读
复制代码
Name Age City 2 Charlie 35 Chicago

添加数据

添加新列

python
代码解读
复制代码
df['Gender'] = ['Female', 'Male', 'Male'] print(df)

输出:

markdown
代码解读
复制代码
Name Age City Gender 0 Alice 25 New York Female 1 Bob 30 Los Angeles Male 2 Charlie 35 Chicago Male

删除数据

删除列

python
代码解读
复制代码
df = df.drop(columns=['Gender']) print(df)

输出:

markdown
代码解读
复制代码
Name Age City 0 Alice 25 New York 1 Bob 30 Los Angeles 2 Charlie 35 Chicago

排序数据

按某一列排序

python
代码解读
复制代码
sorted_df = df.sort_values(by='Age') print(sorted_df)

输出:

sql
代码解读
复制代码
Name Age City 0 Alice 25 New York 1 Bob 30 Los Angeles 2 Charlie 35 Chicago

常见问题与易错点

1. 忘记导入 Pandas

在使用 Pandas 之前,必须先导入库。忘记导入会导致代码无法运行。

2. 索引错误

在访问 Series 或 DataFrame 时,索引错误是一个常见的问题。确保索引存在且正确。

3. 数据类型不一致

DataFrame 中的每一列可以有不同的数据类型。如果数据类型不一致,可能会导致意外的结果或错误。

4. 链式操作

链式操作可以提高代码的可读性和简洁性,但也可能导致性能问题。如果遇到性能瓶颈,可以考虑将中间结果赋值给变量。

5. 空值处理

数据中可能存在空值(NaN),处理不当会导致错误。可以使用 dropna() 或 fillna() 方法来处理空值。

python
代码解读
复制代码
df = df.dropna() df = df.fillna(0)

6. 大数据集的内存问题

处理大数据集时,要注意内存使用情况。可以使用 read_csv() 的 chunksize 参数来分块读取数据。

python
代码解读
复制代码
chunksize = 10 ** 6 for chunk in pd.read_csv('large_file.csv', chunksize=chunksize): process(chunk)

总结

Pandas 是一个功能强大的数据处理库,掌握其基本操作对于数据科学家和分析师来说至关重要。本文从安装到基本操作,再到常见问题和易错点,希望能帮助初学者快速上手 Pandas。随着实践的深入,你会逐渐发现 Pandas 更多的强大功能和应用场景。

注:本文转载自juejin.cn的Jimaks的文章"https://juejin.cn/post/7448630281798533147"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

103
后端
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top