| 测试 | |
| 软件包 | |
| Meta |
pandas是一个Python包,它提供了的、灵活的、表达丰富的数据结构,旨在使处理“关系型”或“标记型”数据变得简单直观。其目标是成为在Python中进行实用、真实世界数据分析的基础性高级构建块。此外,它还有更宏大的目标,即成为任何语言中可用的最强大、最灵活的开源数据分析/操作工具。它已朝着这个目标大步迈进。
以下是pandas能很好处理的部分功能:
- 轻松处理浮点数和非浮点数数据中的缺失数据(表示为
NaN、NA或NaT) - 尺寸可变:可以向DataFrame对象和更高维度对象插入和删除列
- 自动和显式数据对齐:对象可以显式对齐到一组标签,或者用户可以忽略标签,让
Series、DataFrame等在计算中自动为您对齐数据 - 强大的、灵活的分组功能,用于对数据集执行拆分-应用-合并操作,以进行数据聚合和转换
- 便于将其他Python和NumPy数据结构中的参差不齐、索引不同的数据转换为DataFrame对象
- 智能的基于标签的切片、花式索引和子集选择大型数据集
- 直观的合并和连接数据集
- 灵活的重塑和透视数据集
- 轴的分层标记(可以为每个刻度设置多个标签)
- 健壮的I/O工具,用于从平面文件(CSV和分隔符文件)、Excel文件、数据库加载数据,并将数据保存/加载到超快的HDF5格式
- 时间序列特定功能:日期范围生成和频率转换、移动窗口统计、日期移位和滞后
源代码目前托管在GitHub上: https://github.com/pandas-dev/pandas
最新发布版本的二进制安装程序可在Python包索引(PyPI)和Conda上找到。
# conda
conda install -c conda-forge pandas# or PyPI
pip install pandas每个pandas发布版本之间的变更列表可以在这里找到。有关完整详细信息,请参阅GitHub上的提交日志:https://github.com/pandas-dev/pandas。
- NumPy - 为大型、多维数组、矩阵和在这些数组上操作的高级数学函数提供支持
- python-dateutil - 为标准datetime模块提供强大的扩展
- tzdata - 提供IANA时区数据库(仅在Windows/Emscripten上需要)
有关所需、推荐和可选依赖项的最低支持版本,请参阅完整的安装说明。
要从源代码安装pandas,除了上述常规依赖项外,您还需要Cython。Cython可以从PyPI安装:
pip install cython在pandas目录中(与您在克隆git仓库后找到此文件的目录相同),执行:
pip install .或者以开发模式安装:
python -m pip install -ve . --no-build-isolation --config-settings editable-verbose=true有关从源代码安装的完整说明。
官方文档托管在PyData.org。
pandas的工作始于2008年的AQR(一家量化对冲基金),并在此后一直处于积极开发状态。
对于使用方面的问题,最好的地方是Stack Overflow。此外,一般性的问题和讨论也可以在pydata邮件列表上进行。
大部分开发讨论在GitHub上的此仓库中进行,通过GitHub问题跟踪器。
此外,pandas-dev邮件列表也可用于专门的讨论或设计问题,并且还有一个Slack频道可用于集思广益式开发相关问题。
项目维护者还经常举行社区会议,对社区开放,并且每月举行新贡献者会议以支持新贡献者。
更多关于沟通渠道的信息可在贡献者社区页面找到。
所有贡献、错误报告、错误修复、文档改进、增强功能和想法都受到欢迎。
有关如何贡献的详细概述可以在贡献指南中找到。
如果您只是想开始使用pandas代码库,请导航到GitHub的“issues”选项卡,开始查看有趣的问题。在Docs和good first issue下有许多您可以开始的问题。
您还可以分类问题,这可能包括重现错误报告,或询问版本号或重现说明等重要信息。如果您想开始分类问题,一个简单的入门方法是在CodeTriage上订阅pandas。
或者,通过使用pandas,您可能有自己的想法,或者在文档中寻找某项内容并想“这可以改进”……您可以为此做些什么!
作为本项目的贡献者和维护者,您有义务遵守pandas的行为准则。更多信息请访问:贡献者行为准则