简介
- Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建。
- Pandas纳入大量库和标准数据模型,提供高效的操作数据集所需的工具。
- Pandas提供大量能使我们快速便捷地处理数据的函数和方法。
- Pandas是字典形式,基于NumPy创建,让NumPy为中心的应用变得更加简单。
- 对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。
- Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据可使用Pandas
1 | import pandas as pd |
Series
1 | 1,3,5,np.nan,6,8]) s = pd.Series([ |
DataFrame
1 | '20170101', periods=6) dates = pd.date_range( |
1 | 'A' : 1., df2 = pd.DataFrame({ |
选择
1 | 'A'] df[ |
设置数据
1 | 1,2,3,4,5,6], index=pd.date_range('20170102', periods=6)) s1 = pd.Series([ |
处理丢失数据
1 | 0:4], columns=list(df.columns) + ['E']) df1 = df.reindex(index=dates[ |
运算
1 | #统计 |
合并
分为concat拼接、merge连接、append附加
1 | #concat |
分组
1 | 'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'], df = pd.DataFrame({ |
pivot table
1 | 'A' : ['one', 'one', 'two', 'three'] * 3, df = pd.DataFrame({ |
plotting
1 | import numpy as np |
导出和导入,支持csv、hdf5和excel
1 | 'foo.csv') df.to_csv( |
读取MySQL
1 | import pandas as pd |