重建索引会更改DataFrame的行列标签,以实现类似操作:
- 重新排序现有数据,以匹配一组新的标签
- 在没有标签数据的标签位置插入缺失(NA)标识
重建索引与其他对象对齐
重建一个对象的索引,轴被重建为和另一个对象相同:
代码语言:javascript复制df1 = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(7,3),columns=['col1','col2','col3'])
df1 = df1.reindex_like(df2)
以上代码df1应该是3列10行,之后和df2对齐。 对齐操作列名应该匹配,无法对齐的列整列置为NAN。
填充时重新加注
reindex()
可以添加参数method,指定填充方法:
-
pad/ffill
- 向前填充 -
bfill / backfill
- 向后填充 -
nearest
- 从最近的索引值填充 例如:
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
# Padding NAN's
print(df2.reindex_like(df1))
# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill:")
print (df2.reindex_like(df1, method='ffill'))
以下为显示结果,可以看到最后四行被填充了,并且以之前的第一行作为填充值:
代码语言:javascript复制 col1 col2 col3
0 -0.354070 1.424280 0.431141
1 -0.266685 -0.511846 1.524848
2 NaN NaN NaN
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Data Frame with Forward Fill:
col1 col2 col3
0 -0.354070 1.424280 0.431141
1 -0.266685 -0.511846 1.524848
2 -0.266685 -0.511846 1.524848
3 -0.266685 -0.511846 1.524848
4 -0.266685 -0.511846 1.524848
5 -0.266685 -0.511846 1.524848
重建索引时的填充限制
limit参数在重建索引时提供填充的控制,限制指定连续匹配的次数:
代码语言:javascript复制df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])
# Padding NAN's
print(df2.reindex_like(df1))
# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill limiting to 1:")
print(df2.reindex_like(df1,method='ffill',limit=1))
以下为显示结果。可以看到,只往下填充了一行
代码语言:javascript复制 col1 col2 col3
0 -0.520323 0.178534 1.697688
1 1.054173 -1.347576 -0.135266
2 NaN NaN NaN
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
Data Frame with Forward Fill limiting to 1:
col1 col2 col3
0 -0.520323 0.178534 1.697688
1 1.054173 -1.347576 -0.135266
2 1.054173 -1.347576 -0.135266
3 NaN NaN NaN
4 NaN NaN NaN
5 NaN NaN NaN
重命名
rename()
方法允许基于一些映射(字典或者Series)或者任意的函数来重新标记一个轴:
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
print(df1)
print("After renaming the rows and columns:")
print(df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'}, index = {0 : 'apple', 1 : 'banana', 2 : 'durian'}))
一下为显示结果,可以看到columns和rows的名称被替换了:
代码语言:javascript复制 col1 col2 col3
0 -0.184959 -0.638493 1.006453
1 0.547960 -1.238460 -0.534488
2 -0.924793 1.303734 -2.298821
3 0.572345 -0.015453 -0.562422
4 0.935576 0.284868 0.587882
5 -0.249674 -0.097515 -1.072824
After renaming the rows and columns:
c1 c2 col3
apple -0.184959 -0.638493 1.006453
banana 0.547960 -1.238460 -0.534488
durian -0.924793 1.303734 -2.298821
3 0.572345 -0.015453 -0.562422
4 0.935576 0.284868 0.587882
5 -0.249674 -0.097515 -1.072824
rename()
方法提供了饿一个inplace命名参数,默认为Flase并复制底层数据,指定传递inplace = Ture来标识将数据重命名。