此系列文章收录在公众号中:数据大宇宙 > 数据处理 > E-pd
经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas
前言
Excel 中的 vlookup 函数有一个模糊查找选项,其内在原理为二分法查找,在 pandas 中同样有一样功能的方法。
场景
如下某物资取货记录:
- 左表为取货登记,有登记时间和数量
- 右表为批次库存数量
- 出库规则为按批次从小到大优先出库,也就是说,批次1被取完,才会取批次2,以此类推
- 现在希望把左表每个人取货记录标记是哪个批次
问题类似匹配查找,是一种模糊匹配,比如 30 不是直接匹配 30 对应的记录,而是匹配到高于30最近的点(批次表的第一个点50)
Excel解决方法
首先要知道每个人取货之前已经累计被拿了多少数量:
- 通过简单的固定地址,直接使用 sum 函数即可
- 第一行的记录比较特殊,这里简单处理,直接手工填充0(复杂处理就会sum公式变复杂一点)
同样道理,处理批次表:
- 注意把公式写在表的左方,方便后续处理(别跟我说 vlookup 配合数组公式可以右往左匹配,非常讨厌无关逻辑嵌套一起的东西)
现在可以直接使用 vlookup 了:
- 注意最后一个参数是1,模糊查找
- 这里有个前提是,右表的数值列必须为升序,否则结果可能出乎意料
pandas解决方法
pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作:
- 行1、2:加载数据,不多说
- 行4、5:对2个表排序。这其实是很关键一步,上面 Excel 操作中省去了这2个操作
- 行7、8:对应 Excel 中的求出"累计列"的操作
- 行10:pd.cut 相当于模糊查找的 vlookup 。但是这方法比 vlookup 麻烦,每个区间的分割点必需比区间要多1个数量(这符合数据分段逻辑,但不方便数据表操作)
- 所以在参数 bins 里面,我们特意添加一个比较大的数 1000 上去
- 参数 right=False ,是让边界值归左边界处理。比如数量50,是属于批次1,而不是批次2
针对上述说的 pd.cut 的缺点,我们可以自定义一个函数,简化操作:
- 把数据源(参数 x)的总和添加到分段点(参数 bins)中即可
- 为了让其行为默认与 Excel vlookup 一致,把参数 right 默认值设置为 False
现在调用就清晰很多了:
有没有想过直接往 pandas 库中添加一个属于自己的方法 vlookup 呢?真的可以做到,在我的 pandas 专栏后期将会详细讲解工程化扩展,想打造属于自己的 pandas 不是问题。
问题
不知道你有没有注意到,此案例存在有些人的取货是跨越了2个批次(比如A4这个人)。
怎么可以把跨越2个批次的人标记出来?这个问题留待下次探讨,大家不妨从 Excel 的操作角度想一下,可能一下子就能知道 pandas 中是如何解决
总结
本文重点:
- pd.cut 类比 Excel vlookup 模糊查找