懂Excel轻松入门Python数据分析包pandas(二十八)：二分法查找

前言

Excel 中的 vlookup 函数有一个模糊查找选项，其内在原理为二分法查找，在 pandas 中同样有一样功能的方法。

如下某物资取货记录：

问题类似匹配查找，是一种模糊匹配，比如 30 不是直接匹配 30 对应的记录，而是匹配到高于30最近的点(批次表的第一个点50)

首先要知道每个人取货之前已经累计被拿了多少数量：

同样道理，处理批次表：

现在可以直接使用 vlookup 了：

pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作：

行1、2：加载数据，不多说
行4、5：对2个表排序。这其实是很关键一步，上面 Excel 操作中省去了这2个操作
行7、8：对应 Excel 中的求出"累计列"的操作
行10：pd.cut 相当于模糊查找的 vlookup 。但是这方法比 vlookup 麻烦，每个区间的分割点必需比区间要多1个数量(这符合数据分段逻辑，但不方便数据表操作)
所以在参数 bins 里面，我们特意添加一个比较大的数 1000 上去
参数 right=False ，是让边界值归左边界处理。比如数量50，是属于批次1，而不是批次2

针对上述说的 pd.cut 的缺点，我们可以自定义一个函数，简化操作：

现在调用就清晰很多了：

有没有想过直接往 pandas 库中添加一个属于自己的方法 vlookup 呢？真的可以做到，在我的 pandas 专栏后期将会详细讲解工程化扩展，想打造属于自己的 pandas 不是问题。

不知道你有没有注意到，此案例存在有些人的取货是跨越了2个批次(比如A4这个人)。

怎么可以把跨越2个批次的人标记出来？这个问题留待下次探讨，大家不妨从 Excel 的操作角度想一下，可能一下子就能知道 pandas 中是如何解决

本文重点：

0 人点赞