案例
假如,你想知道你们公司每个员工的通勤时间是多少。而公司员工有上千人,一个一个问太费时。你并不需要得到精确的结果,有没有好的办法呢?
有一个简单的办法:你只需要随机问5个人即可!
假设你得到的答案是:30分钟、50分钟、40分钟、60分钟和45分钟。 这5个数字的最小值为30,最大值为60。那么,你就可以断定:所有员工通勤时间的中间值,有93.75%的可能性在30~60分钟之间。
原理
上面用到的方法叫5人法则。该方法之所以有效,是因为它估计的是群体的中间值。所谓“中间值”(或中位数),就是群体中有一半的值大于它,一半的值小于它。
假如我们随机选的5个都大于或都小于中间值,那么中间值就在30~60的范围之外。这样的情况概率有多大呢?
根据定义,随机算一个值,其大于中间值的概率是50%。这个扔一个硬币,正面朝上的概率是一样的。随机选择5个都大于中间值的概率,等于连续扔5次硬币全部正面朝上的概率。这样的概率是1/32,即3.125%。同样,所有5个都小于中间值的概率也是3.125%。
中间值在5个人范围(30~60)的概率 = 100% - 3.125% - 3.125% = 93.75%
有时候,一个好的测量方法,能够大大节省成本!
相关文章
Elasticsearch全文检索与余弦相似度
推荐引擎算法 - 猜你喜欢的东西