物流大数据简述

在大数据时代背景下，存在于社会任何行业、组织及个人不可能独善其身，或者成为数据贡献者，或者成为数据采集者。物流行业是近些年快速发展起来的朝阳行业，正是互联网技术的发展催生出的电子商务给物流行业带来了前所未有机遇。

物流大数据主要包括运单信息的数据和车辆信息的数据。然而，关于运单信息往往涉及商业机密，并且信息分布于不同行业企业内部，不宜公开。

物流大数据都是哪些数据？

从当前现实的数据条件来看，实业界和学术界的物流大数据主要是关于货运车辆信息的数据。其中包括：车辆ID信息，驾驶员信息，车辆行驶轨迹坐标信息，车辆停车信息，车辆速度信息，

车辆里程信息，车辆温度信息，车辆油耗信息，车辆其他状态信息等。轨迹数据挖掘来源通常是终端设备上产生的位置记录，然后位置信息传回数据中心以日志文件形式存放。

通过定位技术采集到的原始轨迹数据只是一系列的经纬度、时间、速度等信息，通过这些信息无法直接得到物流货运车的活动行为的特征信息，例如运送货物的起始点、途经哪些城市信息，以及更深层次的活动规律等。这些原始的北斗/GPS数据必须经过一系列的处理步骤，才能获取到物流货运车的送货规律等特征信息。

数据有哪些特点？

想要从海量数据中分析获取到有价值的知识信息，首先要了解物流货运车辆轨迹数据的特征。

数据海量性：

物流车辆一般以10秒到30秒的间隔向数据中心发送当前位置信息，这些移动在全国各地路网中的物流车辆每天生成的北斗/GPS数据都达到了GB甚至TB规模，并且还在不断增长中。这既是发展数据挖掘的驱动力，同时也是数据挖掘面临的难题。

数据稀疏性：

虽然轨迹数据规模庞大，但由于地理因素、天气因素、设备故障等原因，并不能保证每一个路段都有完整的北斗、GPS信息，甚至有些错误的北斗/GPS数据。

数据复杂性：

物流车辆在实际行驶过程中受各方面主客观因素影响，难以简单通过某个模型或者理论来进行评估和预测。其中包括，每个司机都有自己的驾驶习惯，即使同一个司机在驾驶过程中也会针对不同客观条件改变自己的驾驶行为，这些人为的改变无疑增加了轨迹数据挖掘的不确定性和复杂性。

数据丰富性：

在海量的轨迹数据背后隐藏着全国实时路况信息、物流运输状态信息和我国不同区域经济发展水平以及供需关系的变化。对于我国道路基础建设、交通路径规划、物流车辆调度、经济指标预测等方面有着积极意义。

如何挖掘这些数据？

轨迹数据挖掘，是指从大量轨迹数据的集合C中发现隐含模式m和知识n的结果S。因此，轨迹数据挖掘的过程可以看作为一个函数：?:C→S（m,n），输入是轨迹数据，输出是隐含模式m和知识n。通过使用某些技术、理论，从大量的轨迹数据提取模式、发现庞大知识的一个过程。

轨迹数据挖掘发现的知识类型和所使用的方法密切相关，所发现的知识的价值受到数据挖掘算法的影响，目前常用的轨迹数据挖掘技术有规则归纳、概念簇集、关联发现等。目前的轨迹数据挖掘研究工作中主要为轨迹聚类、轨迹分类、离群点检测、兴趣区域、隐私保护、位置推荐等方面。

物流数据挖掘的意义

物流车辆的海量大数据中包含着许多关于交通路况、车辆运行甚至社会经济发展动态的信息。通过统计分析车辆行驶距离、停车时间、地理位置、车辆特征等多个维度的信息可以发现货运车辆的行为特征、区域物流的流量分布等，为物流公司提供基于时间、成本、路线等车辆调度的应用服务提供了可靠的理论依据和技术支持，同时也可以为政府提供物流运价指数、货运效率指数等优先经济指标。

要做好物流主要数据分析，关键一点是需求要清楚明确。而需求是可以用数据来描述和定义的。一个项目，其关键数据也就那么几个而已，如收货量、发货量、库存量、拆零量、SKU等，并不难掌握。那先从物流仓储的几个环节进行描述。

收货有关的数据：

与收货有关的数据，包括到货量（箱）、订单数、车辆的装载量、收货区域大小、收货作业时间、每天收货SKU数等。

车辆的装载量和卸载时间主要对于站台设计有影响，包括车辆大小、载重量等。一般情况下，还要分析卸货的方式、速度，以便详细规划站台的数量。

很多人对高点平均值和算术平均值对于设计的影响不甚了解。简单来说，将一年（或一定时间）的收货量除以一年（或一定时间）的实际工作天数，即得到平均每天收货量，一年中最大收货量的一天，即最大收货量。在实际上设计中，如果按照平均值设计，则使得加班的天数会很多；如果按照最大值进行设计，则会出现工作不饱满，设备闲置的现象。因此，一般取平均值和最大值之间的某个值进行设计，具体要根据实际需要确定，发货也有这种情况。

储存有关的数据

库存能力对系统的设计非常重要。但如何确定库存却是非常有讲究的。除了库存总量W以外，还要考虑SKU数，以及各种存储方式下的库存要求等。很多情况下，仓库的设计并非是单一的。所以，设计的时候就要清楚库存的方式是什么，有什么要求。

一般的储存形式分为2种主要方式：以托盘为单位储存（分为立体库和平面库两种最基本形式）和以箱为单位储存。当然还有其它形式，如包裹、麻袋、散料等，也有条状物（如钢材），异形物品（如服装的挂装等）等，不再详述。在设计中，这两种方式都要考虑，有时以托盘为主，有时以箱储存为主，有时两者比较均衡。

计算库存能力当然与箱规有关，也与平均库存天数有关，这是基础。SKU对库存分配的要求有很大的制约作用，往往与作业面设计有关。此外，发货量对于库存设计也有非常大的影响，如拆零量，就要求对拆零区有一定限制。

库存ABC分析也是非常重要的，对于仓库设计起到重要作用。一般情况下，库存ABC分析结果决定了储存形式，ABC的定义将随着不同业务有所不同，要因地制宜。实际操作中，往往要对够托盘，够1/2托盘的SKU及这些SKU所占库存比例进行分析，以便正确决策。

随着电子商务的兴起，SKU不断扩大，ABC分析尤其重要。此外要注意的一个趋势是，箱式存储方式越来越受到重视，其占比越来越高。也影响库存的分析。

在计算储存能力时，人们普遍对库存充满率感到困惑。一般情况下，我们知道，托盘或货箱并不能完全被充满，而为了满足作业的顺利进行，货位也不能完全被充满。因此，要留有余地，这两个系数在不同的案例中会有差异，但都不应该忽视。

拣选有关的数据：

拣选的订单数、订单行数、发货量是比较重要的设计数据。

发货ABC分析同样重要，要注意的是：发货ABC分布与库存ABC往往是不相同的，分析时要注意加以区分。

拣选环节设计关注的主要是拣选、包装和输送问题，因此，有关拣选的细节问题就非常重要。如整盘出库量、整件出库量和拆零出库量，这三个参数对于设计也是非常重要的。

一些基础信息也是要清楚的，如拣选效率、播种效率和包装效率等，有些可以通过其它项目经验获得，有些应进行实际测量。需要指出的是，测量结果与作业流程、工位设计以及测量方法有关，有时很难确定一个准确的结果。

不同的拣选方法其效率差异很大，这是设计要特别考虑的地方。事实上，采用什么样的技术手段，对设计结果影响甚大。这一些问题，在数据分析时，就应该有所考虑。

发货有关的数据：

发货路向、数量、车辆形式、作业时间、暂存时间等数据是发货设计阶段的基础。

众所周知，分拣机的格口不可能无限增加。因此，设计中应考虑波次问题，以便控制格口数量。有些物流中心的发货区设计很小，站台停车位很少，给发货造成很大困难。

集货区的大小与发货波次有关。很多小的物流中心，每天只安排一次发货，其发货区就要大一些；对一个大型的物流中心来说，一般要按照多个大波次组织发货，每个大波次还有若干小波次，由此可以大幅度降低对集货区的需求。这在设计中是要注意的。

随着企业对物流认识越来越深刻，发货装车环节越来越受到重视。因此，设计中也要与时俱进，考虑自动化系统对发货区的影响。

退货有关的数据：

退货很重要也很困难，但容易受到忽视。在通常的数据分析中，退货分析也是不充分的。事实上，退货与收货的过程是不一样的。这主要是因为退货收货需要处理的数据量远远大于普通收货。

退货作业不是均衡的，有很大的波动性。因此，在数据分析中（实际作业也是如此），要将退货收货与退货处理分开来。其作业时间和作业量都不会一样。

对退货来说，其作业流程对于设计会产生影响。一般数据分析仅仅提供退货量即可，包括订单数、订单行、SKU、数量等。

要注意的是，退货有两种形式，其一是终端退回到物流中心；其二是物流中心退回供应商或者报废处理。两者差异是很大的。在数据分析时，要分别对待。

其它:

数据分析很重要，也有一定难度，这是需要指出的。经验和专业知识对于数据分析很重要。此外，数据分析结果必须得到用户确认才能用于设计。

最后要说明一点的是，数据分析的结果并不是直接应用于设计，而是要据此提出设计指标。其中有些数据的变化是比较缓慢的，如产品特点、订单结构、品项数、作业方式等，有些却会变化剧烈，如设计指标等。这些除了经验、行业情况能够提供帮助外，关键的是要认真分析，找出规律。在这个过程中，充分的调研，与用户充分的沟通尤其重要。

数据挖掘大数据数据分析

0 人点赞