数据挖掘的方法很多,实用易懂的就这一种

2020-04-17 10:15:45 浏览数 (1)

六人定律,相信大家一定都不会陌生。简单的说,你只需要通过6个人,就可以认识到世界上所有的人。足以说明,世界就像一张网,任何事物之间都能找到关系。

大数据时代,我们把这样的网络叫关系网络,那么,如何从关系网络中挖掘出有价值的信息?以下为你一一道来。

什么是关系网络

关系网络有时也叫社会网络,是指社会参与者及其间的关系的集合。也可以说,一个关系网络是由多个点(社会参与者)和各点之间的连线(参与者之间的关系)组成的集合。

这里的参与者不但指具体的个人,还可指一个群体、公司或其他集体性的社会单位或实体。每个参与者在网络中的位置被称为"节点(node)"或“顶点(Vertex)”,参与者之间的关系称为“边(Edge)”。

常见的关系网络可能由以下关系构成:

  • 亲属关系:父母、子女、夫妻关系等。
  • 社会关系:社会角色也是关系性的,如老板/职员、教师/学生、医生/病人关系等。
  • 个人之间的评价关系:赞成、喜欢、信任、尊重等。
  • 行为上的互动关系:参与者之间的自然交往,如谈话、参加会议、拜访、提建议等。
  • 隶属关系:如参加一项协会、属于某些俱乐部等。
  • 物质或资本的传递:商业往来、物资交流。
  • 非物质资源的转换关系:参与者之间的交往、信息的交换等。
  • 空间关系:城市之间的关系,迁入和迁出。
  • 职位的升迁,地位的变动

关系网络分析方法

要分析关系网络,从了解一些基本概念开始。

1、“图”的概念 为方便计算机处理关系网络,在计算机理论中,把关系网络抽象为“图”的概念。这里的“图”不是图形,也不是照片,而是一种数据结构。“图”由下面三种关键元素构成:

  • 节点(Node):即顶点(Vertex)
  • 边(Edge):表示节点之间的关系
  • 属性(Property):节点和边都可以有自己的属性

“图”中的属性用于描述节点或边的特征。例如,对于某学校关系网络,点的属性可能有姓名、角色等,边的属性可能有同学、师生、同事等。

2、有向图和无向图

图也分为有向图和无向图,分别用有箭头的连线和无箭头的连线表示。有向图中的关系是有方向的,如借贷关系、权力关系等。无向图中的关系是无方向的,例如参会、交谈等。所有的关系网络都可以抽象为“图”的形式来表述

3、最短路径

有个很著名的理论,世界上任意两个人之间最多经过6个人就能建立联系。也就是说,你只需要通过6个人,就可以和美国总统特朗普说上话。但是,如何找到这6个人呢?最短路径算法就用于这样的场景,用于找到源节点到目标节点的最短路径。它的主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,是很有代表性的最短路径算法。

如下图所示,通过最短路径计算,我们很容易在一个复杂的网络中找到任意两个节点(我和特朗普)之间的最短路径。

4、度和权重

点的“度”数,是指与该点相连的边的条数。对于有向图,“度”也可以细分为出度和入度。与节点相连的边越多,说明该点越重要,所以节点的“度”数反映了一个点的重要程度。 再说说点的权重,权重是表示点的重要程度的另一种方式。权重有很多种评价方式,可以用点的某项属性度量值为权重,例如:注册资本等。也可以用某种算法求出点的权重,例如:PageRank。

可以用度数或权重在”图”中直观表示节点的重要程度。下图是《悲惨世界》人物关系,用PageRank为直径表示不同人物的重要性,可以看到,Valjean是其中的核心人物(主角)。

5、中介中心性

中介中心性在我们WonderDM中又称节点影响度。中介中心性指的是一个结点担任其它两个结点之间最短路径的桥梁的次数。一个结点充当“中介”的次数越高,它的中介中心度就越大。中介中心性是研究一个参与者在多大程度上居于其他两个参与者之间,因而是一种"控制能力"指数。

下图是《悲惨世界》人物关系,用中介中心性为直径表示人物节点。可以看到,Fantine是其中的关键人物。

6、模块化

模块化(Modularity)是关系网络分析中用于分析网络结构的一种方法。根据一个群组内部比群组外部具有更高密度的联结的原则,它将网络分成不同的群组,通常也叫群(groups)、族群(clusters)或者社群(communities)),通常用来侦测网络的社群结构。通俗的说,找出网络由哪些小圈子组成。

以微博转发数据形成的关系网络为例,将此网络模块化之后按模块进行分组配色,可以很鲜明的看到整个网络形成了若干个不同的圈子,可以对圈子内的个体详细了解后,定位该圈子的群组特征。

7、K-Core

一个图的k-Core是指反复去除“度”小于k的节点后,所余下的子图,所有的节点度数都为k。K-Core算法是简化复杂网络并得到核心子网络的算法之一,其简单有效可以运用到很多领域。K-Core可以帮助我们从复杂的关系网络中提取高度相关的子结构(如社区、团体、关联企业等)。例如可以在采购欺诈模型中,帮助我们分析买家或卖家之间行为异常的团伙或找出整个交易网络中处在核心位置的供应商或采购商。

如下图所示,使用K-Core算法,我们在一个复杂的关系网络中,找到若干关联度比较高的客户群体。

小结

现在是万物互联的时代,可谓万物皆有关系,关系网络分析可以应用到几乎所有社会活动当中。利用关系网络分析手段,结合时空数据、地理关系等建立可视化表征,可以揭示对象间的关联和对象时空相关的模式及规律,亿信华辰的数据挖掘产品WonderDM提供了涵盖分类、回归、聚类、关联规则以及时间序列等五大类、十余个小类的核心数据挖掘算法,同时支持扩展数据挖掘算法,让用户能够快速找到与业务更为贴合的数据挖掘模型。可以广泛应用于金融、银行、保险、物流、交通、安防、互联网等各行各业。

0 人点赞