大家好,最近在知乎和沙雕网友们疯狂互动的时候,碰到了这么一道题
怎么才有数据分析思路? 做数据分析经常会遇到一个问题,从一堆海量数据,不知道怎么分析,怎么得出结论,往往是因为想法枯竭,大家有什么好的方法吗?
我最近刚从这个问题脱身,挺有发言权的,赶紧来给大家输出
大学里学做海报的时候,学姐给我们传达的思想是“视觉积累比技术重要”;实习写公众号的时候,老大也教育我“80%的时间都应该花在‘看别人在说什么’上”。我想,世间之事大抵如此,都做不好一个复读机,那就更不可能做一个优秀的“人工”智能了。
所以,对于这个问题,我的第一个答案是“多看项目”
比如说,我是互联网行业的人,我每天手里握的数据是PV/UV/曝光/留存/转化,而我每天经受的灵魂拷问是“数据为什么降了”“新版上线留存能提高多少”...
这时,我们可以参考一下参加数据比赛的一般解题流程
1.分析数据
分析数据,在这个语境下,应该是盘点一下手上能有怎样的数据。比如我们分析一条推送的打开率,送达/PV/UV/曝光/转化,除了这些平时我们直接关注的数据,还会有其他数据,比如,推送时间/标题长度/是否周末/用户属性balabala。
(此处我们没有评价指标,忽略)
2.抽象成数学问题
就是明确你要研究的数据,以及边界。
再拿“分析一条推送的打开率”举例,你可以把他转化成“预测一个用户是否会打开推送”,或者“预测一条推送文案的打开率”,又或者“预测一条推送的开率”
前面3个题目背后的X和y其实都是不一样的。
3.赛题类型
是有监督/无监督/半监督?二分类/回归/NLP...?拿前面那3个问题举例
预测一个用户是否会打开推送——有监督&二分类
预测一条推送文案的打开率——有监督&NLP&回归
预测一条推送的打开率——有监督&回归
再比如只是简简单单的做个用户画像,那可能就是个无监督的聚类问题。
4.查找资料
这不就不用多说了吧!无论是抄作业类型的找,还是漫无目的开卷有益型的找,多走走多看看总是没错的。
这不,我网上冲浪给大家找到了这些案例,或多或少都是按照上面给大家讲的4步来的,现在呈上来给大家开开眼。
这篇文章从社交媒体语料库,分析车类品牌用户的购买行为。 Scottish Fold Cats,【万字干货】 如何利用Social Listening从在线垂直社区提炼有价值的信息---以汽车之家的口碑数据挖掘为例
作者开局一张纸,内容全靠爬,白手起家配合一些商业模型,最终输出了8个有效结论。
i.消费者购车目的分析
ii.了解消费者关注的典型话题
iii.从“车辆缺陷”中识别凯迪拉克的重要产品缺陷
...
这篇文章基于“人人都是产品经理”网站的文章数据进行数据分析,为选题作指导
同为新媒体 数据分析从业者,我非常赞许作者用科学的方法洞察话题潮流趋势,从而指导选题这种操作。
这篇文章立足电商领域,用聚类的方法做RFM用户分类 苏格兰折耳喵,【数据运营实操】如何运用数据分析对某个试运营项目进行“无死角”的复盘?
这篇文章也是电商领域的。它从如何寻找特征维度开始讲解,用了最最最基础的决策树模型,来分析一个用户付费与否的核心差别点。 运营数据能力进阶(一):客户画像数据分析 LunaDeng,人人都是产品经理 http://www.woshipm.com/data-analysis/2409661.html
这篇文章基于上海市链家二手房数据,构建线性回归方程,用于房价因素的判断及预测。 上海市链家二手房分析 小科,kesci https://www.kesci.com/home/project/58d09ac197c4b112cbb80627
上面这些案例还都挺有启发性的,想看更多也可以自行搜索
(要不是为了写文章去搜的这些,我还不知道有这类骚操作,你看,“多看项目”有用吧~)
好,为了防止你看了以上案例,出现马冬梅名场面
我就再丢一个答案——提升“对于自己行业、对公司业务的理解”。
题主描述中所说“不知道怎么分析,怎么得出结论”,我想大抵就是对业务的不了解。
你看上面那些比较厉害的例子,或多或少都是有一些经典的理论进行支撑的,比如“汽车之家”的高大上Social Listening,还有电商的经典RFM模型。再不济,也是从实际业务中遇到的问题出发,比如自媒体的选题分析等。其背后,都是需要丰富的业务知识进行支撑。
再拿我自己举例子,对于我一个机器学习基础还行的新手互联网运营来说,其实给我带来更大的思路拓宽的是一些讲运营的书,比如《运营之光》之类,看了他,你才会对“互联网运营”的有更深,更结构化的认知,才不会永远都看山是山。
“对行业、业务的理解”和“对算法的理解”这两兄弟就好像双腿走路一样,如果其中短了一根,就会一瘸一拐走不好“数据分析”之路。
说到最后,其实也还是开卷有益,多看多交流,多花时间总没错的。