最新 最热

企业大数据应用体系优化与转型

2009年,Gartner发布2010年全球Top10技术趋势,高级分析取代上一年列第二位的BI,成为2010年第二位新技术;2011年,麦肯锡全球研究院(MGI)发布了报告《大数据:创新、竞争和生产力的下一个前沿阵地》,预测高级分析这一职位对于数据...

2020-05-26
0

经典中的经典--泰坦尼克号的乘客生存预测

数据分析/挖掘是以概率论、线性代数、统计学、信息论为基础,根据之前接触到的数据挖掘流程,可定义为:数据准备-->数据探索--> 数据预处理-->特征工程-->模型建立-->模型评估,其中数据探索、数据预处理、特征工程针对某一...

2020-05-25
1

NLP | TF-IDF词频-逆文件频率算法解析

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率) 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。...

2020-05-25
0

世界一流大学的计算机专业,在用哪些书当教材?

清华、北大、MIT、CMU、斯坦福的学霸们在新学期里要学什么?数据叔决定盘点一下那些世界名校计算机专业采用的教材。不用多说,每本都是经典的烧脑技术书,建议配合防脱发产品一起食用。...

2020-05-21
0

云计算术语

全球网络的一种比喻说法,起初用于表示电话网络,现在通常用于表示 Internet。

2020-05-20
0

打分排序系统漫谈3 - 贝叶斯更新/平均

上一节我们聊了聊用Wilson区间估计来处理小样本估计,但从原理上来说这种方法更像是一种Trick,它没有从本质上解决样本量小的时候估计不置信的问题,而是给估计加上一个和样本量相关的置信下界,然后用这个下界替代估计进行...

2020-05-17
0

打分排序系统漫谈2 - 点赞量?点赞率?! 置信区间!

在第一篇打分系统漫谈1 - 时间衰减我们聊了两种相对简单的打分算法Hacker News和Reddit Hot Formula,也提出了几个这两种算法可能存在的问题,这一篇我们就其中的两一个问题进一步讨论:...

2020-05-17
0

AB实验的高端玩法系列4- 实验渗透低?用户未被触达?CACE/LATE

CACE全称Compiler Average Casual Effect或者Local Average Treatment Effect。在观测数据中的应用需要和Instrument Variable

2020-05-17
0

打分排序系统漫谈1 - 时间衰减

打分排序系统的应用非常普遍,比如电影的评分,知乎帖子的热度,和新闻文章的排序。让我们从最简单直观的平均打分开始, 聊聊各种打分方法的利弊和使用场景。...

2020-05-17
0

作为研究生,你还事事都要别人帮忙吗?

有粉丝问,为什么这几天不更新了。跟大家解释一下,由于近期科研猫技术全员被“抓壮丁”,攻关项目研发,所以近期公众号不定时更新。我们一向还是秉承宁缺勿滥,只出精品的原则,每一篇文章都是对大家有帮助的精品文章。另外,剧透...

2020-05-15
1