最新 最热

强烈推荐!入门大数据分析必看的知识点总结,适合零基础学习

大数据包含太多东西了,从数据仓库、hadoop、hdfs、hive到spark、kafka等,每个要详细的说都会要很久的,所以我不认为这里面有一个答案是合理的。

2021-02-26
1

Kaggle知识点:文本相似度计算方法

文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。...

2021-02-23
0

怎样将数据从Oracle迁移到TiDB

Best Practice for Data migration from Oracleto Tidb

2021-02-19
1

Elasticsearch从入门到放弃:浅谈算分

今天来聊一个 Elasticsearch 的另一个关键概念——相关性算分。在查询 API 的结果中,我们经常会看到 _score 这个字段,它就是用来表示相关性算分的字段,而相关性就是描述一个文档和查询语句的匹配程度。...

2021-02-19
0

pd.MultiIndex() TypeError: __new__() got an unexpected keyword argument 'labels

可以看到pd.MultiIndex()并没有labels参数,与labels功能相同的是codes参数,查看https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html可以看到:

2021-02-18
1

漏斗分析:你可能低估了它的复杂度(逻辑细节及产品化)

与《归因分析》《用户路径分析》不同的是,大部分互联网从业者,都听过漏斗分析。但对于漏斗分析的细节,你确定了解吗?漏斗分析可不只是简单的几个递减、转化率哦~下面,和大家一起聊聊具体的逻辑。...

2021-02-11
0

The lifecycle of a SQL in TiDB

1. 当Sql进入TiDB时先获取Token,事务开始时获取Start TS (异步方式获取)

2021-02-11
1

从0梳理1场数据挖掘赛事!

摘要:数据竞赛对于大家理论实践和增加履历帮助比较大,但许多读者反馈不知道如何入门,本文以河北高校数据挖掘邀请赛为背景,完整梳理了从环境准备、数据读取、数据分析、特征工程和数据建模的整个过程。...

2021-02-05
1

北航学长:DCIC 2021的算法方案讲解

DCIC 作为每年具有重要影响力的政府赛事,除了高认可,高奖金,最重要的是开放了政府和企业的真实数据,具有研究和落地价值,但对于刚参加赛事的同学,还是有难度的,希望通过分享让更初学者也能参与学习实践和研究。...

2021-02-05
0

大数据介绍

​ 字面意思理解:大量的数据,海量的数据 ​ 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据

2021-02-05
0