最新 最热

白话词嵌入:从计数向量到Word2Vec

答案是——“文本处理”。上面三个场景通过处理海量文本,完成了三个不同的任务:聚类、分类和机器翻译。

2019-09-18
0

TCGA数据挖掘(四):表达差异分析(4)

在之前我们的文章:TCGA数据挖掘(三):表达差异分析中,我们利用的是TCGAbiolinks包中的TCGAanalyze_DEA函数进行差异表达分析,我们也提到可以选择基于limma或edgeR包进行分析,TCGA数据挖掘(三):表达差异分析这一讲中我们利用的是e...

2019-09-18
0

竞赛专题(四)特征工程-竞赛中的必杀技

为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解、数据探索、数据预处理、特征工程、模型建立与参...

2019-09-17
0

手把手教你入门和实践特征工程 的全方位万字笔记,附代码下载

(注:本节用到了两个数据集,分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity)

2019-09-17
0

裴健等9名华人当选加拿大皇家学会院士

可能有人会好奇,这里的加拿大皇家学会是一个怎样的组织?被它选中的院士含金量有多高?据维基百科等资料显示,获得 RSC 的认可可以说是个人在艺术、社会科学和科学领域能够获得的最高荣誉,含金量绝对足够高。...

2019-09-17
0

Oracle 修改oracle数据库名

2.确保数据库处于mount,非open状态,并且在加载前先以immediate方式关闭。如:

2019-09-12
0

TF-IDF与余弦相似度

在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计:

2019-09-12
0

数据挖掘

数据挖掘——就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。...

2019-09-12
0

数据仓库系列之数据质量管理

数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。因此数据仓库的数据质量建设是一些公司的重点工作。...

2019-09-11
0

从概念到应用,终于有人把数据挖掘讲明白了

导读:数据采集和存储技术的迅速发展,加之数据生成与传播的便捷性,致使数据爆炸性增长,最终形成了当前的大数据时代。围绕这些数据集进行可行的深入分析,对几乎所有社会领域的决策都变得越来越重要:商业和工业、科学和工程、...

2019-09-10
0