最新 最热

基于机器学习的文本分类!

据不完全统计,网民们平均每人每周收到的垃圾邮件高达10封左右。垃圾邮件浪费网络资源的同时,还消耗了我们大量的时间。大家对此深恶痛绝,于是识别垃圾邮件并对其进行过滤成为各邮件服务商的重要工作之一。...

2020-08-10
0

数据挖掘课程能带给你什么收获

主要是学习到了会创建project啊,之前不会如此高效整理自己的项目....都是直接复制粘贴代码进去,所以各种报错,唉。

2020-08-07
0

引出你的课题聚焦的基因-差异和生存

比如,一个课题是为了说明 BACE2 基因在癌症研究领域很重要,就可以使用两个数据库(TCGA and GTEx),做出差异和生存的图表来辅助自己的研究。

2020-08-07
1

文本挖掘| 到底什么是文本挖掘?

你是否想过为什么图书馆的管理员能够将几千本几万本的书籍进行快速的管理?你是否好奇习近平总书记的政府工作报告,随着时间的推移,他传达的信息有什么变化?如何从海量的科研文献中提取导致某疾病的关键蛋白/基因?如何针对...

2020-08-05
0

数据仓库介绍与实时数仓案例

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。...

2020-08-04
0

如何在数据竞赛中脱颖而出-见解、技术及策略

今天,我们分享一些关于数据竞赛的经验与技术,以及一些可以确保你取胜的技术策略。本文选取的数据来自Vidhya上的“贷款预测”竞赛。

2020-08-04
1

算法集锦(2)|scikit-learn| 如何利用文本挖掘推荐Ted演讲

当我第一次看到"Ted Talk"数据集的时候,脑子里立刻冒出一些有意思的想法。首先,既然Ted Talk数据集包含了许多Ted演讲的演讲词文本,那么我们自然而然的就拥有了一个非常丰富且规范的预料库。第二,既然这个语料库有非常好...

2020-08-04
1

论文主题、引用量、中国机构 & 华人学者,KDD 2020 关键数据抢先看!

ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。...

2020-08-02
0

大数据常用技术栈

提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取...

2020-07-24
1

Elasticsearch 预处理没有奇技淫巧,请先用好这一招!

es可以根据_id字符串切分,再聚合统计吗 比如:数据1、_id=C12345 数据2、_id=C12456 数据3、_id=C31268

2020-07-24
0