最新 最热

MADlib——基于SQL的数据挖掘解决方案(9)——数据探索之概率统计

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/79088215

2019-05-25
0

触类旁通Elasticsearch:打分

使得ES查询与select * from users where name like 'bob%'查询不同的是其为文档赋予相关性得分的能力。从这个得分,可以得知文档和原始的查询有多么相关。...

2019-05-25
0

触类旁通Elasticsearch:原理

ES被设计为处理海量数据的高性能搜索场景。海量数据具体说至少应该是数亿文档,而高性能具体说就是从数亿文档中任意搜索需要的信息,应该在秒级返回结果。既然ES的一切都是为了性能而设计,从逻辑设计和物理设计两个角度考...

2019-05-25
0

SQL Server数据仓库的基础架构规划

SQL Server数据仓库具有自己的特征和行为属性,有别去其他。从这个意义上说,数据仓库基础架构规划需要与标准SQL Server OLTP数据库系统的规划不同。在本文中,我们将介绍在计划数据仓库时应该考虑的一些事项。...

2019-05-25
0

分组计算描述性统计量函数—by()函数

简单点说by(data, INDICES, FUN)函数的典型用法: 是将data数据框或矩阵按照INDICES因子水平进行分组,然后对每组应用FUN函数。是不是没懂?反正看完后我没懂~...

2019-05-24
0

Hadoop及其生态系统的基本介绍【转载】

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

2019-05-23
1

大数据技术之_24_电影推荐系统项目_06_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据 + 离线推荐服务建设 + 实时推荐服务建设 + 基于内容的推荐服务建设

用户可视化:主要负责实现和用户的交互以及业务数据的展示, 主体采用 AngularJS2 进行实现,部署在 Apache 服务上。(或者可以部署在 Nginx 上)  综合业务服务:主要实现 JavaEE 层面整体的业务逻辑,通过 Spring 进行构建,对接...

2019-05-23
0

100篇泛癌研究文献解读之生存分析相关基因

为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视...

2019-05-22
1

06_TF-IDF算法代码示例

TF-IDF算法代码示例0.引入依赖import numpy as np # 数值计算、矩阵运算、向量运算import pandas as pd # 数值分析、科学计算1.定义数据和预处理# 定义文档docA = 'The cat sat on my bed&#x...

2019-05-19
0

数据工程师的算法!

翻出来了17年自己梳理的数据工程师的算法学习内容,当时的理解和现在会有些许不同,但整体来看还是可以的,有一些比较细节的内容并没有花较多的时间来整理,留待大家自己补充了,在此不再做任何修改分享给大家参考,也算是对当时...

2019-05-17
0