最新 最热

CTO/CIO如何组建数据团队

近年来,行业数据量不断增大。不论是深耕互联网行业的零售企业,还是为智能应用提供技术支撑、营销服务的数字运营商,亦或是具备雄厚技术实力并致力于数字化转型的传统行业,都纷纷组建了数据团队。...

2021-06-24
0

6个步骤搞定金融数据挖掘预处理

数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。下面就一起看下常用六大步完成数据预处理。其中数据获取可以参考金融数据准备。...

2021-06-24
0

如何生成自定义的逆向文件频率(IDF)文本语料库

jieba分词中,关键词提取使用逆向文件频率文本语料库时,除了使用现有的语料库外,还可以自定义生成文本语料库。

2021-06-24
1

Jieba中文分词 (二) ——词性标注与关键词提取

上一篇jieba中文分词(一)分词与自定义字典已介绍了jieba中文分词安装,分词原理,分词方法,自定义字典,添加字典等多种常用分词方法。本篇将继续介绍jieba分词关键词提取、词性标注、及常见问题。...

2021-06-24
1

Pandas高级教程之:处理缺失数据

在数据处理中,Pandas会将无法解析的数据或者缺失的数据使用NaN来表示。虽然所有的数据都有了相应的表示,但是NaN很明显是无法进行数学运算的。

2021-06-24
1

规范抓取数据,防止IP封禁

网络爬取和网络抓取相辅相成,对于公共数据收集来说至关重要。电子商务企业会使用网络抓取工具从各个网站收集新数据。然后,将抓取到的信息用于改进业务和营销策略。...

2021-06-23
1

大数据知识体系之数据采集

数据平台数据采集系统日志采集网络数据采集设备数据采集数据同步数据存储数据计算实时计算离线计算数据挖掘数据服务数据模型数据建模方法论数据模型管理体系表设计数据管理元数据收集和搜索数据血缘数据质量计算任务...

2021-06-17
0

Python基础学习

概念:计算及是根据指令操作数据的设备,具有功能性和可编程性。发展:参照摩尔定律(Moore’s Law),表现为指数方式。程序设计:计算及可编程性的体现。程序设计语言:一种用于交互的人造语言。编程语言的执行方式:编译和解释。编译...

2021-06-15
0

Pandas高级教程之:Dataframe的重排和旋转

使用Pandas的pivot方法可以将DF进行旋转变换,本文将会详细讲解pivot的秘密。

2021-06-15
1

数据处理基石:pandas数据探索

本文介绍的是Pandas数据初探索。当我们生成或者导入了数据之后,通过数据的探索工作能够快速了解和认识数据基本信息,比如数据中字段的类型、索引、最值、缺失值等,可以让我们对数据的全貌有一个初步了解。...

2021-06-15
0