数据导入与预处理-课程总结-01~03章
- 第1章 数据预处理概述
- 1.1 基本概念
- 1.1.1 大数据项目开发流程
- 1.1.2 什么是数据预处理
- 1.1.3 数据质量
- 1.1.4 常见的数据问题
- 1.2 数据预处理
- 1.2.1 数据预处理流程
- 1.2.2 数据清理的处理方法
- 1.缺失值的处理方法
- 2. 异常值的处理方法
- 3. 重复值的处理方法
- 1.2.3 数据集成
- 1. 集成过程中需要处理的问题
- 2. 数据集成——实体识别
- 3. 数据集成——冗余属性识别
- 4. 数据冲突的检测与处理
- 1.2.4 数据变换
- 1. 规范化:
- 2. 数据变换——属性构造
- 1.2.5 数据规约
- 1.数据规约目的
- 2.数据规约方法
- 1.1 基本概念
- 第2章 numpy库
- 2.1 数组对象
- 2.2 创建数组
- 2.3 访问数组元素
- 2.3.1 通过整数索引
- 2.3.2 使用花式索引访问元素
- 2.3.3 使用布尔索引访问元素
- 2.3.4 使用切片访问元素
- 2.4 数组运算
- 2.4.1 形状相同的数组运算
- 2.4.2 数组与常量运算
- 2.5 Numpy的约减即操作
- 2.5.1 约减操作
- 2.5.2 数组排序操作
- 2.5.3 数组转置
- 2.5.4 随机数生成
- 1. numpy的random库
- 第3章 pandas基础
- 3.1 series
- 3.1.1 创建series对象
- 3.1.2 Series属性
- 3.1.3 Series索引
- 1. 位置索引
- 2. 标签索引
- 3. 切片索引
- 4. 布尔索引
- 3.1.5 Series基本操作技巧
- 3.2 DataFrame
- 3.2.1 Dataframe简介
- 3.2.2 创建DataFrame对象
- 3.2.3 Dataframe:索引
- 1.选择行与列
- 2. df.loc[] - 按index选择行
- 3. df.iloc[] - 按照整数位置(从轴的0到length-1)选择行
- 4. 布尔型索引
- 3.2.4 DataFrame基本操作技巧
- 1. 数据查看、转置
- 2. 添加、修改、删除值
- 3. 排序
- 3.2.5 Index索引对象
- 1.索引对象概述
- 2. 索引对象操作
- 3. 使用索引对象操作数据
- 3.3 统计计算与统计描述
- 3.1 series
备注:本文主要是课程总结,不做过多的拓展,如果需要详细了解,可以查看本专栏系列内容,专栏链接直达