最新 最热

复购分析实战 | Pandas遇到了大难题..(附40000+数据源和代码)

在电商等消费场景下,复购率是最耳熟能详的指标之一了。上到平台、下到品牌、店铺,各种复盘分析一定绕不开复购率,今天我们就从实战的角度聊聊复购率。...

2020-07-17
0

初探pandas——索引和查询数据

索引import pandas as pdser=pd.Series(range(0,10,2))print(ser)0 01 22 43 64 8dtype: int64通过索引值或索引标签获取数据通过index查看索引值print(ser.index)Ran...

2020-07-15
0

pandas中的窗口处理函数

滑动窗口的处理方式在实际的数据分析中比较常用,在生物信息中,很多的算法也是通过滑动窗口来实现的,比如经典的质控软件Trimmomatic, 从序列5'端的第一个碱基开始,计算每个滑动窗口内的碱基质量平均值,当滑动窗后的平...

2020-07-14
1

pandas中的缺失值处理

在真实的数据中,往往会存在缺失的数据。pandas在设计之初,就考虑了这种缺失值的情况,默认情况下,大部分的计算函数都会自动忽略数据集中的缺失值,同时对于缺失值也提供了一些简单的填充和删除函数,常见的几种缺失值操作技巧...

2020-07-14
1

Python读取Excel文件sheet名性能优化

直接使用pandas读取整个Excel文件,再从中取列名。这种场景对于小的Excel文件还适用,但数据量上升到10M+时,取个sheet name要26s之久。几乎无法忍受。

2020-07-14
1

Pandas统计分析-分组->透视->可视化

数据 分组 聚合 运算聚合‘飞行综合flights = pd.read_csv('data/flights.csv')1 显示部分数据2 按照AIRLINE分组, 使用agg方法, 传入要

2020-07-07
1

pandas中的index对象详解

在pandas中,Series和DataFrame对象是介绍的最多的,Index对象作为其构成的一部分,相关的介绍内容却比较少。对于Index对象而言,有以下两大类别

2020-07-07
1

Conda太慢?试试这个加速工具!

Conda作为使用最为广泛的数据科学环境管理工具,可以协助我们很方便的完成创建管理环境、下载安装第三方库、软件包等操作,但其在下载资源的过程中下载速度时常令人捉急,即使使用连接速度更快的国内镜像,也摆脱不了其单线...

2020-07-06
1

Python批量获取文件信息

看视频时打开视频才能看到视频的播放时长,但是每个视频都打开又太繁琐了,能不能用python来获取这一信息呢?答案是肯定的,就是过程有些周折。

2020-07-01
1

Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则

所谓数据脱敏,是指对个人的学号、姓名、身份证号、银行账号、电话号码、家庭住址、工商注册号、纳税人识别号等敏感信息进行隐藏、随机化或删除,防止在数据交换或公开场合演示时泄露隐私信息,是数据处理时经常谈到的一个...

2020-06-19
1