之前的教程中,所有的操作,包括定义数据等都是在python里面进行的。但是当我们处理庞大的知识库的时候,我们肯定不希望把所有的数据都写在一个py文件里,而是希望把它存在更通用的保存数据的文件格式/数据库里面,在需要的时...
对于一个Series,dropna()函数返回一个包含非空数据和索引值的Series,例如:
这是Python数据分析实战基础的第四篇内容,也是基础系列的最后一篇,接下来就进入实战系列了。本文主要讲的是Pandas中第二好用的函数——apply。
时间序列的索引方法同样是适用于Dataframe,而且在时间序列中由于按照时间先后排序,故不用考虑顺序问题。
去极值的方法,可以用均值加n倍的方差,来过滤,也可以用中位数加上下范围来过滤。如聚宽就提供了winsorize和winsorize_med等方法。
为什么说第二好用呢?做人嘛,最重要的就是谦虚,做函数也是一样的,而apply就是这样一个优雅而谦虚的函数。
我们经常让Excel表格数据与Pandas的DataFrame数据做类比学习,而在实际的应用中,我们发现,关于数据的选择是很重要的一部分。
网上方法参差不齐,无注释解释不好秒懂,没有自己想要的,故自己试验一番~1. 筛选列表中,当b列中为’1’时,所有c的值,然后转为list2 .筛选列表中,当a列中为'one',b列为'1'时,...
学习爬虫,拿豆瓣电影进行练手,无奈豆瓣电影存在反爬机制,爬完250就会重定向要求我进行登陆操作,所以我这一次只爬取前50进行相关测试,废话不多说,我们来看下源代码:...
还可以是 DAY_OF_MONTH 、 HOUR 、 MINUTE 、 Day 等等,打印结果如下: