最新 最热

用Streamlit来制作数据可视化面板实战

在上回初步介绍了“steamlit”框架的基本用法之后(干货分享 | 用 Streamlit 来制作数据可视化面板教程(一)),这回我们动手来实践一下,用“streamlit”框架来制作一个可视化仪表盘,用到的数据是印度在新冠病毒的影响之下病例...

2022-04-08
1

关于数据质量管理之正态分布验证

数据质量管理中很重要的一个部分就是数据的离散程度,通常而言,连续值性数据录入是遵循正态分布的,从直方图上容易看,但如何自动化验证数据满足正态分布呢,本文尝试了kstest,normaltest,shaprio等方法,最终结论是建议通过norm...

2022-03-11
1

​esquisse: 快速可视化图形的 Rstudio 插件

默认识别当前环境中所有的 DataFrame 做为可导入数据,自动根据选择的变量选择合适的图形类型并可手动设置美学属性,适合数据的快速简单探索。

2022-01-18
1

推荐系统中传统模型——LightGBM + FFM融合

FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团技术团队在搭建DSP的过程中,探索并使用了FM和F...

2021-12-07
1

用 Python 生成 Excel 报表。

然后为了达到更好的效果,我们还使用了 Pandas 当中的 DataFrame.xs 函数

2021-11-16
1

一日一技:Pandas 如何对列排序?

我们在工作中,经常用到 Excel,有时候,我们会使用 Pandas 生成 Excel。但生成的 Excel 列的顺序可能跟我们想要的不一样。

2021-10-19
1

2021年大数据Spark(四十六):Structured Streaming Operations 操作

获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致,不再赘述

2021-10-11
1

pandas每天一题-题目4:原来查找top n记录也有这种方式

这是一个关于 pandas 从基础到进阶的练习题系列,来源于 github 上的 guipsamora/pandas_exercises 。这个项目从基础到进阶,可以检验你有多么了解 pandas。

2021-09-01
1

Python使用matplotlib设置pandas绘制的饼状图扇形标签

使用pandas的DataFrame对象绘制饼状图,每列数据分别创建单独的轴域,然后使用matplotlib对已绘制的图形进行设置,设置饼状图中扇形外侧的文本标签,设置图例位置。...

2021-08-10
1

『网络爬虫』买车比价,自动采集某车之家各车型裸车价

应朋友要求,帮忙采集某车之家的一些汽车品牌的销售数据,包含购车时间、车型、经销商、裸车价等一类信息。

2021-08-05
1