- pandas 按照指定的列排序
aa = {'AA':[1,2,3],"BB":[4,5,6],"CC":['A_3','A_1',"A_2"]}
df = pd.DataFrame(aa)
df.sort_values("CC")
这样df本身不变
代码语言:javascript复制df.sort_values("CC",inplace=True)
这样df自己就变了
- linux paste命令可以通过 -d参数指定分隔符,默认好像是空格还是tab paste是用来合并列的
paste -d , L01.csv L02.csv > col_merged.csv
- R语言数据框统计每行或者每列中特定元素的个数 比如每行中的元素等于0的有多少个 用到的是apply()函数 参考 https://stackoverflow.com/questions/11797216/count-number-of-zeros-per-row-and-remove-rows-with-more-than-n-zeros
> df<-data.frame(A=sample(0:5,10,replace=T),B=sample(0:5,10,replace=T))
> df
A B
1 2 5
2 0 1
3 0 3
4 5 3
5 2 1
6 3 5
7 1 1
8 0 0
9 5 4
10 5 4
> apply(df == 0,1,sum)
[1] 0 1 1 0 0 0 0 2 0 0
> apply(df == 0,2,sum)
A B
3 1
第二个位置的参数如果是1就按每行算,如果是二就用每列算
- ggplot2添加拟合曲线 使用geom_smooth()函数 添加二次方程的拟合曲线
library(ggplot2)
x<-seq(-2,2,by=0.05)
y<-x^2
df<-data.frame(a=x,b=y)
help(package="ggplot2")
ggplot(df,aes(x=a,y=b))
geom_point()
geom_smooth()
image.png
geom_smooth()函数不需要指定任何参数,自己直接就添加的是二次方程的拟合曲线,当然以上结果是因为自己的数据非常标准,是直接用二次方程来生成的
如果数据不是很标准的效果
代码语言:javascript复制x<-seq(-2,2,by=0.05)
y<-x^2 rnorm(length(x),sd=2)
df<-data.frame(a=x,b=y)
ggplot(df,aes(x=a,y=b))
geom_point()
geom_smooth()
image.png
就变成了这个样子
这时候如果想添加比较标准的二次曲线的话,用geom_smooth()函数我暂时还不知道如何实现,想到的一个办法是在方程已知的情况下,直接用方程构造数据,然后用geom_line()函数直接添加线段
代码语言:javascript复制x<-seq(-2,2,by=0.05)
y<-x^2 rnorm(length(x),sd=2)
df<-data.frame(a=x,b=y)
x1<-seq(-2,2,by=0.05)
y1<-x1^2
df1<-data.frame(a=x1,b=y1)
ggplot(df,aes(x=a,y=b))
geom_point()
geom_line(data=df1,size=2,color="blue")
image.png
有读者在我的公众号留言问
添加 y=a×exp(b×X)这样的拟合曲线,因为已经知道了拟合方程,所以按照上面的思路构造数据,然后用geom_line()函数添加线段
比如自己的数据
代码语言:javascript复制x<-seq(-5,25,by=0.5)
y<- 0.2*exp(0.079*x) rnorm(length(x),mean = 0.05,sd=0.02)
df<-data.frame(x=x,y=y)
ggplot(df,aes(x=x,y=y))
geom_point()
image.png
然后添加拟合曲线
代码语言:javascript复制x<-seq(-5,25,by=0.5)
y<- 0.2*exp(0.079*x) rnorm(length(x),mean = 0.05,sd=0.02)
df<-data.frame(x=x,y=y)
x1<-seq(-5,25,by=0.5)
y1<- 0.2*exp(0.079*x1) 0.05
df1<-data.frame(x=x1,y=y1)
ggplot(df,aes(x=x,y=y))
geom_point()
geom_line(data=df1,size=1,color="red")
image.png