1、获得目录下面所有文件的列表
代码语言:javascript复制#%%
from pathlib import Path
print(Path.cwd())
# /Users/zaneflying
# 创建Path实例
folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in folder.iterdir(): #iterdir显示所有的子目录或者文件
print(file.name)
# pathway.csv
# complete_matrix_output CTRPv2.txt
# .DS_Store
# practice.py
# GBM Counts_matrix.csv
# Autophagy.xlsx
for file in folder.rglob("*.py"): #rglob()函数:递归遍历所有满足条件的文件
print(file.name)
# practice.py
Path功能十分强大,里边有很多函数可以选择。
Path.cwd() : 获取当前工作目录;f.exists():判断某个实例是否存在; f.is_dir():判断该路径是否是目录; f.is_file():判断该路径是否是文件; f.stat().st_size: 得到某个文件的大小;f.absolute(): 获得绝对路径; f.parent(): 获取路径的上级路径; f.name: 获取文件名;f.stem: 获取文件前缀;f.suffix: 获取文件后缀。
2、筛选及复制文件
第一步:设置目标路径;第二步:筛选所需文件;第三步:复制所需文件(用到shutil函数)。
代码语言:javascript复制#%%
# 移动文件位置
from pathlib import Path
import shutil #用于复制文件
new_folder = Path("/Users/zaneflying/Desktop/practice/PC1/")
# 创建文件夹
if not new_folder.exists():
new_folder.mkdir()
# 把PC文件夹中以.py末尾的文件复制到PC1中
raw_folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in raw_folder.rglob("*.csv"):
shutil.copy(file,new_folder)
3、文件批量重命名
第一步:设计重命名规则,比如“dataset” 递增数字 “.csv”; 第二步:获取需要命名的文件,使用filepath.rglob(“*.csv”);第三步:依次对文件重命名
代码语言:javascript复制#%%
from pathlib import Path
filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")
for index, file in enumerate(filelist): # enumerate可以统计文件的索引顺序
name = "testdata" str(index 1) ".csv" # str可以把数字变成字符串
file.rename(filepath/name) # 在原本的路径下生成文件,需要把原路径链接到name上
4、文件批量读写、简单的拼接及关联合并
代码语言:javascript复制#%%
#批量合并
import pandas as pd
from pathlib import Path
filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")
dataFrames = []
for file in filelist :
df = pd.read_csv(file)
dataFrames.append(df)
mergeData = pd.concat(dataFrames, ignore_index=True) #简单的纵向拼接
# 以下是pd.concat中的重要参数
# objs:需要合并的 DataFrame 或 Series 对象序列(列表或字典)。
# axis:沿着哪个轴进行合并,0 表示按行(垂直)合并,1 表示按列(水平)合并。默认为 0。
# ignore_index:如果为 True,则忽略原始对象的索引,重新生成一个新的索引。默认为 False。
# join:决定如何处理其他轴上的索引,默认是 outer(外连接),可选 inner(内连接)。
# keys:用于创建层次化索引。
# 若使用df1.append(df2)只能是纵向拼接
#定义输出文件名
output_file = filepath / "merge_data.csv"
mergeData.to_csv(output_file,index = False)
注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟
- END -