Python基础-文件批量操作

2024-07-26 08:32:25 浏览数 (1)

1、获得目录下面所有文件的列表
代码语言:javascript复制
#%%
from pathlib import Path
print(Path.cwd())
# /Users/zaneflying

# 创建Path实例
folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in folder.iterdir(): #iterdir显示所有的子目录或者文件
    print(file.name)
# pathway.csv
# complete_matrix_output CTRPv2.txt
# .DS_Store
# practice.py
# GBM Counts_matrix.csv
# Autophagy.xlsx

for file in folder.rglob("*.py"): #rglob()函数:递归遍历所有满足条件的文件
    print(file.name)
# practice.py

Path功能十分强大,里边有很多函数可以选择。

Path.cwd() : 获取当前工作目录;f.exists():判断某个实例是否存在; f.is_dir():判断该路径是否是目录; f.is_file():判断该路径是否是文件; f.stat().st_size: 得到某个文件的大小;f.absolute(): 获得绝对路径; f.parent(): 获取路径的上级路径; f.name: 获取文件名;f.stem: 获取文件前缀;f.suffix: 获取文件后缀。

2、筛选及复制文件

第一步:设置目标路径;第二步:筛选所需文件;第三步:复制所需文件(用到shutil函数)。

代码语言:javascript复制
#%%
# 移动文件位置
from pathlib import Path
import  shutil #用于复制文件

new_folder = Path("/Users/zaneflying/Desktop/practice/PC1/")
# 创建文件夹
if not new_folder.exists(): 
    new_folder.mkdir()

# 把PC文件夹中以.py末尾的文件复制到PC1中
raw_folder = Path("/Users/zaneflying/Desktop/practice/PC/")
for file in raw_folder.rglob("*.csv"):
    shutil.copy(file,new_folder)
3、文件批量重命名

第一步:设计重命名规则,比如“dataset” 递增数字 “.csv”; 第二步:获取需要命名的文件,使用filepath.rglob(“*.csv”);第三步:依次对文件重命名

代码语言:javascript复制
#%%
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

for index, file in enumerate(filelist): # enumerate可以统计文件的索引顺序
    name = "testdata"   str(index   1)   ".csv" # str可以把数字变成字符串
    file.rename(filepath/name) # 在原本的路径下生成文件,需要把原路径链接到name上
4、文件批量读写、简单的拼接及关联合并
代码语言:javascript复制
#%%
#批量合并

import pandas as pd
from pathlib import Path

filepath = Path("/Users/zaneflying/Desktop/practice/PC1/")
filelist = filepath.rglob("*.csv")

dataFrames = []

for file in filelist :
    df = pd.read_csv(file)
    dataFrames.append(df)
    
mergeData = pd.concat(dataFrames, ignore_index=True) #简单的纵向拼接
# 以下是pd.concat中的重要参数 
# objs:需要合并的 DataFrame 或 Series 对象序列(列表或字典)。
# axis:沿着哪个轴进行合并,0 表示按行(垂直)合并,1 表示按列(水平)合并。默认为 0。
# ignore_index:如果为 True,则忽略原始对象的索引,重新生成一个新的索引。默认为 False。
# join:决定如何处理其他轴上的索引,默认是 outer(外连接),可选 inner(内连接)。
# keys:用于创建层次化索引。
# 若使用df1.append(df2)只能是纵向拼接

#定义输出文件名
output_file = filepath / "merge_data.csv"
mergeData.to_csv(output_file,index = False)

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -

0 人点赞