Python爬虫基础——06-文件的读写

2023-10-12 13:56:25 浏览数 (1)

2.12文件

2.12.1文件的打开和关闭:

在python中,使用open函数,可以打开一个已存在的文件夹,或者创建一个新文件

open( 文件路径,访问模式 )

示例如下:

代码语言:javascript复制
f = open('test.txt','w')

文件路径:

绝对路径:指的是绝对位置,完整的描述目标所在地,所有目录层级关系是一目了然的。

E:python

从电脑的盘符开始,表示的就是一个绝对路径。

相对路径::是从文件所在的文件夹开始的路径。

路径

说明

test.txt

是在当前文件夹中查找test.txt文件。

./test.txt

也是在当前文件夹中里查找test.txt,文件 ./表示得是当前文件夹。

../test.txt

是从当前文件夹的上一级文件夹里查找test.txt文件。 .// 表示的是上一级文件。

demo/test.txt

在当前文件夹中里面查找demo这个文件夹,并在这个文件夹里查找test.txt文件。

访问模式:

访问

说明

r

以只读的方式打开文件。文件的指针将会放在文件的开头。如果文件不存在则报错

w

打开一个文件只用于写入。如果该文件已存在则覆盖,不存在则创建新文件

a

打开一个文件用于追加。如果文件已存在,文件指针将会放在文件末尾。没有则创建进行写入

r

打开一个文件用于读写,文件指针将会放在文件开头

w

打开一个文件用于读写,该文件已存在则进行覆盖,没有则创建新文件

a

打开一个文件用于读写,如果已存在则将指针放在文件的结尾,文件打开时是追加模式,不存在创建用于读写

rb

已二进制格式打开一个文件用于只读。文件指针将会放在文件的开头

wb

已二进制格式打开一个文件用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件

ab

已二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入

rb

已二进制格式打开一个文件用于读写。文件指针将会放在文件的开头

wb

已二进制格式打开一个文件用于读写。如果文件已存在则将其覆盖。如果文件不存在,创建新文件

ab

已二进制格式打开一个文件用于读写。如果文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写

代码语言:javascript复制
# 创建一个test.txt文件
# open(文件的路径/模式)
# 模式: w表示可写   r 表示可读
open('test.txt','w')

# 向刚刚创建的test.txt文件书写内容为hello,world
fp = open('test.txt','w')
fp.write('hello,world')

# 文件夹是不可以被创建的
# 例如我们没有demo文件夹而我们在此创建一个test文件
fp =  open('demo/test.txt','w')  # 执行失败
fp =  open('demo/test.txt','w')  # 左边目录创建好一个demo目录之后执行成功
fp.write('hello')  # 执行成功输入内容


# 文件的关闭
fp = open('a.txt','r')
fp.write('hello')
fp.close()

2.12.2文件的读写:

写数据(write)

使用write()可以完成向文件写入数据

demo: 新建一个文件file_write_test.py,向其中写入如下代码:

代码语言:javascript复制
f = open('test.txt','w')
f.write('hello world, i an here!n' * 5)
f.close()
# 运行之后会在file_write_test.py文件所在的路径中创建一个文件test.txt并写入内容
代码语言:javascript复制
# (1)写数据
# write方法
fp = open('test.txt','w')
fp.write('hello world, i am here' * 5)  # 连续输出在一行
fp.write('hello world, i am heren' * 5)  # 加上n之后一句一句输出连续输出5行显示的整洁
fp.close()

# 如果我再次来运行这行代码  会打印10次还是5次呢?   还是5次
# 如果文件存在  会先清空原来的数据  然后在写入
# 我想在每一次执行之后追加新的数据   把 其中的'w' 替换成'a'即可追加数据  如下

fp = open('test.txt','a')  # 运行几次则就追加几次
fp.write('hello world, i am heren' * 5)
fp.close()
代码语言:javascript复制
# (2)读数据
fp = open('test.txt','r')

# 默认情况下read是一字节一字节进行读取  效率比较低
content = fp.read()
print(content)  # 即可输出test.txt中的内容

# readline 是一行一行的读取  不过只能读取一行内容
content = fp.readline()
print(content)

# readlines  可以按照行来读取 可以将所有的数据都读取到  并且以一个列表的形式返回
# 而列表的元素是一行一行的数据
content = fp.readlines()
print(content)

2.12.3文件的序列化和反序列化:

通过文件操作,我们可以将字符串写入到一个本地文件。但是如果一个对象(例如列表,字典,元组等),就无法直接写入到一个文件里,需要对这个对象进行序列化,然后才能写入到文件里。

设计一套协议,按照某种规则,把内存中的数据转换为字节序列,保存到文件,这就是序列化,反之,从文件的字节序列恢复到内存中,就是反序列化。

对象---字节序列 ==== 序列化

字节序列---对象 ==== 反序列化

python中提供了JSON这个模块用来实现数据的序列化和反序列化。

JOSN模块

JOSN---是一种轻量级的数据交换标准,JOSN的本质是字符串。

使用JOSN实现序列化

JOSN提供了dump和dumps方法,将一个对象进行序列化。

dumps方法的作用是把对象转换成字符串,它本身不具备将数据写入到文件的功能。

代码语言:javascript复制
fp = open('test.txt','w')
# 默认情况下我们只能将字符串写入到文件内
fp.write('hello world')
fp.close()

fp = open('test','w')
name_list = ['zhangsan','lisi']

fp.write(name_list)  # 例如我们将一个列表写入到文件内  结果输入不进去  所以我们需要进行转换

序列化   json.dumps

代码语言:javascript复制
# 序列化的两种方式
# (1)dumps()

# 创建一个文件
fp = open('test.txt','w')

# 然后定义一个列表
name_list = ['zhangsan','lisi']

# 因为默认列表不能进行写入所以需要导入json
# 导入json模块到该文件中
import json

# 序列化
# 将python对象 变成json字符串
names = json.dumps(name_list)
print(names)  # 输出["zhangsan", "lisi"]

# 查看数据类型是否变成字符串
print(type(names))  # 输出<class 'str'>

# 将names写入到test.txt文件中
fp.write(names)  # 已经写入成功
fp.close()

# json的使用场景是在scrapy框架的时候  该框架返回一个对象 我们需要将对象写入到文件中 需要使用json.dumps

序列化json.dump

代码语言:javascript复制
# dump
# 在将对象转换为字符串的同时  指定一个文件的对象  然后把转换后的字符串写入到这个文件里

# 创建一个文件
fp = open('test.txt','w')

# 创建一个列表
name_list = ['kenan','xinyi']

# 导入json模块
import json

# 进行调用
# # 相当于names = json.dumps(name_list)  和 fp.write(names)
json.dump(name_list,fp)

fp.close()

反序列化json.loads

代码语言:javascript复制
# 反序列化
# 将json的字符串变成一个python对象

fp = open('test.txt','r')
content = fp.read()

# 读取之后 是字符串类型
print(content)
print(type(content))  # 输出类型是字符串<class 'str'>

# 两种方法
# (1) loads

import json
# 将json字符串变成python对象
result = json.loads(content)
print(result)
print(type(result))  # 输出类型是列表<class 'list'>
fp.close()

反序列化json.load

代码语言:javascript复制
# (2)load
fp = open('test.txt','r')

import json
result = json.load(fp)

print(result)
print(type(result))
fp.close()

2.12.3文件的异常:

格式:

代码语言:javascript复制
# try:
#     可能出现的异常代码
# except  异常类型
#         友好的提示
代码语言:javascript复制
try:
    fp = open('test.txt','r')
    fp.read()
except FileExistsError:
    print('系统正在升级请稍后再试。。。')

0 人点赞