Pandas | 数据读取

2022-12-20 09:27:18 浏览数 (1)

本文框架

  • 0.导入Pandas
  • 1.读取csv文件
    • 1.1 查看读取前的csv数据
    • 1.2 读取数据
    • 1.3 初步数据探索
  • 2. 读取txt文件
    • 2.1 查看读取前的txt数据
    • 2.2 读取数据
  • 3. 读取excel文件

0.导入Pandas

我们在使用Pandas时,需要先将其导入,这里我们给它取了一个别名pd。

代码语言:javascript复制
import pandas as pd

1.读取csv文件

1.1 查看读取前的csv数据

文件数据以逗号分隔。

代码语言:javascript复制
userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931
………………

1.2 读取数据

使用pd.read_csv读取数据,使用默认的标题行、逗号分隔符。

除此之外,pd.read_csv还可以读取tsv、txt文件。

代码语言:javascript复制
## 设置文件路径
data_path = "./datas/01/ratings.csv"
## 读取csv文件
ratings = pd.read_csv(data_path)
## 查看数据前5行
ratings.head()
#   userId  movieId  rating  timestamp
#0       1        1     4.0  964982703
#1       1        3     4.0  964981247
#2       1        6     4.0  964982224
#3       1       47     5.0  964983815
#4       1       50     5.0  964982931

1.3 初步数据探索

代码语言:javascript复制
## ①查看数据形状,返回(行数、列数)
ratings.shape
#(100836, 4)
## ②查看数据列名
ratings.columns
#Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
## ③查看数据索引列
ratings.index
#RangeIndex(start=0, stop=100836, step=1)
## ④查看每列的数据类型
ratings.dtypes
#userId         int64
#movieId        int64
#rating       float64
#timestamp      int64
#dtype: object

2. 读取txt文件

2.1 查看读取前的txt数据

文件数据以tab分隔,且无列名。

代码语言:javascript复制
2019-09-10 139 92
2019-09-09 185 153
2019-09-08 123 59
2019-09-07 65 40
2019-09-06 157 98
………………

2.2 读取数据

使用pd.read_csv进行读取,指定分隔符和列名。

代码语言:javascript复制
## 设置文件路径
data_path = "./datas/01/access_pvuv.txt"
## 读取txt文件
pvuv = pd.read_csv(
    data_path,
    sep = "t",
    header = None,
    names=['pdate', 'pv', 'uv']
)

3. 读取excel文件

使用pd.read_excel读取xls或者xlsx文件。

代码语言:javascript复制
## 设置文件路径
data_path = "./datas/01/access_pvuv.xlsx"
## 读取文件
pvuv = pd.read_excel(data_path)

0 人点赞