金融科技行业,我接触的主要数据格式:
- 1 csv格式或者xlsx格式,轻量级的数据格式
- 2 SAS软件数据格式,通过SAS软件处理和保存的数据
- 3 数据库表格数据,关系数据库或者数据平台的数据表
- 4 第三方数据API调用传送数据json格式
金融科技行业的数据科学工作,不管是探索,还是分析,还是建模,我们要先导入数据。
如何有效地导入数据呢?我的经验分享如下:
- 1 首先,清楚数据的格式
- 2 其次,选择合适的技术栈
- 3 第三,编写代码导入数据
- 4 最后,数据检视
01
导入csv格式或者xlxs格式数据
1.1 Python语言
使用pandas
库的read_csv
函数导入csv和read_excel
函数导入xlxs格式
参考代码
import pandas as pd
germancredit1 = pd.read_csv('germancredit.csv')
germancredit2 = pd.read_excel('germancredit.xlsx')
1.2 R语言
使用readr
包的read_csv
函数导入csv格式
使用readxl
包的read_excel
函数导入xlsx数据格式
参考代码
library(readr)
credit_data1 <- read_csv('germancredit.csv')
library(readxl)
credit_data2 <- read_excel('germancredit.xlsx')
02
SAS软件保存的数据
2.1 Python
使用pandas
库的read_sas
函数。
参考代码
import pandas as pd
iris = pd.read_sas('iris.sas7bdat')
iris.head()
2.1 R语言
使用haven
包的read_sas
函数。
参考代码
library(tidyverse)
iris_data <- read_sas('iris.sas7bdat')
iris_data %>%
slice_head(n = 10)
03
数据库表
3.1 Python语言
使用pyodbc库从数据库导入数据表,需要在Win系统或者Linux先配置好ODBC。 或者 使用针对特定数据库读写操作的库。 例如:
- 1 使用
psycopg2
库访问和获取PostgreSQL
数据库的数据表。 - 2 使用
pyhive
库访问和获取大数据平台Hive
数仓的数据表
3.2 R语言
使用RODBC包从数据导入数据表,需要在Win系统或者Linux先配置好ODBC。 或者 使用针对特定数据库读写操作的包。 例如:
- 1 使用
RPostgreSQL
包访问和获取PostgreSQL
数据库的数据表 - 2 使用
RMySQL
包访问和获取MYSQL
数据库的数据表
04
第三方数据返回的json格式
4.1 Python语言
使用pandas
库的read_json
函数。
参考代码
import pandas as pd
iris_data = pd.read_json('iris.json')
iris_data.head()
4.2 R语言
使用jsonlite
包的fromJSON
函数。
参考代码
library(jsonlite)
iris_data <- fromJSON('iris.json')
iris_data %>% head()
数据导入是开始数据工作的第一步。
开个好头,让数据工作顺利推进。