数据挖掘项目一般多少钱_预测类数据挖掘项目

2022-10-04 09:11:17 浏览数 (1)

大家好,又见面了,我是你们的朋友全栈君。

数据挖掘项目(一)

第一次实践数据挖掘。虚心学习。 基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析 首先要对数据进行评估,数据的大小来决定使用工具。 本数据为金融数据,目的为预测贷款用户是否会逾期。

  1. 导入数据
代码语言:javascript复制
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv',encoding="gbk")
df.head()
  1. 删除无关的特征
代码语言:javascript复制
data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'Unnamed: 0', 'id_name'], axis=1)
data1.info()
  1. 缺省值处理(以下参考88080917代码)
代码语言:javascript复制
print(df.isnull().sum())
count=0
for i in range(85):
    if df.isnull().sum()[i]>250:
        count=count 1
print(count)
print(max(fd.isnull().sum()))
  1. 剔除,填充,合并
代码语言:javascript复制
data1=data1.drop(['student_feature'], axis=1)
data1.dropna(thresh=70, inplace = True)

data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']
data2 = data1[data_col]
data3 = data1.drop(data_col, axis=1)

data3=data3.fillna(data3.mode())

reg_data=data2['reg_preference_for_trad']
data2.drop(['reg_preference_for_trad'], axis=1)

from sklearn import preprocessing
CityData = preprocessing.LabelBinarizer().fit_transform(reg_data) 
CityDataFrame = pd.DataFrame(CityData, columns=["一线城市","三线城市","二线城市","其它城市","境外"])

data3.reset_index(drop=True, inplace=True)
data2.reset_index(drop=True, inplace=True) 
CityDataFrame.reset_index(drop=True, inplace=True) 
dataSet = pd.concat([data2, CityDataFrame, data3], axis=1)

5.将数据集切分为训练集与测试集

代码语言:javascript复制
train, test = train_test_split(dataSet, test_size=0.3, random_state=2018)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

0 人点赞