PCA系列（二）：数据（.data）处理

在数据挖掘的很多领域，数据内容往往以.data形式给出，因此读取.data文件到矩阵中并对异常值进行处理就变得很重要了。

一个.data文件的截图：

该文件为一个1567 X 590的矩阵，每一行代表一个样本。

读取数据到矩阵中

1.先直接pd.read_csv()，然后通过输出了解到数据一共有多少列。

代码语言：javascript复制

data = pd.read_csv('manifold/secom.data', sep=' ')
print(data.shape[1])

输出590，于是我们知道了一共590列。但是这种读法默认会把第一行当成列索引。

2.完整读取数据

代码语言：javascript复制

data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
data = np.array(data)

这样数据就变成了一个矩阵。

处理异常值nan

1.思路：求得每一列除nan以外数据的平均值，填充到这一列中是nan的地方。2.求取除nan以外数据的平均值，我的思路是先把这一列转成list，然后利用np.nanmean(list)函数，跳过nan求平均值。

代码语言：javascript复制

temp = np.array(data)[:, i].tolist()  #第i列转成list
mean = np.nanmean(temp)  #跳过nan求mean

3.填充

代码语言：javascript复制

data[np.argwhere(np.isnan(data[:, i].T)), i] = mean
#argwhere用于查找满足nan的位置

完整代码：

代码语言：javascript复制

import pandas as pd
import numpy as np
from numpy import linalg

def load_file():
   data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
   data = np.array(data)

   for i in range(data.shape[1]):
       temp = np.array(data)[:, i].tolist()
       mean = np.nanmean(temp)
       data[np.argwhere(np.isnan(data[:, i].T)), i] = mean

   return data


def pca(K):
    X = load_file()
    N = X.shape[0]
    En = np.eye(N)
    In = np.ones((N, 1), float)

    H = En - (1/N)*np.dot(In, In.T)  #定义中心矩阵
    S = (1/N)*np.dot(np.dot(X.T, H), X)  #定义协方差矩阵

    val, vec = linalg.eig(S)   #求解特征值与特征向量
    sorted_indices = np.argsort(-val)   #从大到小排序
    #取前K个最大的特征值的特征向量
    final = np.zeros((K, vec.shape[1]), float)
    for i in range(K):
        final[i, :] = vec[sorted_indices[i], :]

    final_data = np.dot(X, final.T)  #降为K为后的矩阵
    return final_data


if __name__ == '__main__':
    K = 250
    print(pca(K))

数据挖掘 csv data list nan

0 人点赞