上一阶段的数据分析学习因为工作原因耽误了,今天忙里偷个闲,重新开始了。 @猴子 求个第二关门票。
先分享一下最近学到的东西吧……
以前买过一本《tensorflow实战谷歌深度学习框架》,看了一半就留在家里吃灰了,最近重新翻开发现这本书已经跟不上现在的版本了,所以从网上找了一点代码学习。
tensorflow不止能用于深度学习,也能用来实现传统机器学习算法。比如实现线性回归。
tensorflow的线性回归代码当然不如scikit learn的简洁,在scikit learn中只需要几行代码:
代码语言:javascript复制from sklearn.linear_model import LinearRegression
clf = LinearRegression()
clf.fit(x,y)
而在tensorflow中很多功能需要自己实现。看起来麻烦,其实是提供了更加个性化的解决方案,比如可以自定义误差函数,达到个性化的模型效果。
而像梯度下降优化器这种写起来麻烦的功能,tensorflow已经实现好了。
要说tensorflow有什么优势的话,那就是如果你数据特别特别大的话,用tensorflow能分布计算吧。
下面是用tensorflow实现线性回归的完整代码。
代码语言:javascript复制import matplotlib.pyplot as plt
import tensorflow as tf
import numpy as np
from sklearn.datasets import load_boston
#读取数据
def read_boston_data():
boston = load_boston()
x = np.array(boston.data)
y = np.array(boston.target)
return x,y
#转化为正态分布
def feature_normalize(dataset):
mu = np.mean(dataset,axis = 0)
sigma = np.std(dataset,axis=0)
return (dataset-mu)/sigma
#添加一个常数项,用于训练偏差
def append_bias_reshape(x,y):
n_training_samples = x.shape[0]#训练样本数量
n_dim = x.shape[1]#特征数量
f = np.reshape(np.c_[np.ones(n_training_samples),x],[n_training_samples,n_dim 1])
l = np.reshape(y,[n_training_samples,1])
return f,l
if __name__ == '__main__':
#处理数据
x,y = read_boston_data()
norm_features = feature_normalize(x)
f,l = append_bias_reshape(norm_features,y)
n_dim = f.shape[1]
rnd_indices = np.random.rand(len(f)) < 0.80#生成一个随机的布尔数组
x_train = f[rnd_indices]
y_train = l[rnd_indices]
x_test = f[~rnd_indices]
y_test = l[~rnd_indices]
#tensorflow模型
learning_rate = 0.01#步长
training_epochs = 6000#训练次数
cost_history = []#记录训练误差
test_history = []#记录测试误差
X = tf.placeholder(tf.float32,[None,n_dim])
Y = tf.placeholder(tf.float32,[None,1])
W = tf.Variable(tf.ones([n_dim,1]))
init = tf.initialize_all_variables()
y_ = tf.matmul(X,W)
cost = tf.reduce_mean(tf.abs(y_-Y))#选择了绝对平均误差作为衡量指标
training_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)
sess = tf.Session()
sess.run(init)
for epoch in range(training_epochs):
sess.run(training_step,feed_dict={X:x_train,Y:y_train})#训练模型
c = sess.run(cost,feed_dict={X:x_train,Y:y_train})#计算误差
print(c)
t = sess.run(cost,feed_dict={X:x_test,Y:y_test})#计算测试误差
print(t)
cost_history.append(c)
test_history.append(t)
plt.plot(range(len(test_history)),test_history,color = 'green')
plt.plot(range(len(cost_history)),cost_history,color = 'red')
plt.axis([0,training_epochs,0,np.max(cost_history)])
plt.show()
训练误差(红色)与测试误差(绿色)
效果还算不错,比自己写的梯度下降靠谱多了……