大多数人了解 Pandas 及其在处理大数据文件方面的实用性。TensorFlow 提供了读取这种文件的方法。
前面章节中,介绍了如何在 TensorFlow 中读取文件,本节将重点介绍如何从 CSV 文件中读取数据并在训练之前对数据进行预处理。
本节将采用哈里森和鲁宾菲尔德于 1978 年收集的波士顿房价数据集(http://lib.stat.cmu.edu/datasets/boston),该数据集包括 506 个样本场景,每个房屋含 14 个特征:
-
CRIM:城镇人均犯罪率
-
ZN:占地 25000 平方英尺(1 英尺=0.3048 米)以上的住宅用地比例
-
INDUS:每个城镇的非零售商业用地比例
-
CHAS:查尔斯河(Charles River)变量(若土地位于河流边界,则为 1;否则为 0)
-
NOX:一氧化氮浓度(每千万)
-
RM:每个寓所的平均房间数量
-
AGE:1940 年以前建成的自住单元比例
-
DIS:到 5 个波士顿就业中心的加权距离
-
RAD:径向高速公路可达性指数
-
TAX:每万美元的全价值物业税税率
-
PTRATIO:镇小学老师比例
-
B:1000(Bk-0.63)2,其中 Bk 是城镇黑人的比例
-
LSTAT:低地位人口的百分比
-
MEDV:1000 美元自有住房的中位值
TensorFlow读取csv文件过程
-
导入所需的模块并声明全局变量: