Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于三个种类中的哪一类。在MapReduce选择knn对该数据集进行分类预测,采用留出法对建模结果评估,70%数据为训练集,30%数据为测试集,评估标准采用accuracy。
最近更新: 3年前Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。在MapReduce上任选一种分类算法(KNN,朴素贝叶斯或决策树)对该数据集进行分类预测。
最近更新: 暂未更新