课后强化练习_数据挖掘与机器学习-WEKA应用技术与实践（第二版）-QQ阅读男生玄幻网

课后强化练习

2.1 加载weather.nominal.arff文件后，temperature属性可以有哪些合法值？

2.2 加载iris.arff文件后，该数据集有多少个实例？有多少个属性？petalwidth属性值可取的范围是多少？

2.3 使用数据集编辑器打开weather.nominal.arff文件，实例编号为2的类别属性值是多少？

2.4 使用数据集编辑器加载iris数据集，该数据集的属性中有多少个是数值型的？又有多少个是标称型的？

2.5 加载weather.nominal.arff数据集，使用weka.unsupervised.instance.RemoveWithValues过滤器去除humidity属性值为high的全部实例。

提示：首先选择RemoveWithValues过滤器，然后在通用对象编辑器中尝试调整参数，弄清楚每个参数的含义，并解决问题。

2.6 根据图2.51所示的决策树，下列实例会怎样进行分类？

outlook=sunny，temperature = cool，humidity=high，windy=TRUE

2.7 使用离散化处理过的属性，某些属性在直方图中只有单一一栏，这是怎么回事？

2.8 使用FilteredClassifier和J48，并采用有监督的二元离散化，与只使用J48处理原始数据的结果相比较。为何从离散化后的数据构建的决策树，比起直接从原始数据构建的决策树，有更好的预测效果？

2.9 在“手工选择属性”实验中，是否可以使用J48替换IBk？为什么？

2.10 对于weather.nominal.arff数据，根据Apriori算法输出，下列项集的支持实例有几个？

temperature=cool，humidity=normal，windy=FALSE，play=yes

2.11 假设想生成具有一定置信度和最小支持度的全部规则，可以对minMetric、lowerBoundMinSupport以及numRules参数设置适当的值。对于表2.15中天气数据的每一种组合参数值，可能的规则总数是多少？

表2.15 练习2.11表

2.12 对labor.arff文件中的劳资谈判数据应用排序技术，确定基于信息增益的四个最重要的属性。

2.13 使用劳资谈判数据集，运行基于相关性的CfsSubsetEval评估器，使用BestFirst搜索方法；然后运行J48作为基学习器的包装方法，再次使用BestFirst搜索方法。检查输出的属性子集，这两种方法都选择出来的有哪些属性？它们与使用信息增益所生成的排序输出有何关系？