环球网校是美国纳斯达克上市企业欢聚时代(NASDAQ:YY)旗下品牌 | 住房和城乡建设部 建筑人才培训合作单位
您现在的位置在: > 职业资格 > 人力资源管理师 > 考试辅导 >

如何使用决策树?(二十五):默认的适合样本量

2023-08-04 来源:网络 作者:佚名

本节只述说在中怎样使用决策树。开发环境还要安装NumPy、、、、、库。

#

安装硬件后,还要跨入系统环境变量设置。在系统变量的Path变量中,添加的环境变量,例如安装在了D盘的根目录,则添加D:\\bin。 #

设置完环境变量,记得要重启IDE。

#

使用er建立决策树,这个函数一共有12个参数: #

参数说明如下:

#

·:特性选择标准,可选参数,默认是gini,可以设置为。gini是基尼不含量,它将来自集合的某些结果随机应适于某一数据项的预期偏差率,是一种基于统计的思想。是香农熵,是一种基于信息论的思想。把gini设为默认参数,应当是做了相应推敲的,精度显然更高些,ID3算法使用的是,CART算法使用的则是gini。 #

·:特性界定点选择标准,可选参数,默认是best,可以设置为。每位节点的选择策略。best参数是按照算法选择最佳的切分特性,比如gini、。随机地在部份界定点中找局部最优的界定点。默认的best适宜样本量不大的时侯,而假如样本数据量十分大,此刻决策树建立推荐。

#

·:界定时考虑的最大特性数,可选参数,默认是None。寻求最佳切分时考虑的最大特性数(为总计的特性数)有如下6种状况: #

若是整型的数,则考虑个特点。 #

若是浮点型的数,则考虑int(*)个特点。 #

若设为auto,则=sqrt()。 #

若设为sqrt,则=sqrt(),跟auto一样。 #

若设为log2,则=log2()。

#

若设为None,则=,也就是所有特性都用。

#

通常来说,假如样本特性数不多,例如大于50,用默认的None就可以了,若果特性数十分多,可以灵活使用刚刚描述的其他取值来控制界定时考虑的最大特性数,以控制决策树的生成时间。 #

·:决策树最大深度,可选参数,默认是None。该参数是树的层数。层数就是决策树的层数。假如这个参数设置为None,这么决策树在推行子树的时侯不会限制子树的深度。通常来说,数据少或则特性少的时侯可以不管这个值。或则假如设置了参数,这么直至超过个样本为止。在模型样本量多,特性也多的状况下,推荐限制这个最大深度,详细的取值取决于数据的分布,常用的可以取值10~100。 #

·:内部节点再划分所需的最小样本数,可选参数,默认是2。这个值限制了子树继续界定的条件。倘若为整数,这么在切分内部节点的时侯,作为最小的样本数,也就是说,假如早已超过个样本,就停止继续切分。倘若为浮点数,就是一个比率,ceil(*),数是向下取整的。假如样本量不大,就不须要管这个值。假如样本量的数目级特别大,就推荐减小这个值。

#

·leaf:树叶节点最小的样本权重和,可选参数,默认是0。这个值限制了树叶节点所有样本权重和的最小值,假如大于这个值,还会和兄弟节点一起被修剪。通常来说,假如有较差样本有欠缺值,或则分类树样本的分布类型误差巨大,还会引进样本权重,这时我们就该留意这个值了。 #

·:最大树叶节点数,可选参数,默认是None。通过限制最大树叶节点数可以避免过拟合。若果加了限制,算法还会构建在最大树叶节点数内最优的决策树。假如特性不多,就可以不考虑这个值,而且假如特性这些,就须要加以限制,详细的值可以通过交叉验证得到。

#

·:类型权重,可选参数,默认是None,也可以是词典、字典列表、(保持平衡)。指定样本各类型的权重,主要是为了避免训练集这些类型的样本过多,造成训练的决策树过分偏向某些类型。类型的权重可以通过{:}那样的格式给出,这儿可以自己指定各个样本的权重,或则用“”。假如使用,算法还会自己估算权重,样本量少的类型所对应的样本权重会高。其实,假如样本类型分布没有显著的偏倚,就可以不管这个参数,选择默认的None。 #

·:可选参数,默认是None。假如是证书,还会作为随机数生成器的随机数种籽。若果没有设置随机数,随机下来的数就与当前系统时间有关,每位时刻都是不同的。假如设置了随机数种籽,这么相似随机数种籽不同时刻形成的随机数是相似的。若果是(随机数例子),这么是随机数生成器。倘若为None,这么随机数生成器使用np.。

#

·:节点界定最小不含量,可选参数,默认是1e-7。这是个信噪比在什么情况下适合用决策树进行决策,该值限制了决策树的下降。若果某节点的不含量(基尼系数、信息增益、均残差、绝对差)大于这个信噪比,这么该节点不再生成子节点,即为树叶节点。 #

·:数据是否预排序,可选参数,这个值是布尔值,默认是False(不排序)。通常来说,假如样本量少或则限制了一个深度很小的决策树,设置为True可以让界定点选择得更加速,决策树推行得更加速。假如样本量太大,反倒没有哪些弊端。问题是样本量少的时侯,速率本身就不慢。因此该值通常不考虑。 #

·:界定考虑最大特点数,默认为None。不键入则默认全部特性,可以选log2N、sqrt(N)、auto或则是大于1的浮点数(比率)或整数(详细数目的特点)。假如特性非常多时,例如小于50,可以考虑选择auto来控制决策树的生成时间。 #

当样本数目少而且样本特性十分多的时侯,决策树很容易过拟合。通常来说,样本数比特征数多一些会比较容易确立强壮的模型。假如样本总数少而且样本特性十分多,在拟合决策树模型前,推荐先做维度规约,例如主成份剖析(PCA)、特征选择(LOSSO)或则独立成份剖析(ICA)。那样特性的维度会大大降低,再来拟合决策树模型疗效会更好。多用决策树的可视化,同时先限制决策树的深度,那样可以先观察生成的决策树里数据的初步拟合状况,再决定是否要提高深度。在训练模型时,留意观察样本的类型状况(主要指分类树),倘若类型分布十分不均匀,就要考虑拿来限制模型过度偏向样本多的类型。决策树的递归使用的是NumPy的类别,假如训练数据不是这么的格式,算法还会先做copy(复制)再运行。假如键入的样本矩阵是稀疏的在什么情况下适合用决策树进行决策,这么推荐在拟合前读取稀疏化,在预测前读取稀疏化。

#

【例1】 #

输出: #

手动生成的可视化决策树被保存在当前目录下的tree.png文件中,如图1所示。可以看见,我们使用gini指数来选择最优界定属性,但是经修剪后的决策树只用到了数据13个属性中的num、FAQ、src三个属性,早已十分别致了,如图1所示。

#

图—生成决策树分类模型

#

责编:admin 返回顶部  打印

关于我们联系我们友情链接网站声明网站地图广告服务帮助中心