type
status
date
slug
summary
tags
category
icon
password
PPT部分
我要讲的是随机森林算法
总共分以下六个,(念一下目录)
1.首先是算法原理与核心机制
这一块照着PPT讲就可以
2.算法优势与应用场景
也是照着讲
3.数据加载与探索性分析
注意:
- 鸢尾花数据集为sklearn包自带的数据
- 其他的照PPT讲
以上基本都是照着PPT讲
4.省略
5.预测结果与性能评估

代码部分
首先,将所需要的Python库导入,设置一下绘制图像时的中文显示
然后加载一下数据集,使用的是sklearn自带的鸢尾花数据集,主要用到四个特征,花瓣的长宽和花萼的长宽
这里展示的是前十个数据,可以看到样本总数为150个,三个种类,每一类有50个。
下面是数据可视化,查看一下不同类别的特征分布
可以看到,以花瓣长宽绘制图像拥有较为明显的区分度,而使用花萼的相对来说没那么明显,这一点在后面的可视化特征重要性也可以体现。
然后是划分一下训练集和测试集,以8:2分割,使用120个样本作为训练集,30个样本作为测试集
下面开始训练随机森林模型,使用100颗决策树,最大深度为5,并且设置了随机种子保证可以复现,然后启用袋外误评估,就这个OBB_SCORE。
好的训练完成,这个袋外得分是随机森林特有的评估指标,表示未参与某棵树训练的样本的预测准确率。
开始对测试集进行预测,这里输出前五个预测结果。
然后来计算准确率,输出一下分类报告,并且绘制混淆矩阵。
测试集共30个样本,只有这两种各出现一个误判,可以看见准确率为0.933
来看一下可视化特征重要性,可以看见花瓣的长宽影响比较大,这与前面的分布图对应
最后看一下森林中的第一颗决策树
基尼指数
无明显分类优势
演讲
老师明确说了1-8号准备,大概率是要讲了,这里整合一下演讲要说的部分,主要是一些ppt没有的和一些衔接词
开始:
我要讲的是随机森林算法,分为以下六个部分
首先是第一个,算法原理与核心机制,随机森林算法是……
第二个,算法优势与应用场景
随机森林算法支持并行训练,性能稳定可靠,调参需求低,无需精细调参即可获得良好的效果,适合快速建模。此外还适合大规模数据和可即插即用,减少预处理依赖
内置了特征重要性评估,支持模型可解释性分析,通过计算…(PPT内容)
第三个,数据加载与探索性分析————PPT
第四个,模型构建与训练————PPT
但是8:2分割哪里,先讲下面的,不讲标题
第五个,预测结果与性能评估————PPT
第六个可视化分析
讲完标题讲一下特征贡献度下面,讲完第一排吧就差不多
然后可视化第一颗树,讲一下小标题就可以,进入代码部分
- Author:可达鸭
- URL:http://zjftsl.cf//article/28f214ca-c412-80c4-987d-d78c21565740
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!




