您的位置 首页 > 德语词汇

mutualinformation是什么意思,mutualinformation的意思?Information

大家好,今天来为大家分享mutualinformation是什么意思,mutualinformation的意思的一些知识点,和Information的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!

第一次遇到一个新的数据集有时会感到难以承受。你可能会看到成百上千的特性,甚至连描述都没有。你从哪里开始?

mutualinformation是什么意思,mutualinformation的意思?Information

一个伟大的第一步是建立一个排名与特征效用指标,一个衡量特征和目标之间的联系的功能。然后,您可以选择一组较少的最有用的特性进行初步开发。

我们将使用的度量称为“互信息”。互信息很像相关性,因为它衡量两个量之间的关系。互信息的优点是它可以检测任何类型的关系,而相关只能检测线性关系。

互信息是一个很好的通用度量,在特性开发的开始阶段,当您可能还不知道要使用什么模型时,它特别有用。它:

2.互信息(MI)及其度量

互信息用不确定性来描述关系。两个量之间的互信息(MI)是对一个量的知识减少另一个量的不确定性的程度的度量。如果你知道一个特性的价值,你会对目标更有信心吗?

这是一个来自艾姆斯住房数据的例子。该图显示了房屋外观质量与售价之间的关系。每个点代表一个房间:

从图中我们可以看出,知道ExterQual的值应该会让你对相应的SalePrice更加确定——ExterQual的每一个类别都倾向于将SalePrice集中在一定的范围内。ExterQual与SalePrice之间的互信息是在ExterQual的四个值上SalePrice不确定性的平均减少。例如,由于Fair出现的频率比一般情况要低,Fair在MI得分中的权重就更小。

(技术说明:我们所说的不确定性是用信息论中称为“熵”的量来衡量的。一个变量的熵大致意思是:“平均来说,你需要多少个是或否的问题来描述这个变量的发生。”你要问的问题越多,你对这个变量的不确定性就越大。互信息是指你希望功能能够回答多少有关目标的问题。)

3.解释互信息分数

数量之间的最小可能互信息为0.0。当MI为零时,量是独立的:两者都不能告诉你关于另一个的任何事情。相反地,理论上MI的上限是不存在的。但实际上,高于2.0左右的值并不常见(互信息是一个对数量,因此它的增长非常缓慢。)

下一个图将告诉你MI值如何对应于特性与目标的关联类型和程度。

汽车数据集由从1985年开始的193辆汽车组成。这个数据集的目标是从汽车的23个特征(如品牌、车身风格和马力)中预测汽车的价格(目标)。在本例中,我们将使用互信息对特征进行排序,并通过数据可视化研究结果。

用于MI的scikit-learn算法将离散特征与连续特征区别对待。因此,你需要告诉它哪些是哪些。根据经验,任何必须有float数据类型的东西都不是离散的。通过给分类(object或categorialdtype)一个标签编码,可以将它们视为离散的.

Scikit-learn在其特征选择模块中有两个互信息度量:一个用于实值目标(互信息回归),另一个用于分类目标(互信息分类)。

fuel_type有一个相当低的MI分数,但正如我们可以从图中看到的,它清楚地区分了两个不同的功能趋势的价格人群。这表明,fuel_type有助于相互作用的影响,并不是不重要的。在从MI分数判断一个特性重要不重要之前,最好先研究一下任何可能的交互影响——领域知识可以在这里提供很多指导。

END,本文到此结束,如果可以帮助到大家,还望关注本站哦!

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023