mutualinformation是什么意思,mutualinformation的意思？Information-德语教育网

大家好，今天来为大家分享mutualinformation是什么意思,mutualinformation的意思的一些知识点，和Information的问题解析，大家要是都明白，那么可以忽略，如果不太清楚的话可以看看本篇文章，相信很大概率可以解决您的问题，接下来我们就一起来看看吧！

第一次遇到一个新的数据集有时会感到难以承受。你可能会看到成百上千的特性，甚至连描述都没有。你从哪里开始？

一个伟大的第一步是建立一个排名与特征效用指标，一个衡量特征和目标之间的联系的功能。然后，您可以选择一组较少的最有用的特性进行初步开发。

我们将使用的度量称为“互信息”。互信息很像相关性，因为它衡量两个量之间的关系。互信息的优点是它可以检测任何类型的关系，而相关只能检测线性关系。

互信息是一个很好的通用度量，在特性开发的开始阶段，当您可能还不知道要使用什么模型时，它特别有用。它：

2.互信息（MI）及其度量

互信息用不确定性来描述关系。两个量之间的互信息（MI）是对一个量的知识减少另一个量的不确定性的程度的度量。如果你知道一个特性的价值，你会对目标更有信心吗？

这是一个来自艾姆斯住房数据的例子。该图显示了房屋外观质量与售价之间的关系。每个点代表一个房间：

从图中我们可以看出，知道ExterQual的值应该会让你对相应的SalePrice更加确定——ExterQual的每一个类别都倾向于将SalePrice集中在一定的范围内。ExterQual与SalePrice之间的互信息是在ExterQual的四个值上SalePrice不确定性的平均减少。例如，由于Fair出现的频率比一般情况要低，Fair在MI得分中的权重就更小。

（技术说明：我们所说的不确定性是用信息论中称为“熵”的量来衡量的。一个变量的熵大致意思是：“平均来说，你需要多少个是或否的问题来描述这个变量的发生。”你要问的问题越多，你对这个变量的不确定性就越大。互信息是指你希望功能能够回答多少有关目标的问题。）

3.解释互信息分数

数量之间的最小可能互信息为0.0。当MI为零时，量是独立的：两者都不能告诉你关于另一个的任何事情。相反地，理论上MI的上限是不存在的。但实际上，高于2.0左右的值并不常见(互信息是一个对数量，因此它的增长非常缓慢。）

下一个图将告诉你MI值如何对应于特性与目标的关联类型和程度。

汽车数据集由从1985年开始的193辆汽车组成。这个数据集的目标是从汽车的23个特征（如品牌、车身风格和马力）中预测汽车的价格（目标）。在本例中，我们将使用互信息对特征进行排序，并通过数据可视化研究结果。

用于MI的scikit-learn算法将离散特征与连续特征区别对待。因此，你需要告诉它哪些是哪些。根据经验，任何必须有float数据类型的东西都不是离散的。通过给分类（object或categorialdtype）一个标签编码，可以将它们视为离散的.

Scikit-learn在其特征选择模块中有两个互信息度量：一个用于实值目标（互信息回归），另一个用于分类目标（互信息分类）。

fuel_type有一个相当低的MI分数，但正如我们可以从图中看到的，它清楚地区分了两个不同的功能趋势的价格人群。这表明，fuel_type有助于相互作用的影响，并不是不重要的。在从MI分数判断一个特性重要不重要之前，最好先研究一下任何可能的交互影响——领域知识可以在这里提供很多指导。

END，本文到此结束，如果可以帮助到大家，还望关注本站哦！

给这篇文章的作者打赏

相关文章

interact是什么意思,interact的意思翻译、用法、同义词、(思维导图速记以词根act为中心的65个高考词汇)

lookout是什么意思,lookout的意思翻译、用法、同义词、例(out翻译成英语理解)

insistent是什么意思,insistent的意思翻译、用法、同义词(单词联想consistent)