您的位置 首页 > 德语词汇

representation是什么意思?用法、例句(表示 (Representation):清理数据)

这篇文章给大家聊聊关于representation是什么意思?用法、例句,以及表示 (Representation):清理数据对应的知识点,希望对各位有所帮助,不要忘了收藏本站哦。

苹果树结出的果子有品相上乘的,也有虫蛀坏果。而高端便利店出售的苹果是100%完美的水果。从果园到水果店之间,专门有人花费大量时间将坏苹果剔除或给可以挽救的苹果涂上一层薄薄的蜡。作为一名机器学习工程师,您将花费大量的时间挑出坏样本并加工可以挽救的样本。即使是非常少量的“坏苹果”也会破坏掉一个大规模数据集。

缩放是指将浮点特征值从自然范围(例如100到900)转换为标准范围(例如0到1或-1到+1)。如果某个特征集只包含一个特征,则缩放可以提供的实际好处微乎其微或根本没有。不过,如果特征集包含多个特征,则缩放特征可以带来以下优势:

representation是什么意思?用法、例句(表示 (Representation):清理数据)

您不需要对每个浮点特征进行完全相同的缩放。即使特征A的范围是-1到+1,同时特征B的范围是-3到+3,也不会产生什么恶劣的影响。不过,如果特征B的范围是5000到100000,您的模型会出现糟糕的响应。

下面的曲线图表示的是加利福尼亚州住房数据集中称为roomsPerPerson的特征。roomsPerPerson值的计算方法是相应地区的房间总数除以相应地区的人口总数。该曲线图显示,在加利福尼亚州的绝大部分地区,人均房间数为1到2间。不过,请看一下x轴。

如何最大限度降低这些极端离群值的影响?一种方法是对每个值取对数:

对数缩放可稍稍缓解这种影响,但仍然存在离群值这个大尾巴。我们来采用另一种方法。如果我们只是简单地将roomsPerPerson的最大值“限制”为某个任意值(比如4.0),会发生什么情况呢?

将特征值限制到4.0并不意味着我们会忽略所有大于4.0的值。而是说,所有大于4.0的值都将变成4.0。这就解释了4.0处的那个有趣的小峰值。尽管存在这个小峰值,但是缩放后的特征集现在依然比原始数据有用。

下面的曲线图显示了加利福尼亚州不同纬度的房屋相对普及率。注意集群-洛杉矶大致在纬度34处,旧金山大致在纬度38处。

在数据集中,latitude是一个浮点值。不过,在我们的模型中将latitude表示为浮点特征没有意义。这是因为纬度和房屋价值之间不存在线性关系。例如,纬度35处的房屋并不比纬度34处的房屋贵35/34(或更便宜)。但是,纬度或许能很好地预测房屋价值。

为了将纬度变为一项实用的预测指标,我们对纬度“分箱”,如下图所示:

我们现在拥有11个不同的布尔值特征(LatitudeBin1、LatitudeBin2、…、LatitudeBin11),而不是一个浮点特征。拥有11个不同的特征有点不方便,因此我们将它们统一成一个11元素矢量。这样做之后,我们可以将纬度37.4表示为:

[0,0,0,0,0,1,0,0,0,0,0]

分箱之后,我们的模型现在可以为每个纬度学习完全不同的权重。

截至目前,我们假定用于训练和测试的所有数据都是值得信赖的。在现实生活中,数据集中的很多样本是不可靠的,原因有以下一种或多种:

一旦检测到存在这些问题,您通常需要将相应样本从数据集中移除,从而“修正”不良样本。要检测遗漏值或重复样本,您可以编写一个简单的程序。检测不良特征值或标签可能会比较棘手。

除了检测各个不良样本之外,您还必须检测集合中的不良数据。直方图是一种用于可视化集合中数据的很好机制。此外,收集如下统计信息也会有所帮助:

考虑生成离散特征的最常见值列表。例如,country:uk的样本数是否符合您的预期?language:jp是否真的应该作为您数据集中的最常用语言?

像处理任何任务关键型代码一样谨慎处理您的数据。良好的机器学习依赖于良好的数据。

如果你还想了解更多这方面的信息,记得收藏关注本站。

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023