新必应的搜索结果真的无懈可击吗？-德语教育网

如今看来，在与 Bard支持的搜索引擎的竞争中，微软的新Bing似乎占据了上风。但我们还是要问，新的Bing搜索结果真的无可挑剔吗？近日，新加坡南洋理工大学和新加坡科技设计大学的 NLP 研究人员深入挖掘了微软发布会上搜索演示的细节，发现了许多错误。

美国东部时间2月8日上午8点30分，谷歌新闻发布会在巴黎举行。此前一天，微软正式推出了新一代人工智能驱动的搜索引擎New Bing，将基于技术的生成模型与Bing相结合。微软副总裁Yusuf Mehdi进行了完美演示[0]，当天微软市值飙升800亿美元。即使在不开放注册的中国，Yusuf 展示生成模型如何增强 Bing 搜索引擎和 Edge 浏览器体验的视频也在朋友圈和微信群中疯传。对你来说是蜜的东西对别人来说就是砒霜。大家都在等着看搜索巨头谷歌将如何应对。

谷歌发布会上，所有人都在等待New Bing的传奇对手巴德的出现。作为搜索引擎支持的大型语言模型，大家对 Bard 都充满了遐想。不过，新闻发布会上并没有透露太多有关巴德的信息。于是大家把注意力转向了谷歌在推特上发布的巴德视频。仔细拿起之后，大家突然发现巴德在回答问题时出现了事实性错误。

当被问到：“关于詹姆斯·韦伯望远镜的新发现，我能告诉我九岁的孩子什么？” 巴德回答说：“第一张系外行星照片是由詹姆斯·韦伯望远镜拍摄的。” 事实正是如此。它是由欧洲南方天文台甚大望远镜于 2004 年拍摄的，比詹姆斯·韦伯望远镜发射早了 18 年。这个错误成为当天谷歌股价暴跌的导火索。

图1 巴德在詹姆斯·韦伯望远镜上的演示截图

在巴黎发布会上，尽管巴德的演讲只有4分钟左右，但他关于星座最佳观测时间的回答也存在明显的事实偏差。如下图，巴德的回答中提到，观测猎户座的最佳时间是11月到2月。

图2 巴德关于星系观测时间的演示截图

根据不同的信息来源，猎户座的最佳观测时间有所不同，但都明确表明最佳观测期从每年的一月开始。教育技术网站BYJU'S提供的最佳时间是一月到三月[1]，维基百科提供的最佳时间是一月到四月[2]。

图3 BYJU'S对Orion最佳观测时间的解答

由于巴德会议与New Bing会议之间的差距，以及事实错误，当天谷歌市值暴跌近千亿美元，巴德会议被戏称为史上最贵的会议。我们不禁要问，New Bing看似完美的发布会是否隐藏着事实错误？

新必应中的事实错误

我们发现New Bing生成的内容包含许多事实错误，包括名人身份信息、财务报告数据、夜店营业时间等。

生成模型的事实错误分类

对于以GPT系列（含等）和T5为代表的生成模型，事实错误大致可以分为以下两类：

现在让我们检查一下New Bing新闻发布会[3]和New Bing演示[4]中显示的示例，看看是否存在事实错误以及它们是什么类型。为了书写方便，我们将New Bing以及Edge中集成的New Bing插件统称为New Bing。

日本诗人的错误例子

29点57分的新冰发布会视频中，当新冰被问及日本著名诗人时，给出的答案包括“岸田惠理子（1930-2004），诗人、、”。

图4 New Bing演示中日本诗人示例的截图

然而，根据维基百科和IMDB提供的信息[5,6,7]，Eriko的出生年份和死亡年份分别为1929年和2011年。同时，她不是一位剧作家（），也不是一位散文家（），而是一位诗人、翻译家和童话作家。岸田的家人或许无法接受他被调到新兵并失去了八年的生命。与此同时，同学Gackt不幸被转学。根据维基百科提供的信息[8]，Gackt 曾演奏音乐、唱歌、作曲和表演，但从未写过诗。

财务报告错误示例

在New Bing会议视频中的35:49，Yusuf展示了与New Bing集成的Edge浏览器如何为开办的服装公司Gap的2022年第三季度财务报告生成关键点。乍一看，New Bing的总结很实用。它用要点来展示Gap第三季度报告的要点。巴菲特看到这一幕，可能会“震惊”。然而，当我们找到Gap的2022年第三季度报告[9]并仔细阅读时，我们发现New Bing的摘要错漏百出，令人难以忍受。

图5 New Bing对Gap 2022年第三季度财报的总结

首先，New Bing 给出的 Gap 调整后营业毛利率（成本）为 5.9%。不过，财报中，Gap的营业毛利率为4.6%，调整后为3.9%。

图6 Gap 2022年第三季度财报截图

New Bing 随后报告调整后的稀释每股收益为 0.42 美元（每股，包含成本和税收），但财务报告中的数据为 0.71 美元。

图7 Gap 2022年第三季度财报截图

就连 New Bing 给出的 Gap 全年销售指引为“净销售额增长率预计为低两位数”，但事实上，第四季度“可能会出现中个位数下降”。这是下降而不是上升。两个词的区别会严重误导用户的投资行为。谁会赔钱？ New Bing甚至横空出世，给出了更多的全年财务指引：“营业毛利润为7%，稀释后每股收益在1.6美元至1.75美元之间。” 不过，Gap第三季度财报中并未提及这些数字。

图8 Gap 2022年第三季度财报截图

视频中36点15分，Yusuf演示了使用New Bing对比Gap和运动休闲服饰品牌（）财务报告的功能。这部分也是错误信息的热点。

图9 New Bing的Gap与财务报告对比功能

在右边New Bing给出的表格中，除了上述提到的5.9%的Gap运营毛利润应为4.6%（或调整后3.9%），Gap的摊薄每股收益0.42美元应为0.77美元（或调整后0.71美元）。美元），新兵还给了Gap现金及现金等价物14亿美元，但实际上财报中为6.79亿美元。

图10 2022年第三季度财报截图

同样的情况也出现在New Bing给出的数据中。根据2022年三季报数据[10]，新兵的毛利率为58.7%，实际应该是55.9%。 New Bing提到营业毛利润为20.6%，实际应该是19.0%。 New Bing 称稀释后每股收益为 1.65 美元，本应为 2.00 美元。

图11 2022年第三季度财报截图

我们不禁好奇：New Bing怎么会对Gap和Gap的财务报告做出如此严重的胡言乱语？一个合理的推断是，产生的错误数据很可能来自于预训练阶段看到的财务报告分析数据。在这类大型语言模型的生成中，随着生成的序列变长，就更容易脱离给定的Gap和财务报告数据，放飞自我，生成不相关的虚假信息。

夜总会错误示例

29点17分，新兵新闻发布会视频中，新兵为丰富墨西哥城游客的夜生活提供了“非建设性”建议。对于它推荐的几家夜店，如 Nivel Night Club、El 和 El Marra，New Bing 提到，这些酒吧没有顾客评论、没有联系方式、也没有商店介绍。不过，这些信息可以在谷歌地图或商店的主页上找到。看来 New Bing 的上网功能还不够。

新宾El的营业时间是周二至周日下午5点到11点，但真正的营业时间是除周一以外的晚上7点到凌晨3点[11]。这使得五点钟去吃晚饭的游客在两个小时内仍然饥饿。德诺什则恰恰相反。实际营业时间是每天下午5:30到凌晨1:30或12:30[12]，而New Bing给出的营业时间是晚上8点开始。看来游客都是靠New Bing的推荐来寻找餐厅的，能不能吃到饭就看运气了。

图 12 New Bing 演示中夜总会示例的屏幕截图

其他错误

除了上述信息错误外，我们还发现了一系列散布在各个角落的事实错误，比如产品价格错误、商店地址错误、时间错误等。

示例演示中的错误

由于New Bing尚未完全开放，我们无法直接从New Bing发布会上获得搜索结果，但微软已经提供了几个实用的演示[13]供用户体验。本着寻求答案的精神，我们也将这些演示放在放大镜下进行研究。我们发现，即使是这些精心挑选的例子也包含很多错误信息。

在《我可以和孩子一起做哪些艺术创意？》中，新兵给出了很多制作手工艺品的建议。对于每件工艺品，New Bing 都总结了制作它所需的材料。然而，每种工艺品的材料汇总并不完整。例如，New Bing 从引用的网站 [14] 中总结出，制作纸吉他需要纸板箱、橡皮筋、油漆和胶水。但引文中提到的海绵刷、胶带和木珠被省略了。

图13 新必应演示截图“我可以和孩子一起做哪些手工？”

图14 引用网站制作纸吉他所需材料截图

New Bing的示例演示中还有一个非常明显且常见的错误，即给出的参考链接与生成的内容无关，这是错误的。

例如，在下面的“我需要一辆大的快车”的示例中，2022 款 Kia 没有出现在给出的引文 10 [15] 中。同时，“时间旅行”问题在这个例子中仍然不可避免。 New Bing称，2022版起亚荣获2020年世界年度汽车奖。实际情况是，起亚2020款当年获奖。 2022世界年度汽车奖的获得者是IONIQ 5，引文7[16]也是一篇与“2020世界年度汽车奖”无关的文章。我们在所有示例演示中发现了多达 21 个类似错误。

图15 New Bing演示示例“我需要一辆大型特快列车”截图

总结：发现错误将引导我们前进

从上面的分析可以看出，无论是New Bing还是Bard，他们的答案都容易出现事实错误。当全世界都惊叹大规模语言模型所展现的能力，当它成为史上最快达到一亿用户的应用时，我们一方面为AI的进步欢呼，但另一方面，我们还需要冷静地思考如何解决问题。人工智能仍然存在很多问题。

自从1956年聚集在达特茅斯学院的一群天才首次定义了什么是人工智能以来，AI经历了数次起伏。 70年的发展历程中有许多令人感动的毅力：是第一代人工智能的不成熟探索，是专家系统的勇敢尝试，是张、乐存等坐过板凳的学者神经网络，并利用它们将人工智能带出圈子。，是、Meta、CMU、斯坦福、清华等顶尖研究机构对开源的坚持。是顶住压力走GPT路线的结果。正是世界各地几代科学研究人员的接力才把我们带到了今天。

但如果任由人工智能产生大量不实信息，用不了多久，公众对人工智能的信心就会被摧毁，各种虚假信息将充斥互联网。我们指出大模型的错误不是为了批评任何公司或模型。相反，我们想让人工智能变得更好。

正如阿根廷诗人博尔赫斯曾经说过的：任何命运，无论多么复杂、多么漫长，其实都只体现在某一瞬间，那就是人们彻底醒悟自己是谁的那一刻。在等待大型模型具备与人类媲美的书写能力的同时，我们清楚地知道下一步就是将现实世界的知识更完整、更准确地融入到大型模型中，让AI模型能够安全、可靠、广泛地应用。人们的日常生活。我们从未如此期待那一刻，也从未如此接近那一刻。

参考

[0]

[1]

[2]()

[3]

[4]

[5]

[6] 岸田晶子

[7]

[8]

[9]

[10] #:~:text=对于%20the%%%20的%%2C%%20到%20the%、%2C%20和%%2041%25%

[11]

[12] +de+noche++city&oq=+de+&aqs=.1..&=&ie=UTF-8

[13]

[14]

[15]

[16]

给这篇文章的作者打赏

相关文章

英语短文翻译的软件，扫一下英文就能翻译出中文

2017年葡萄牙语硕士研究生申请条件及就业前景分析

双教韩语中级（3-4）级培训课程介绍