您的位置  > 德语常识

新必应的搜索结果真的无懈可击吗?

如今看来,在与 Bard支持的搜索引擎的竞争中,微软的新Bing似乎占据了上风。 但我们还是要问,新的Bing搜索结果真的无可挑剔吗? 近日,新加坡南洋理工大学和新加坡科技设计大学的 NLP 研究人员深入挖掘了微软发布会上搜索演示的细节,发现了许多错误。

美国东部时间2月8日上午8点30分,谷歌新闻发布会在巴黎举行。 此前一天,微软正式推出了新一代人工智能驱动的搜索引擎New Bing,将基于技术的生成模型与Bing相结合。 微软副总裁Yusuf Mehdi进行了完美演示[0],当天微软市值飙升800亿美元。 即使在不开放注册的中国,Yusuf 展示生成模型如何增强 Bing 搜索引擎和 Edge 浏览器体验的视频也在朋友圈和微信群中疯传。 对你来说是蜜的东西对别人来说就是砒霜。 大家都在等着看搜索巨头谷歌将如何应对。

谷歌发布会上,所有人都在等待New Bing的传奇对手巴德的出现。 作为 搜索引擎支持的大型语言模型,大家对 Bard 都充满了遐想。 不过,新闻发布会上并没有透露太多有关巴德的信息。 于是大家把注意力转向了谷歌在推特上发布的巴德视频。 仔细拿起之后,大家突然发现巴德在回答问题时出现了事实性错误。

当被问到:“关于詹姆斯·韦伯望远镜的新发现,我能告诉我九岁的孩子什么?” 巴德回答说:“第一张系外行星照片是由詹姆斯·韦伯望远镜拍摄的。” 事实正是如此。 它是由欧洲南方天文台甚大望远镜于 2004 年拍摄的,比詹姆斯·韦伯望远镜发射早了 18 年。 这个错误成为当天谷歌股价暴跌的导火索。

图1 巴德在詹姆斯·韦伯望远镜上的演示截图

在巴黎发布会上,尽管巴德的演讲只有4分钟左右,但他关于星座最佳观测时间的回答也存在明显的事实偏差。 如下图,巴德的回答中提到,观测猎户座的最佳时间是11月到2月。

图2 巴德关于星系观测时间的演示截图

根据不同的信息来源,猎户座的最佳观测时间有所不同,但都明确表明最佳观测期从每年的一月开始。 教育技术网站BYJU'S提供的最佳时间是一月到三月[1],维基百科提供的最佳时间是一月到四月[2]。

图3 BYJU'S对Orion最佳观测时间的解答

由于巴德会议与New Bing会议之间的差距,以及事实错误,当天谷歌市值暴跌近千亿美元,巴德会议被戏称为史上最贵的会议。 我们不禁要问,New Bing看似完美的发布会是否隐藏着事实错误?

新必应中的事实错误

我们发现New Bing生成的内容包含许多事实错误,包括名人身份信息、财务报告数据、夜店营业时间等。

生成模型的事实错误分类

对于以GPT系列(含等)和T5为代表的生成模型,事实错误大致可以分为以下两类:

现在让我们检查一下New Bing新闻发布会[3]和New Bing演示[4]中显示的示例,看看是否存在事实错误以及它们是什么类型。 为了书写方便,我们将New Bing以及Edge中集成的New Bing插件统称为New Bing。

日本诗人的错误例子

29点57分的新冰发布会视频中,当新冰被问及日本著名诗人时,给出的答案包括“岸田惠理子(1930-2004),诗人、、”。

图4 New Bing演示中日本诗人示例的截图

然而,根据维基百科和IMDB提供的信息[5,6,7],Eriko的出生年份和死亡年份分别为1929年和2011年。 同时,她不是一位剧作家(),也不是一位散文家(),而是一位诗人、翻译家和童话作家。 岸田的家人或许无法接受他被调到新兵并失去了八年的生命。 与此同时,同学Gackt不幸被转学。 根据维基百科提供的信息[8],Gackt 曾演奏音乐、唱歌、作曲和表演,但从未写过诗。

财务报告错误示例

在New Bing会议视频中的35:49,Yusuf展示了与New Bing集成的Edge浏览器如何为开办的服装公司Gap的2022年第三季度财务报告生成关键点。 乍一看,New Bing的总结很实用。 它用要点来展示Gap第三季度报告的要点。 巴菲特看到这一幕,可能会“震惊”。 然而,当我们找到Gap的2022年第三季度报告[9]并仔细阅读时,我们发现New Bing的摘要错漏百出,令人难以忍受。

图5 New Bing对Gap 2022年第三季度财报的总结

首先,New Bing 给出的 Gap 调整后营业毛利率(成本)为 5.9%。 不过,财报中,Gap的营业毛利率为4.6%,调整后为3.9%。

图6 Gap 2022年第三季度财报截图

New Bing 随后报告调整后的稀释每股收益为 0.42 美元(每股,包含成本和税收),但财务报告中的数据为 0.71 美元。

图7 Gap 2022年第三季度财报截图

就连 New Bing 给出的 Gap 全年销售指引为“净销售额增长率预计为低两位数”,但事实上,第四季度“可能会出现中个位数下降”。 这是下降而不是上升。 两个词的区别会严重误导用户的投资行为。 谁会赔钱? New Bing甚至横空出世,给出了更多的全年财务指引:“营业毛利润为7%,稀释后每股收益在1.6美元至1.75美元之间。” 不过,Gap第三季度财报中并未提及这些数字。

图8 Gap 2022年第三季度财报截图

视频中36点15分,Yusuf演示了使用New Bing对比Gap和运动休闲服饰品牌()财务报告的功能。 这部分也是错误信息的热点。

图9 New Bing的Gap与财务报告对比功能

在右边New Bing给出的表格中,除了上述提到的5.9%的Gap运营毛利润应为4.6%(或调整后3.9%),Gap的摊薄每股收益0.42美元应为0.77美元(或调整后0.71美元)。美元),新兵还给了Gap现金及现金等价物14亿美元,但实际上财报中为6.79亿美元。

图10 2022年第三季度财报截图

同样的情况也出现在New Bing给出的数据中。 根据2022年三季报数据[10],新兵的毛利率为58.7%,实际应该是55.9%。 New Bing提到营业毛利润为20.6%,实际应该是19.0%。 New Bing 称稀释后每股收益为 1.65 美元,本应为 2.00 美元。

新必应的搜索结果真的无懈可击吗?

图11 2022年第三季度财报截图

我们不禁好奇:New Bing怎么会对Gap和Gap的财务报告做出如此严重的胡言乱语? 一个合理的推断是,产生的错误数据很可能来自于预训练阶段看到的财务报告分析数据。 在这类大型语言模型的生成中,随着生成的序列变长,就更容易脱离给定的Gap和财务报告数据,放飞自我,生成不相关的虚假信息。

夜总会错误示例

29点17分,新兵新闻发布会视频中,新兵为丰富墨西哥城游客的夜生活提供了“非建设性”建议。 对于它推荐的几家夜店,如 Nivel Night Club、El 和 El Marra,New Bing 提到,这些酒吧没有顾客评论、没有联系方式、也没有商店介绍。 不过,这些信息可以在谷歌地图或商店的主页上找到。 看来 New Bing 的上网功能还不够。

新宾El的营业时间是周二至周日下午5点到11点,但真正的营业时间是除周一以外的晚上7点到凌晨3点[11]。 这使得五点钟去吃晚饭的游客在两个小时内仍然饥饿。 德诺什则恰恰相反。 实际营业时间是每天下午5:30到凌晨1:30或12:30[12],而New Bing给出的营业时间是晚上8点开始。 看来游客都是靠New Bing的推荐来寻找餐厅的,能不能吃到饭就看运气了。

图 12 New Bing 演示中夜总会示例的屏幕截图

其他错误

除了上述信息错误外,我们还发现了一系列散布在各个角落的事实错误,比如产品价格错误、商店地址错误、时间错误等。

示例演示中的错误

由于New Bing尚未完全开放,我们无法直接从New Bing发布会上获得搜索结果,但微软已经提供了几个实用的演示[13]供用户体验。 本着寻求答案的精神,我们也将这些演示放在放大镜下进行研究。 我们发现,即使是这些精心挑选的例子也包含很多错误信息。

在《我可以和孩子一起做哪些艺术创意?》中,新兵给出了很多制作手工艺品的建议。 对于每件工艺品,New Bing 都总结了制作它所需的材料。 然而,每种工艺品的材料汇总并不完整。 例如,New Bing 从引用的网站 [14] 中总结出,制作纸吉他需要纸板箱、橡皮筋、油漆和胶水。 但引文中提到的海绵刷、胶带和木珠被省略了。

图13 新必应演示截图“我可以和孩子一起做哪些手工?”

图14 引用网站制作纸吉他所需材料截图

New Bing的示例演示中还有一个非常明显且常见的错误,即给出的参考链接与生成的内容无关,这是错误的。

例如,在下面的“我需要一辆大的快车”的示例中,2022 款 Kia 没有出现在给出的引文 10 [15] 中。 同时,“时间旅行”问题在这个例子中仍然不可避免。 New Bing称,2022版起亚荣获2020年世界年度汽车奖。 实际情况是,起亚2020款当年获奖。 2022世界年度汽车奖的获得者是IONIQ 5,引文7[16]也是一篇与“2020世界年度汽车奖”无关的文章。 我们在所有示例演示中发现了多达 21 个类似错误。

图15 New Bing演示示例“我需要一辆大型特快列车”截图

总结:发现错误将引导我们前进

从上面的分析可以看出,无论是New Bing还是Bard,他们的答案都容易出现事实错误。 当全世界都惊叹大规模语言模型所展现的能力,当它成为史上最快达到一亿用户​​的应用时,我们一方面为AI的进步欢呼,但另一方面,我们还需要冷静地思考如何解决问题。 人工智能仍然存在很多问题。

自从1956年聚集在达特茅斯学院的一群天才首次定义了什么是人工智能以来,AI经历了数次起伏。 70年的发展历程中有许多令人感动的毅力:是第一代人工智能的不成熟探索,是专家系统的勇敢尝试,是张、乐存等坐过板凳的学者神经网络,并利用它们将人工智能带出圈子。 ,是、Meta、CMU、斯坦福、清华等顶尖研究机构对开源的坚持。 是顶住压力走GPT路线的结果。 正是世界各地几代科学研究人员的接力才把我们带到了今天。

但如果任由人工智能产生大量不实信息,用不了多久,公众对人工智能的信心就会被摧毁,各种虚假信息将充斥互联网。 我们指出大模型的错误不是为了批评任何公司或模型。 相反,我们想让人工智能变得更好。

正如阿根廷诗人博尔赫斯曾经说过的:任何命运,无论多么复杂、多么漫长,其实都只体现在某一瞬间,那就是人们彻底醒悟自己是谁的那一刻。 在等待大型模型具备与人类媲美的书写能力的同时,我们清楚地知道下一步就是将现实世界的知识更完整、更准确地融入到大型模型中,让AI模型能够安全、可靠、广泛地应用。 人们的日常生活。 我们从未如此期待那一刻,也从未如此接近那一刻。

参考

[0]

[1]

[2]()

[3]

[4]

[5]

[6] 岸田晶子

[7]

[8]

[9]

[10] #:~:text=对于%20the%%%20的%%2C%%20到%20the%、%2C%20和%%2041%25%

[11]

[12] +de+noche++city&oq=+de+&aqs=.1..&=&ie=UTF-8

[13]

[14]

[15]

[16]

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023