分享好友 资讯首页 资讯分类 切换频道

专治 AI 大模型对错误答案“过于自信”,麻省理工学院提出新型高效低耗校准方法

2024-08-06 20:24850
 人们正在越来越多地使用大模型完成各种任务,不论是翻译、总结文章还是识别金融诈骗,大模型都是“无所不包”。尽管这些模型都具有“惊人”能力,但它们偶尔也会生成错误答案,并对错误答案过于自信、对正确答案信心不足,使用户对大模型是否值得信任表示怀疑。
 
据 MIT NEWS 报道,麻省理工学院(MIT)和 MIT-IBM Watson AI Lab 的研究人员提出了一种专为大型语言模型量身定制的校准方法。他们的方法被称为“温度计”,其原理是在大语言模型之上构建一个较小的辅助模型来对其进行校准。

cfcda870-06a4-4068-9698-4d4bb1ed5cc1
图源 Pexels
 
据悉,这种被叫作“温度计”的方法所需的计算能力更少,但同时又能保持模型的准确性,并使其能够在未曾遇到过的任务中做出更好的校准响应。
 
通过针对各种任务对大语言模型进行高效校准,“温度计”可以帮助用户找出模型对错误预测过于自信的情况,最终防止用户在可能失败的情况下部署该模型。
 
有关论文的第一作者、麻省理工学院电子工程和计算机科学研究生沈茂豪(IT之家注:音译)表示,“我们希望向用户提供一个明确的信号,告诉他们模型的回应是准确还是不准确,以反映模型的不确定性,让他们知道模型是否可靠。”
 
借助“温度计”,研究人员开发出了一种多功能技术,利用一种被称为“温度缩放”的经典校准方法,为新任务有效地校准大语言模型。在此背景下,“温度”是一个缩放参数,用于调整模型的“信心”以与其预测准确性一致。
 
研究人员训练了一个辅助模型,该模型在大型语言模型之上运行,自动预测校准新任务所需的“温度”。“温度计”只需要访问大型语言模型内部的一个小部分,就能预测出特定任务数据点的正确“温度”,以校准其预测。
 
该团队希望未来使“温度计”支持更复杂的文本生成任务,并将该技术应用于更大的大型语言模型。
点赞 0
举报
收藏 0
打赏 0
评论 0
分享 6
2024年中国移动互联网半年报告发布:短视频月活跃用户达9.89亿
近日,第三方研究机构QuestMobile发布了《2024年中国移动互联网半年报告》。 数据显示,我国移动互联网在线娱乐需求旺盛,大部分场景保持增长趋势。 短视频、手机游戏、网络视频是用户时间主要集中的数字娱乐领域。 其中,短视频月活跃用户数已达9.89亿。 此外,截至6月,移动互联网月活跃用户数达12.35亿,同比增长1.8%。

0评论2024-08-08159

长广溪智造获全球首张协作机器人欧盟ATEX防爆证书
近日,长广溪智造获得了全球协作机器人领域首张欧盟ATEX防爆证书,为车规级高速协作机器人进军欧洲防爆机器人市场奠定了坚实基础!在欧洲市场,获得ATEX认证是工业防爆机器人进入市场的必要条件。通过ATEX认证的工业防爆机器人必须符合一系列严格的安全性能要求,包括防爆设计、材料选择、电气安全等方面,这些要求旨在确保机器人在正常工作和故障状态下都不会引发爆炸。目前,CGXi-X系列特种级协作机器人已通过-30℃到80℃的高低温测试,能够在极端环境下稳定运行,防爆等级II 2G Ex db pxb IIC T4

0评论2024-08-06151

工信部启动 2024 年 5G 工厂名录项目遴选工作
IT之家 7 月 31 日消息,为深入推进5G + 工业互联网创新发展,持续实施 5G 工厂百千万行动,加快高水平 5G 工厂建设,推动数字经济和实体经济深度融合,推进各行业领域企业智改数转网联,工业和信息化部近日印发通知,组织开展 2024 年 5G 工厂名录项目遴选工作。项目申报主体为制造业、采矿业、电力、港口等重点领域企业,在中华人民共和国境内注册,具备独立法人资格。项目建设标准参照《5G 全连接工厂建设指南》(工信厅信管〔2022〕23 号)。(一)申请。地方工业和信息化主管部门、通信管理局组织本

0评论2024-08-06155