发产品

  • 发布供应
  • 管理供应

华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

   2024-08-06 40
导读

  据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型Monkey。该模型号称能够实现对世界的观察,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面  IT之家注:多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构。  据介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等

   据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。

微信图片_20231215090209
▲图源Monkey项目的GitHub页面
 
  IT之家注:多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构。
 
  据介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出“显著的优势”,甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。
 
  Monkey的一个显著特点是“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有Monkey和GPT-4V能将其准确地识别为作者名。
 
  Monkey号称能够利用现有的工具构建一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,提升描述的准确性和丰富程度。
 
  “一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从2003年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey的最终方案是大家一起反复讨论,尝试了10余种方案后最终确定的。”白翔教授说。
 
  Monkey的另一亮点是能够处理分辨率最高1344×896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍,这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。
 
  Monkey多模态大模型代码目前已在GitHub开源。
 
举报收藏 0打赏 0评论 0
免责声明
• 
本文为原创作品,作者: 。欢迎转载,转载请注明原文出处:https://www.yiwangtui.com/news/show.php?itemid=413 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们。
 
更多>同类资讯
推荐图文
推荐资讯
点击排行

入驻

企业入驻成功 可尊享多重特权

入驻热线:1801-5555-345

请手机扫码访问

客服

客服热线:1801-5555-345

小程序

小程序更便捷的查找产品

为您提供专业帮买咨询服务

请用微信扫码

公众号

微信公众号,收获商机

微信扫码关注

顶部