苹果论文展示Ferret-UI大语言模型:可深度理解屏幕信息内容

Antutu

阅读

近日,苹果发布研究论文,展示了名叫“Ferret-UI”的多模态大语言模型。

根据论文介绍,Ferret-UI模型针对目前MLLMs模型(多模态大语言模型)无法有效理解移动应用程序在屏幕上显示的内容这一问题,做出了针对性的调整。

为了训练Ferret-UI,苹果收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。

这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。

同时,为了增强模型的推理能力,苹果进一步编制了高级任务数据集,包括详细描述、感知/交互对话和功能推理。

这使得Ferret-UI相较目前的GPT-4V等MLLMs模型,在理解应用程序在屏幕上显示的内容时,有着显著的优势。

原创文章,作者:liunaihe,如若转载,请注明出处:http://www.antutu.com/doc/131450.htm

相关推荐

登录后才能评论

评论列表 ( 条)

返回
顶部