苹果论文展示Ferret-UI大语言模型：可深度理解屏幕信息内容

Antutu •

2024-04-10 09:37:31

•

阅读

近日，苹果发布研究论文，展示了名叫“Ferret-UI”的多模态大语言模型。

根据论文介绍，Ferret-UI模型针对目前MLLMs模型（多模态大语言模型）无法有效理解移动应用程序在屏幕上显示的内容这一问题，做出了针对性的调整。

为了训练Ferret-UI，苹果收集了大量初级用户界面任务的训练样本，如图标识别、查找文本和小部件列表。

这些样本的格式都是按照带有区域注释的指令来设计的，以便于精确引用和接地。

同时，为了增强模型的推理能力，苹果进一步编制了高级任务数据集，包括详细描述、感知/交互对话和功能推理。

这使得Ferret-UI相较目前的GPT-4V等MLLMs模型，在理解应用程序在屏幕上显示的内容时，有着显著的优势。

原创文章，作者：Noer，如若转载，请注明出处：http://www.antutu.com/doc/131450.htm

 6









努比亚发布首款小折叠努比亚Flip：起售价仅2999元

« 上一篇 2024-04-09 18:11:19

用户反馈佩戴Vision Pro后出现健康问题：头痛、颈部酸痛等

2024-04-10 10:21:23 下一篇 »

相关推荐

6月安卓好评榜：OPPO K13 Turbo 5G拿下榜首

6月iOS设备好评榜：五六七名变了，好像又没变

6月安卓性价比榜：榜单大换血 2000元档杀出三匹黑马

6月安卓性能榜：骁龙统治力瞩目

6月iOS设备性能榜：细微变化，只是五六名位置对调！

5月安卓好评榜：努比亚Z80 Ultra连续半年卫冕 OPPO K13 Turbo稳居第二

登录后才能评论

发表

xxxxx

评论一下退出

评论列表 ( )

下载

安兔兔评测Android

2026.6.30 v11.1.4

评测包下载 3D包下载

x86包下载 3D Lite包下载

安兔兔AI评测Android

2026.5.8 v3.6.2

立即下载

安兔兔评测车机版Android

2026.2.12 v1.2.3

立即下载

安兔兔SSDWin

2019.11.6 v1.0.3

立即下载

安兔兔评测Win/Linux

2025.11.14 v2.0.0.1192

Window版 Linux版

安兔兔AI大模型评测Win

2025.10.20 v1.1.0.1103

立即下载

媒体:

抖音

公众号

视频号

B站