超大规模视觉通用感知模型

news/2025/2/25 16:09:31

超大规模视觉通用感知模型

  • 通用感知模型简介与发展
    • 超大规模图像、文本主干网络
    • 多任务兼容解码网络
  • 参考文献

通用感知模型简介与发展

通用感知模型是指一个模型解决不同的感知任务,应用于各种模态数据。

通用感知模型的发展脉络图如下,它由NLP发源,逐渐朝着多模态多任务的方向发展,共同引领着人工智能的进步。
在这里插入图片描述

超大规模视觉通用感知模型全景图:
在这里插入图片描述

超大规模视觉通用感知模型由超大规模图像、文本主干网络以及多任务兼容解码网络组成,它基于海量的图像和文本数据构成的大规模数据集进行预训练,用于处理多个不同的图像、图像-文本任务。此外,借助知识迁移技术能够实现业务侧小模型部署。

超大规模视觉通用感知模型面临的挑战:
(1)网络参数量庞大,通常超十亿参数,训练稳定性、收敛性、过拟合等问题相较于小网络挑战大很多。
(2)原始数据集包含数十亿异质低质量图片与海量文本,多步训练以利用异质的多模态多任务数据,流程复杂,存在灾难性遗忘,难以定位精度等问题。
(3)实验成本高,通常需要上千块GPU并行训练数周,需要研究者有敏锐的分析能力和扎实的知识基础。
(4)工程挑战多,海量数据的吞吐,大型GPU集群上的并行算法,超大参数量模型的内存管理。

超大规模图像、文本主干网络

超大规模图像、文本主干网络的作用是对海量多模态数据进行学习,提取特征。

超大规模图像、文本主干网络面临的挑战:

  • 大模型设计范式:考虑网络深度/宽度/分辨率/分组计算数量的scaling up策略、针对大网络收敛不稳定的特征及梯度调整策略、针对大模型收敛慢的初始化策略、针对大模型容易过拟合的训练策略等。
  • 大规模加速训练框架:Pytorch DDP、FSDP、DeepSpeed ZeROs、混合精度计算、融合算子、kernel级别加速、梯度累加、梯度checkpointing、高效数据读取、数据切分、集群 文件和计算系统排疑、训练异常自动监控推送及重启、profiler等。
  • 多任务模型训练框架:支持多网络/多任务/多数据集/多模态的联合训练(设计实现高自由 度模块化的Meta Dataloader & Sampler 和 Meta Training & inference Pipeline)、数十个任务-数据集对同时高效读取及预处理、多任务多数据集采样、基于代理任务的自动超 参搜索、多任务梯度/Loss/Acc等统计量对比监控等。

多任务兼容解码网络

多任务兼容解码网络的作用是构建视觉任务通用的解码器网络,实现任务级别的泛化。

在这里插入图片描述

多任务兼容解码网络面临的挑战:计算机视觉中,不同任务的表征差异巨大。

参考文献

[1] Su et. al., Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information. CVPR 2023.
[2] Wang et. al., InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions. CVPR 2023.
[3] Zhu et. al., Uni-perceiver: Pre-training unified architecture for generic perception for zero-shot and few-shot tasks. CVPR 2022.
[4] Zhu et. al., Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs. NeurIPS 2022.
[5] Li et. al., Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks. CVPR 2023.


http://www.niftyadmin.cn/n/289460.html

相关文章

Redis缓存穿透和雪崩

Redis缓存穿透和雪崩 Redis缓存的使用,极大的提升了应用程序的性能和效率,特别是数据查询方面。但同时,它也带来了一些问题。其中,最要害的问题,就是数据的一致性问题,从严格意义上讲,这个问题…

漫天花雨HTML特效+3D相册

大家好,我是csdn的博主:lqj_本人 这是我的个人博客主页: lqj_本人的博客_CSDN博客-微信小程序,前端,python领域博主lqj_本人擅长微信小程序,前端,python,等方面的知识https://blog.csdn.net/lbcyllqj?spm1011.2415.3001.5343哔哩哔哩欢迎关注…

2023最新软件测试面试题汇总

常见的面试题汇总 1、你做了几年的测试、自动化测试,说一下 selenium 的原理是什么? 我做了五年的测试,1年的自动化测试; selenium 它是用 http 协议来连接 webdriver ,客户端可以使用 Java 或者 Python 各种编程语言…

手把手带你写一份优秀的开发求职简历(八)写一个项目经历

前言 上一节,我们针对“项目经历”的内功做了一个讲解,担心很多人看了之后还是感觉云里雾里的,不知从何下手,或者如何表现自己的个人收获更妥当。 所以,这一节,对于上一节的内功心法描述,做一个实战的讲解。当然,只是实战一个项目经历,大伙儿可以针对这一个实战的项…

shell脚本流程控制语句

if else语句 需求 提示"请输入你的考试成绩:" 接收用户输入一个成绩, 之后使用if else条件句判断 要求1: 小于 60 输出"不及格" 要求2: 大于等于70 并且 小于80 输出"中等" 要求3: 大于等于80 并且 小于90 输出"良好" 要求4: 大于等…

在Ubuntu中安装和使用Windows字体

现代人对于电脑的依赖已经越来越高,不仅仅是工作、学习,更是娱乐、生活中必不可少的一部分。而对于一些设计师、程序员、游戏爱好者等专业人士来说,拥有一台高效、美观的电脑更是必不可少的。在这篇文章中,我们将向大家介绍如何在…

反调试与反反调试

参考文本 (190条消息) C 反反调试(NtQueryInformationProcess)_(-: LYSM :-)的博客-CSDN博客 Windows 平台反调试相关的技术方法总结—part 2 - 先知社区 C/C MinHook 库的使用技巧 - lyshark - 博客园 (cnblogs.com) (177条消息) C 反反调试&#x…

机器学习 day11(决策边界,损失函数)

逻辑回归模型的预测过程 通常来说,我们先选择一个阈值0.5,当f(x) > 0.5时,则预测y为1,当f(x)<0.5时,则预测y为0。由此我们可以得出,当阈值取0.5时,g(z)取0.5,z取0。…