OpenGVLab开源平台推动通用AI技术的规模化应用

来源：商汤科技SenseTime 发布日期： 2022-03-09 浏览次数： 5,853

下面这几张图的内容分别是什么?你或许一眼就能看出是打麻将、竞速摩托、香槟、熊猫。

但人工智能不一定可以。

虽然人工智能已经强大到可以识别万物，但很多AI模型只能完成单一的任务，比如识别单一的物体，或者识别风格较为统一的照片，如果换一种类型或者风格，就爱莫能助。

现在，有一位“书生”，对于这不同类型的图，它都能较为准确地识别出其中的内容，包括图画。

这需要有独特的模型训练及标签体系，也要求模型具有一定的通用性，这样才能对不同类型的图片做出准确的描述。

这位“书生”正是去年11月，由上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学，联合发布的通用视觉技术体系“书生”(INTERN)。

今天，为了帮助业界更好地探索通用视觉AI技术，基于“书生”技术体系的通用视觉平台OpenGVLab正式发布并开源。

OpenGVLab开放的内容包括其超高效预训练模型，和千万级精标注、十万级标签量的公开数据集，为全球开发者提升各类下游视觉任务模型训练提供重要支持。

同时，OpenGVLab还同步开放业内首个针对通用视觉模型的评测基准，便于开发者对不同通用视觉模型的性能进行横向评估和持续调优。

目前OpenGVLab开源平台(opengvlab.shlab.org.cn)已正式上线，供各界研究人员访问和使用，后续项目还将开通在线推理功能，供所有对人工智能视觉技术感兴趣的社会人士自由体验。

超高性能模型，展现极强的通用性

OpenGVLab继承了“书生”体系的技术优势，其开源的预训练模型具有超高的性能和通用性。

具体而言，相较于当前最强开源模型(OpenAI 于2021年发布的CLIP)，OpenGVLab的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务，在准确率和数据使用效率上均取得大幅提升。

基于同样的下游场景数据，开源模型在分类、目标检测、语义分割及深度估计四大任务26个数据集上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

开源模型在分类、检测、分割和深度估计中，仅用10%的下游训练数据就超过了现有其他开源模型。

使用此模型，研究人员可以大幅降低下游数据采集成本，用极低的数据量，即可快速满足多场景、多任务的AI模型训练。

OpenGVLab还提供多种不同参数量、不同计算量的预训练模型，以满足不同场景的应用。模型库中列出了多个模型，其在ImageNet的微调结果和推理资源、速度，相比于之前的公开模型均有不同程度的性能提升。

开放千万级精标注数据集

高性能的模型，离不开丰富数据集的训练。

除了预训练模型，以百亿数据总量为基础，上海人工智能实验室构建了超大量级的精标注数据集，近期将进行数据开源工作。

超大量级的精标注数据集不仅整合了现有的开源数据集，还通过大规模数据图像标注任务，实现了对图像分类、目标检测以及图像分割等任务的覆盖，数据总量级近七千万。开源范围涵盖千万级精标注数据集和十万级标签体系。

目前，图像分类任务数据集已率先开源，后续还将开源目标检测任务等更多数据集。

此外，此次开源的超大标签体系，不仅几乎覆盖了所有现有开源数据集，并在此基础上扩充了大量细粒度标签，涵盖各类图像中的属性、状态等，极大丰富了图像任务的应用场景，显著降低下游数据的采集成本。

研究人员还可以通过自动化工具添加更多标签，对数据标签体系进行持续扩展和延伸，不断提高标签体系的细粒度，共同促进开源生态繁荣发展。

首个通用视觉评测基准

伴随OpenGVLab的发布，上海人工智能实验室还开放了业内首个针对通用视觉模型的评测基准，弥补通用视觉模型评测领域的空白。

当前，行业中已有的评测基准主要针对单一任务、单一视觉维度设计，无法反映通用视觉模型的整体性能，难以用于横向比较。

全新的通用视觉评测基准凭借在任务、数据等层面的创新设计，可以提供权威的评测结果，推动统一标准上的公平和准确评测，加快通用视觉模型的产业化应用步伐。

在任务设计上，OpenGVLab提供的通用视觉评测基准创新地引入了多任务评测体系，可以从分类、目标检测、语义分割、深度估计、行为识别等5类任务方向，对模型的通用性能进行整体评估。

不仅如此，该评测基准新加了仅用测试数据集10%数据量的评测设定，可以有效评估通用模型在真实数据分布下的小样本学习能力。在测试后，评测基准还会根据模型的评测结果给出相应的总分，方便使用者对不同的模型进行横向评测。

随着人工智能与产业融合的不断深入，行业对人工智能的需求逐渐从单一任务向复杂的多任务协同发展，亟需构建开源、开放的体系，以满足趋于碎片化和长尾化的海量应用需求。

OpenGVLab的开源，将帮助开发者显著降低通用视觉模型的开发门槛，用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型，高效实现对长尾场景的覆盖，推动通用AI技术的规模化应用。

欢迎大家加入OpenGVLab，一起构筑通用AI生态。

原文标题：通用视觉研究利器来了!OpenGVLab平台正式开源

文章出处：【微信公众号：商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

其他关联资讯

2019-06-10

2019-05-28

2023-02-15

2018-12-29

2019-06-28