栏目分类
开云(中国)Kaiyun·体育官方网站-登录入口
乐从家具城
发展商
外国人服务中心
新闻中心
服务与支持
开云(中国)Kaiyun·体育官方网站-登录入口同期为了提上下资源话语的代表性-开云(中国)Kaiyun·体育官方网站-登录入口
发布日期:2025-03-02 08:07    点击次数:119

开云(中国)Kaiyun·体育官方网站-登录入口同期为了提上下资源话语的代表性-开云(中国)Kaiyun·体育官方网站-登录入口

史上最大范畴视觉话语数据集:1000 亿图像 - 文本对!

什么倡导?

较此前记录扩大 10 倍。

这即是由谷歌推出的最新数据集WebLI-100B。

它进一步讲授,数据 Scaling Law 还远莫得到上限。

在英文宇宙以外的多元文化、多话语维度,1000 亿范畴数据集能更好隐蔽长尾场景,由此带来昭着性能教会。

这意味着,念念要构建愈增多元的多模态大模子,千亿级数据范畴,将成为一个蹙迫参考。

同期参议还进一步讲授,CLIP 等模子的过滤筛选循序,会对这种多元性教会带来负面影响。

该参议由谷歌 DeepMind 带来,一手脚 Xiao Wang、 Ibrahim Alabdulmohsin。

作家之列中还发现了 ViT 中枢作家翟晓华。2024 年 12 月,他在推特上官宣,将入职 OpenAI 苏黎世实验室。

数据范畴越大对细节相识越好

论文主要职责有三方面。

考据 VLMs 在 1000 亿范畴数据集上的恶果

讲授 1000 亿范畴数据集能增强 VLMs 文化各类性、多话语智力以及减少不同子组之间的性能各异。

发现 CLIP 这类模子过滤筛选数据的进程会对意外中裁减模子的文化多元性,在 1000 亿范畴数据集上亦是如斯。

具体来看,参议东说念主员从网罗上征集了 1000 亿图像 - 文本对,初步去除无益本质以及明锐信息。

然后使用 CLIP 模子对数据集进行质料评估,筛选出与图像本质高度对都的图像 - 文本对。

他们测验了一个分类器模子,对图像 - 文本进行对都和错位分类,并拯救阈值以重新筛选数据集。为了评估多话语智力,还使用网页的话语标签来信服数据鸠合的话语踱步。

为了评估不同数据范畴对模子性能的影响,参议东说念主员从 1000 亿数据鸠合赶快抽取了 1% 和 10% 的数据,分歧创建了 10 亿和 100 亿范畴的数据集。

同期为了提上下资源话语的代表性,参议东说念主员对低资源话语进行了上采样,将它们的占比从 0.5% 提高到 1%。

实验方面,参议东说念主员使用 SigLIP 模子在不同范畴的数据集上进行对比视觉话语预测验。

他们测验了不同大小的模子(ViTB/16、ViT-L/16、ViT-H/14),并使用了大范畴的批量大小和学习率退换。

从扫尾来看,1B 数据集测验的模子在注见识争上无法很好捕捉细节。10B 数据集有所改善,100B 数据集能更精确。

同期使用多话语 mt5 分词器对文本进行分词,并测验了多种话语的模子。

在模子评估上,参议东说念主员主要进行以下几个维度分析:

传统基准测试:多个传统基准测试(如 ImageNet、COCO Captions 等)上评估。

文化各类性:使用 Dollar Street、GeoDE 和 Google Landmarks Dataset v2 等数据集评估了模子在文化各类性任务上的性能。

多话语智力:使用 Crossmodal-3600 数据集评估了模子在多话语任务上的性能。

公说念性:评估了模子在不同子组(如性别、收入水平、地舆区域)上的性能各异,以评估模子的公说念性。

扫尾显现,从 100 亿到 1000 亿范畴数据,在以西方文化为主的传统基准测试上带来的教会比拟有限,但在多话语智力和公说念性干系任务上权贵提高。

数据过滤不错提高模子在传统任务上的性能,但可能会减少某些文化布景的代表性,从而扫余数据集的各类性。

此外,通过拯救低资源话语的混杂比例,不错权贵提高模子在低资源话语基准测试上的性能。

主创翟晓华已被 OpenAI 挖走

该参议的一手脚 Xiao Wang 和 Ibrahim Alabdulmohsin。

Xiao Wang本科毕业于南京大学,硕士毕业于北京大学。

领英尊府显现,他毕业后先后任职于 IBM 中国竖立实验室、网易有说念。2015 年加入谷歌 DeepMind 于今,职位是高档软件工程师,主要从事视觉话语参议。

主创中还发现了翟晓华的身影。

他通常本科毕业于南京大学,在北京大学攻读博士学位后,赴苏黎世加入谷歌。

翟晓华和卢卡斯 · 拜尔(Lucas Beyer)、亚历山大 · 科列斯尼科夫(Alexander Kolesnikov)全部在谷歌建议多项蹙迫职责。

2021 年,他们三东说念主手脚共吞并作的计较机视觉畛域神作 ViT 发布即刷新 ImageNet 最高分。

这项参议说明了 CNN 在 CV 畛域不是必需的,Transformer 从 NLP 跨界,一样不错赢得先进恶果。始创了 Transformer 在 CV 畛域欺诈的先河。

现在这篇论文被援用量已跳跃 5.3 万。

他在谷歌 DeepMind 时素质苏黎世多模态参议小组,重心参议多模态数据(WebLI)、灵通权重模子 ( SigLIP、PaliGemma ) 以及文化包容性。

2024 年 12 月,爆料称 OpenAI 挖走 ViT 三大中枢作家。随后,该音书被本东说念主说明。

论文地址:

https://arxiv.org/abs/2502.07617开云(中国)Kaiyun·体育官方网站-登录入口