格灵深瞳发布新亿级数据集格林深瞳助力CLIP刷新SOTA
新的亿级大规模图文对数据集来了,CLIP达成新SOTA!
格灵深瞳最新发布的高质量数据集RealSyn,不仅规模大——包含1亿组图文对,而且每张图片都同时关联多个真实和合成文本。
所有的图像和句子都基于冗余进行了严格过滤,在确保数据质量的同时,引入基于簇的语义平衡采样策略,构建了可满足多样工作需求的三种规模大小的数据集:15M、30M、100M。
这下CLIP终于可以大展身手了!
RealSyn所展现的超强扩展性,以及在视觉语言表征学习中极为优越的表现,让模型性能在多任务中达到了新的SOTA。
目前,该数据集已全面开源,可点击链接一键获取:
更多与RealSyn更多技术细节,欢迎点击: