来源:机器之心本文约2300字,建议阅读9分钟该模型参数规模达到100亿,是全球最大的中文跨模态生成模型。 在文字生成图像上,文心 ERNIE-ViLG 可以根据用户输入的文本,自动创作图像,生成的图像不仅符合文字描述,而且达到了非常...
前不久,百度产业级知识增强大模型 “文心” 全景图亮相,近日,其中的跨模态生成模型 ERNIE-ViLG 在百度文心官网开放体验入口,并放出了论文:
在本文中,作者提出了用于视频模型自监督预训练的掩蔽特征预测(Masked Feature Prediction,MaskFeat)。本文的方法首先随机掩蔽输入序列的一部分,然后预测掩蔽区域的特征。...