这是一张AI体系DALL-E 2依据文字描绘“戴着贝雷帽和穿黑色高领毛衣的柴犬”(Shiba Inu dog wearing a beret and black turtleneck)生成的图画。时隔一年,DALL-E的升级版来了!
当地时间4月6日,人工智能研讨机构OpenAI发布DALL-E 2(文本到图画生成程序)。DALL-E 2具有更高分辨率和更低推迟,精确度改进了71.7%,写实度改进了88.8%,解析度更是本来的4倍,还可结合概念、特色及风格打造更生动的图画,如以莫奈(Claude Monet)的风格画出草原上的狐狸。
一起新增两大功用:更细颗粒度的文字部分修正图画,以及生成原图的多重风格变体。前者比方这样!
上下分别为在原图的1区域和2区域添加一个小狗DALL-E 2在更细的层面上运用DALL-E的文本到图画的才能。用户能够从现有的图片开端,挑选一个区域,并告知模型怎么来修正它。模型能够填充(或删去)物体,一起考虑到暗影方向、反射与质地等细节。后者比方这样!
以同一张图画为基准,树立不同风格或编列的版别。
生成的图片是1024 x 1024像素,比原始模型供给的256 x 256像素有了腾跃DALL-E的称号来自于艺术家萨尔瓦多·达利(Salvador Dalí)和《机器人总动员》的主角WALL-E,第一版于2021年1月初次露脸。DALL-E奠基在具有1750亿个参数的GPT-3模型上,但它仅运用120亿个参数,使用一个文字与图画配对的材料集,以文字叙说来发生图画。
萨尔瓦多·达利(Salvador Dalí)
《机器人总动员》的主角 机器人WALL-E(瓦力)OpenAI研讨科学家Prafulla Dhariwal标明:“DALL-E 1仅仅从语言中采用了GPT-3办法,并将其运用于生成图画:咱们将图画压缩成一系列单词,然后学会猜测接下来的内容”。可是单词匹配并不一定能捕捉到人类认可的要点,并且猜测进程约束了图画的真实性。所以用CLIP(OpenAI上一年发布的计算机视觉体系)来调查图画,并以人类的方法总结它们的内容。
DALL-E体系依据文字“牛油果型的扶手椅”主动创造的部分图画CLIP是原版DALL·E功用完成的根底,DALL-E 2则结合了CLIP和分散模型两种技能的长处。DALL·E图画生成的“分散”(diffusion)进程能够理解为从“一堆点”动身,用越来越多的细节把图画填充完好。分散模型的特色在于,在献身多样性的前提下,能大大提高生成图画的逼真度。
DALL-E 2依据“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描绘生成的图画为防止生成的图片被乱用,现在OpenAI现已施行了一些内置的保护办法。
该模型在已除掉不良数据的数据集上进行练习,将由通过OpenAI检查的合作伙伴进行测验,用户被制止上传或生成“非G级”和“或许形成损伤”的图画,以及任何触及仇视符号、裸体、猥亵手势,或“与正在发生的严重地缘政治事情有关的严重诡计或事情”的图画。
该模型也无法依据名字生成任何可辨认的人脸,即便要求的是“蒙娜丽莎”之类的内容。一起,DALL·E 2 在生成的图片上都标有水印,以标明该著作是 AI 生成的。抱负情况下这些办法能够约束其发生不良内容的才能。
与之前相同,该东西并未直接向大众发布。但研讨人员能够提交请求预览该体系,OpenAI期望今后将DALL·E 2归入该安排的API东西会集,使其可用于第三方运用程序。
Dhariwal说道,“咱们期望分阶段进行这个进程,以从取得的反应中不断评价怎么安全地发布这项技能。”
(本文来自汹涌新闻,更多原创资讯请下载“汹涌新闻”APP)