在科技和学术界的合作中,华为诺亚方舟实验室、清华大学信息科技学院、大连理工大学、香港大学以及Hugging Face的研究人员联手合作,共同推出了一项创新性的开源项目——PIXART-δ 超高清文生成图模型。
模型整合潜在一致性与创新控制
PIXART-δ是一款集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer的超高清文生成图模型。这一整合为实现文生成1024*1024高质量图像带来了重大技术突破。
技术突破:更快速的图像生成
研究人员成功地将LCM和ControlNet-Transformer集成在PIXART-δ中,这使得在处理文生成1024*1024高质量图像时取得了巨大的技术突破。仅用0.5秒2-4个推理步骤,PIXART-δ就能够完成图像生成,比之前的PIXART-α模型快了7倍。这一飞跃性的提升意味着更高效的工作流程和更迅速的图像生成。
ControlNet-Transformer的精确控制
在PIXART-δ中,ControlNet-Transformer起到了关键作用,使得在不同条件下对生成模型的输出进行精确控制成为可能。这包括图像的边缘、深度、分割和对象姿势等多个方面。类似于OpenAI的DALL·E 3,PIXART-δ为用户提供了更多精细操控图像生成的可能性。
开源贡献与未来展望
这一联合项目的开源性质将促进更广泛的合作和创新。研究人员们的努力不仅在技术上推动了文生成图模型的前沿,也为学术界和产业界提供了新的工具和资源。
PIXART-δ的推出标志着一个多方合作的成功,并为文生成图模型的未来发展描绘了更为丰富的可能性。作为技术的跨界结晶,PIXART-δ的影响将持续扩大,并在图像生成领域产生深远的影响。
在这个项目中,华为、清华、大连理工、香港大学和Hugging Face展现了卓越的团队协作,共同推动了文生成图模型的发展。他们的成果不仅仅是技术突破,更是跨界合作的生动注解。