DeepSeek发布新开源AI模型,生图能力胜过DALL-E 3(图)

大鱼新闻 科技 1 week, 1 day

海外网友才开始经受R1的“洗礼”,中国人工智能(AI)初创DeepSeek又发布了新的模型,给闭源模型带来开源图像生成的震撼。

美东时间1月27日周一,AI社区Hugging Face显示,DeepSeek发布了分别名为Janus-Pro和JanusFlow的一系列开源多模态AI模型,参数大小从10亿到70亿不等,都已可在Hugging Face下载。



其中,70亿参数的Janus-Pro-7B号称在图像创建的能力方面超越了OpenAI 的DALL-E 3和Stable Diffusion模型。

DeePSeek展示的下图可见,在文生图GenEval和DPG-Bench基准测试中,Janus-Pro-7B的准确率较前代Janus大幅提高,准确率测试结果分别为80%和84.2%,高于包括DALL-E 3在内的其他对比模型,Janus的准确率分别为61%和79.7%。



DeepSeek称,Janus-Pro和JanusFlow的代码基于MIT许可证授权,这意味着它们可以不受限地用于商业用途。

Janus-Pro采用视觉编码解耦方式 统一Transformer架构

Janus-Pro是一款统一多模态理解与生成的创新框架,通过视觉编码解耦的方式,采用独立的路径分别处理多模态理解与生成任务,从而解决视觉编码器在两种任务中的功能冲突,大幅提升模型在不同任务中的适配性与性能,同时仍使用统一的 Transformer 架构处理多模态任务。

DeepSeek介绍:

“Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。它通过将视觉编码分离为独立的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。Janus-Pro超越了之前的统一模型,并达到或超过了特定任务模型的性能。Janus-Pro 的简单、高灵活性和有效性使其成为下一代统一多模式模型的有力候选者。”

Janus-Pro基于DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base两个架构打造,使用SigLIP-L视觉编码器,高质量图像生成能力,支持384x384 分辨率输入,满足多场景需求,并采用LlamaGen Tokenizer生成模块,下采样率为 16,生成更精细的图像。

Janus-Pro架构高度灵活且设计统一,可适配视觉问答、图像标注等多模态场景。

下图可见Janus-Pro和Janus的文生图效果对比。相比Janus,Janus-Pro对短提示词的输出更稳定,视觉质量提高,细节更丰富,且增加了生成简短文本的功能。



JanusFlow极简架构 无需复杂架构修改 生图支持384x384分辨率

DeepSeek介绍,JanusFlow这个框架将图像理解和生成统一在一个模型中。

对于JanusFlow,DeepSeek采用了“一种极简架构,将自回归语言模型与生成建模中最先进的方法“矫正流”(Rectified Flow)相结合。” DeepSeek发现,矫正流可以在大语言模型(LLM)框架内直接训练,无需进行复杂的架构修改。

换言之,JanusFlow的架构极简,直接将生成流融入LLM框架,从而简化了多模态建模流程。

DeepSeek称,JanusFlow 是一款统一的理解和生成多模态大语言模型(MLLM)。它将视觉编码与多模态理解和生成分离,它基于 DeepSeek-LLM-1.3b-base构建。

对于多模态理解,JanusFlow使用 SigLIP-L 作为视觉编码器,支持384 x 384图像输入。对于图像生成,JanusFlow 使用矫正流与SDXL-VAE结合,生成 384 x 384分辨率图像。提供的检查点是预训练和监督微调后的EMA检查点。

下图可见JanusFlow的基准测试表现与LLaVA等其他模型对比,以及它的生图结果展示。



DeepSeek再度开源:用图像模型Janus-Pro撕开算力铁幕

今天是除夕,凌晨 1 点,我在北京的公寓里写算法。白天在中关村咖啡馆的喧嚣, AppStore 登顶的狂欢, 仿佛已经是上个世纪的事情。

此刻的屏幕上,不断翻出来新的消息:DeepSeek Janus-Pro 开源

让我们一起,来看看这旧年的最后一个惊喜



这是一个多模态模型,名称来源于古罗马神话中的双面神“雅努斯”(Janus):它同时面向过去与未来。当然,你也可以说,这代表了模型的两种能力——既要进行视觉理解,又要进行图像生成。

发布的地址在这:

https://github.com/deepseek-ai/Janus

https://huggingface.co/deepseek-ai/Janus-Pro-1B

https://huggingface.co/deepseek-ai/Janus-Pro-7B

同时发布的,还有一份技术文档,可以回复 Janus 获取这份文档。

首先,我得承认,我对图像处理这块并不精通,所以如果有解读错误的地方,欢迎评论区指正。

官方给了一些生成的效果图,明显强于 Janus 原版。虽比不上 Midjourney 那般艺术,但应为第一梯队。



如果是对比 OpenAI 的 DALL-E 3,参数会领先不少,并且直接霸榜。



更不同于 OpenAI 的 DALL-E 只能画图,Janus 同时包含了多种能力:比如图像识别、地标识别、文字识别等。

图像识别能力,也就是所谓的读图



地标识别能力,比如让他猜这张图片是在哪拍的



图片通识 - 他知道很多的文化符号,比如 Tom and Jerry



来识别图片中的文字



当然,自然也能生成图片



你会发现,这个模型不同于 4o 类型的模型 - 只能看,而是既能看,也能画。其原因,便是 Deep Seek 的这个模型,使用了解耦视觉编码技术。



在“理解通路”,它能迅速感知到图片的核心信息,并给出更准确、更专业的回答;

而在“生成通路”上,它便是一个艺术家,像 MidJourney 一样,去描绘笔触和色彩。

至于这个模型是如何做到这些的,按报告说法,基于以下三条:

更优化的训练策略: DeepSeek 团队改进了 Janus-Pro 的 “学习方法”,让模型训练过程更高效、更稳定。就像给学生制定了更科学的学习计划,让 Janus-Pro 能更快更好地掌握知识。

更海量的训练数据: 为了让 Janus-Pro 见识更广阔的世界,DeepSeek 投入了 前代模型三倍以上 的训练数据!海量的数据就像丰富的教材,让 Janus-Pro “饱读诗书”,变得更加博学。

更大规模的模型: Janus-Pro 采用了更大规模的模型,参数量达到 70 亿。模型规模的扩大就像大脑容量的增加,让 Janus-Pro 拥有更强大的 “思考” 和 “处理信息” 的能力。




再度看向屏幕,已是刚过四点:不久,就要天亮了



在我们的土地上,正传颂着一种新的叙事:不搞算力禁运,不搞实体清单,不用算力砌高墙,而以开源筑长阶,邀世界共赴星辰。

东方破晓,愿君行早。

 

相关新闻