
GPT-image-2是OpenAI在GPT Image系列最新的大模型(之前是1.5版,取代了老DALL·E)上的下一代图像生成大模型。它不是单独的画图玩具,而是直接嵌在ChatGPT里的多模态模型,核心就是“让AI图终于像真人拍的”。
目前处于灰度测试阶段,还没正式发布。目前OpenAI在ChatGPT内部给部分Plus/Pro用户随机分配流量做A/B测试,如果你生成图片时突然发现“哇这质量怎么这么好”,恭喜,你可能就碰上了灰度版本。
GPT-image-2 做个哪些升级?
第一,文字渲染彻底翻身了。 以前你让AI在图片里写“Hello”,出来的可能是“Hellp”甚至“Hl10”。DALL-E 3时代这个问题最严重,GPT Image 1.5对英文渲染准确率接近95%,但中文、日文等非拉丁字母还是拉胯。GPT-image-2直接把这事儿解决了——中文清晰,字形准确,笔画完整。有人测试生成身份证样式的图片,姓名、地址、证件号全部正确渲染,排版规整得跟真的一样。这在以前完全不敢想。
我用它生成课本、生成教学演示、生成试卷,这文字渲染能力太牛了,可以直接杀入教育行业,做一大堆产品出来。


第二,真实感炸裂。 这不是说它能画多好看的“艺术图”,而是它越来越像一张“真实照片”。有网友用Sam Altman的自拍做对比测试,GPT-image-2能精准还原皮肤质感、眼尾皱纹、胡须细节甚至发丝光影,而前代生成的图粗糙模糊得多。有人用它生成一个不存在的社交媒体博主主页截图,光影和氛围感能让人愣30秒才反应过来是AI画的。
第三,能生成UI界面、截图、图表。 这是它跟其他模型最大的差异化能力之一。Midjourney至今在文字渲染上毫无建树,Stable Diffusion系列也是老问题,而GPT-image-2能生成与真实软件界面极为相似的图像——浏览器窗口、移动端App界面、数据可视化图表,保真度是上一代无法比拟的。
第四,消除了“AI黄滤镜”。 从DALL·E时代起,AI生成的图就自带一股暖色调光晕,即便到了GPT Image 1都没彻底解决。实测显示GPT-image-2色彩还原精准,冷色调场景能真正冷下去。
数据统计
相关导航


文心大模型

LLM Visualization

DALL·E3

可灵大模型

GPT 4.0

ChatGAi


















