有关什么是虹吸排水真的假的?

来源：未知(原创/投稿/转载) 编辑：大黄蜂时间：2023-02-05

　　DALL-E 等生成式模型的「高光时刻」已经出现，作为发明者，Ramesh 表示：「我们第一次尝试这个研究方向，是想看看能有什么作为。现在想来，恍如昨日。」

　　2021 年 1 月 5 日，也就是两年前，随着这篇论文和网站演示的发布，OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然语言表达的概念创建图像」的神经网络。而据报道，OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

　　经过训练，Transformer 语言模型 GPT-3 的 120 亿参数版本可以使用文本图像对数据集从文本描述中生成图像。VentureBeat 记者 Khari Johnson 在描述时说，其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」，并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

　　OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示，自那以后，整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展，这算是一种很保守的说辞。随后便是扩散模型的迅速崛起，其出现改变了去年 4 月发布的 DALL-E 2，以及它的开源对手：Diffusion 和 Midjourney 原有的格局。

　　Ramesh 告诉 VentureBeat：「我们第一次尝试这个研究方向，想看看能有什么作为，现在感觉恍如昨日。我知道这项技术将会对消费者产生影响，也会帮助到并对许多不同的应用程序，但我仍然对其发展速度之快感到惊讶。」

　　如今，生成式模型正在逐渐发展到「图像生成和多种模态的高光时刻」。他说：「我很高兴能够为所有这些即将出现的应用做点什么。」

　　CLIP 是与 DALL-E 1 研究共同开发和公布的，它是一个基于零样本学习的独立模型，实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图像进行训练，能够使用自然语言进行分类基准测试并对 DALL-E 结果进行排名。

　　当然，很多早期迹象表明，当前即将迎来文字到图像的进步。英属哥伦比亚大学（University of British Columbia）的计算机科学副教授 Jeff Clune 说道：「多年来的研究显示，这种未来近在咫尺。」2016 年，他的团队制作出了他所说的第一批与真实图像难以分辨的合成图像。

　　他说：「我的意思是，几年后，人们可以描述任何想要的图像，然后由 AI 来生成它，比如特朗普面带假笑地接受普京的贿赂。」

　　尽管如此，最初的 DALL-E 论文「在当时给人留下了深刻的印象」，未来学家、作家和 AI 研究员 Matt White 补充道。他说：「虽然这不是文本到图像合成领域的首项工作，但 OpenAI 不仅仅向 AI 研究领域推广他们工作的方法，更是将推广范围扩大到公众层面，这自然也是其颇受关注的原因所在。」

　　他说：「我们觉得文本到图像的生成很有意思，作为人类，我们能够通过一句话来描述我们在现实生活中可能遇到的任何情况，也可以是不可能发生的幻想场景，或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图像，并且和人类一样做出推断。」

　　他解释说：「所以我们可以采用像 GPT 这样的 transformer，训练它的目的是为了预测下一个单词，并用这些额外的图像 token 来增强它的语言 token。这让我们可以应用同样的技术来生成图像。」

　　他说，DALL-E 会带给人们惊喜，因为「在语言模型中看到泛化的例子是一回事，但当在图像生成中看到它时，它就会更加直观且具有更深的影响力。」

　　Ramesh 说：「将扩散模型和 DALL-E 结合起来，看似是一件自然而然的事，因为扩散模型有很多优点，其中最明显的特点是用扩散模型能够利落而又巧妙地修复图像。」

　　他解释道，在 DALL-E 2 中加入了在开发 GLIDE 时使用的一种特殊技术 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。

　　「当 Alex 第一次尝试时，没有人想到结果会有这么大的改善。我最初只期望 DALL-E 2 能成为 DALL-E 的更新版本，但让我惊讶的是，它已经开始让用户受益了。」

　　2022 年 4 月 6 日，当 AI 社群和普通用户第一次看到 DALL-E 2 的图像输出时，他们中的大部分都惊叹于图像质量的差异。

　　Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat，2021 年 1 月发布的 DALL-E 是第一波文本到图像研究的浪潮，这些研究建立在语言和图像处理的基本进展之上，包括变分自动编码器和 autoregressive transformers。DALL-E 2 发布时，「扩散是我们行内人意料之外的突破，它切实地提升了游戏质量，」她说。

　　她补充说，自从最初的 DALL-E 研究论文发表以来，过去两年一直是「竞争激烈，喜忧参半」。

　　「对如何建立语言和图像模型的关注是以如何最好地获取模型的数据为代价的，」她还指出，在现代文本到图像的进展中，个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念，而没有为艺术家提供任何追索权，」她如此总结道。

　　DALL-E 没有公开源代码，这导致其他系统开发了开源的文本转图像选项，这在 2022 年夏天前引起了轰动。

　　最初的 DALL-E「很有意思，但无法使用」，Stability AI 的创始人 Emad Mostaque 说，他在 8 月发布了开源文本到图像生成器 Stable Diffusion 的第一个迭代，并说「只有我的团队训练的模型可以称作开源」。Mostaque 补充说:「我们从 2021 年夏天开始积极资助和支持它。」

　　「DALL-E 2 在稳定性、质量和道德层面都存在问题，」，他指出，这些问题是相互交织且互相影响的，像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果（即红狗穿棕色衬衫，红狗穿红色衬衫或完全不同的颜色）。此外，他补充道，DALL-E 2 在面部和身体构造、图像文本生成的一致性方面仍然存在困难，「特别是当遇到较长的单词时。」

　　他说：「在大众眼里。这个模型的工作方式是：它在某处有个图像数据库，它生成图像的方式是将这些图像片段剪切粘贴在一起，从而创造出新的东西。但实际上，它的工作方式更接近于人类，当模型接受图像训练时，它会学习所有这些概念的抽象表征。」

　　他还解释道：「在我们从头开始生成图像时，我们不再使用训练数据。扩散模型从他们试图生成物的模糊近似开始，经过多重步骤，逐步添加细节，就像艺术家总是从一个粗略的草图开始发挥，随着时间的推移再慢慢充实他的作品。」

　　「过去，我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具，就像 Codex 是程序员的副驾驶一样。据我们所知，一些艺术家认为在创建想法原型时，DALL-E 非常有用，因为他们通常会花几个小时甚至几天的时间来探索某个概念，随后才决定采用它，而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

　　Ramesh 说，他希望越来越多的人能够在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

　　「通过（OpenAI 的）ChatGPT，我认为我们已经极大地扩展了这些 AI 工具的功能，并让很多人接触到它。希望随着时间的推移，那些想运用我们的技术做事的人可以很毫不费力地通过我们的网站获取它，并找到方法来使用其构建出他们心中所想。」

　　多家技术企业招聘来啦！有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求，包含来自科技大厂微软亚研、腾讯、小红书等企业，科技明星公司始途科技、梅卡曼德等企业的算法工程师等正式及实习岗位，欢迎有需求的大家向这些公司投递简历哦！

　　将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

　　将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

　　如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

上一篇：布拉格男妓怎么解读?
下一篇：关于寻宝走进海口是这样理解吗?

栏目分类

随机推荐