我们有图像,也有文字,接下来我们要看它们之间的关联度。我的第一篇学术论文,也是我的第一篇博士论文,研究的就是基于场景图的图像检索。
接下来
我们继续深入研究,从像素生成文字,这方 WhatsApp 号码数据 面他和 ndrej 都做了很多工作,但依然是一种非常有损的生成方式,信息从像素世界中获取时损失很大。 中间阶段有一个非常著名的工作,那个时候有人第一次实现了实时化。 年,一篇叫《神经算法的艺术风格》的论文由 n Gty 领导发表。他们展示了将现实世界的照片转换为梵高风格的图片。 我们现在可能习以为常,但那是在 年,那篇论文突然出现在 rXiv 上,震惊了我。我感觉大脑中被注入了一种“生成 的病毒”。我心想:“天哪,我需要理解这个算法,玩一玩,试着把自己的图片变成梵高风格。” 于是,我花了一个长周末重新实现了这个算法,让它能够正常运行。其实它是一个非常简单的算法,我的实现大概只有 行代码,当时是用u写的,因为那时候还没有 PyTor,我们用的是 u Tor。
不过尽管算法简单,它的速度很慢。每生成一张图片,你都需要运行优化循环,耗费很多时间。生成的图片很漂亮,但我就是希望它能更快一点。
最后
我们确实让它变快了。 还有一点我非常自豪 如何规划成功的文档管理系统迁移 的是,向世界之前,他在博士研究的最后一部分做了一个非常前沿的工作。这个项目是通过输入自然语言来生成完整的图像,这可以说是最早的生成 工作之一。我们使用的是GN,但当时它非常难用。问题是,我们还没有准备好用自然语言来描述一幅完整的图像。 于是,他采用了一个场景图结构输入方式,输入内容是“羊群”、“草地”、“天空”等,并用这种方式生成了一幅完整的图像。
从数据匹配到
风格转换,再到生成图像,我们逐渐看 美国电话列表 到了一个完整的转变。你问这是否是一个巨大的变化,对于像我们这样的人来说,这是一个持续的过程,但对于大众而言,成果确实显得突然且具有冲击力。 我读了你的书,真是一本很棒的书,我强烈推荐大家去读。