干货！最新综述带你全面了解ChatGPT，AIGC和扩散模型

ChatGPT与PPT 3年前 (2023) lida

93 0 0

2022年，ChatGPT的成功发布引起了全球科技圈的轰动，而它的成熟应用也成为了AIGC时代到来的标志。目前，AIGC已经以超乎人们预期的速度迅速催生了全新的科技系统与产业格局。2023年4月20日，AI TIME举办的大模型专场三活动邀请了韩国庆熙大学助理教授张超宁和他的合作学生，来自韩国科学技术院的博士生张晨爽、韩国科学技术院硕士生张梦纯、北京理工大学博士生郑胜、韩国庆熙大学博士生乔羽。五位嘉宾分享了多篇与ChatGPT，AIGC和扩散模型相关的综述论文，从不同的角度介绍了生成式AI的最新进展，展望了生成式AI面临的机遇和挑战。

张超宁

Generative AI

张老师首先介绍了自己的个人学习和工作经历，然后给大家分析了人工智能前沿领域等面临的难题与挑战，并展示了自己目前已有的一些研究工作和成果，最后重点阐述了自己对下一步研究方向——Segment Anything Model的研究思路和创新观点，并热情邀请对计算机视觉、机器学习等领域有兴趣的研究者在后期进行更加深入的交流与合作。

Segment Anything项目是一个用于图像分割的新任务、模型和数据集，研究者旨在通过引入三个相互关联的组件来构建分割的基础模型：即时分割任务、支持数据注释并通过即时工程将零样本传输到一系列任务的分割模型。SAM目前解决了视觉领域模型泛化性弱的问题，并且在边缘检测方面的性能较好，张老师提到，后期将从SAM模型的扩展性以及数据的高效性两个角度开展与其他模型的交叉应用研究。

张晨爽

Text-to-image Diffusion Models in

Generative AI: A Survey

Diffusion Model最早在图像领域因为其强大的图像生成能力而获得了巨大的关注。其中，文本-图像的扩散生成模型是一项令人印象深刻的工作。这篇综述主要从背景、创始工作、应用场景三个方面介绍了扩散模型是如何应用到文本-图像生成之中的。

张晨爽首先介绍了文本-图像任务的具体定义和历史上经典的里程碑式的研究工作，其中重点介绍了DALL-E模型的理论思想以及扩散模型的工作原理及其相较于Autoregressive models在解决实际问题上的优势；其次详细分析了扩散模型应用在文本-图像的4项经典工作，共可以分为两大类——Frameworks in pixel space、Frameworks in latent space；然后梳理了在最新工作中最主要的4类改进方向：模型结构、用于空间控制的草图、用于概念控制的文本转变、超分布的检索方法。最后介绍了文本-图像任务在实际生活中的应用，主要有：视觉艺术生成、视频生成、3D对象生成、文字引导图像编辑等。

在第二篇音频扩散模型的工作中，张晨爽着重介绍了研究者重点关注的两大任务——Text To Speech、Speech Enhancement。其中重点分析了Text To Speech的发展阶段和Speech Enhancement在研究过程中的需要解决的两大任务：语音增强、提高语音的超分辨率。

张梦纯

A Survey on Graph Diffusion Models：

Generative AI in Science for Molecule，

Protein and Material

由于图的巨大表达能力，近年来越来越多的研究将机器学习与图的分析和生成相结合，图也在社会科学、知识库、化学材料分子结构等众多研究领域中得到了非常广泛的应用。张梦纯本次分享了一篇关于Graph扩散模型的文献综述：在分子蛋白质和材料中的生成式AI。

她首先介绍了图的广泛应用、图的扩散模型以及综述的总体框架；其次根据算法分类简要回顾了深度图生成模型的4种主流的生成方法，分别是：Auto-regressive Models、Normalizing Flows、Variztional Autoencoders (VAE)、Generative Adversarial Networks (GAN)，并总结了深度图生成模型的统一框架，针对每一个模型归纳了相应的关于图生成的经典模型方法；第三，介绍了扩散模型的相关背景知识，展示了目前基于扩散模型研究的三种主要表述方式并总结了这三种模型各自的前线过程、逆转过程及优化目标；但是，尽管扩散模型显示出优异的前景，但由于图形数据的独特属性要求，这需要在标准扩散过程中进行适当的调整从而使其更加适合于图形任务。有以下三种具体的修改过程：离散型扩散、低等级扩散、旋转平移的等价性和不等价性。图生成模型强大的性能使得其在Molecules分子、Protein蛋白质及其他方面有着广泛的应用。在本篇综述中不仅介绍了它的应用场景，还总结了常用的图数据集以及一些常用于验证生成模型有效性的图评估指标；最后，概述了图生成模型面临的一些挑战，主要包括评价标准、图的多样性、可扩展性、违规行为、可解释性的问题。

郑胜

One Small Step for Generative AI，

One Giant Leap for AGI：A Complete Survey

on ChatGPT in AIGC Era

ChatGPT自发布以来，受到众多圈内外学者的广泛关注，其强大的交互生成能力为人们的工作、生活都带来了诸多便利。郑胜首先简要介绍了ChatGPT的相关背景，分析了ChatGPT可以为日常生活、科学研究等带来的影响和作用，比如ChatGPT使用交互式形式对用户提出的问题提供详细且准确的回答、已成为搜索引擎的有力竞争者、平衡了类似人类的输出与偏差等；其次从底层技术、GPTs发展路径两个方面阐述了ChatGPT发展的技术路线；然后分别从科学写作、教育领域、医疗领域、其他领域四个角度展开对ChatGPT应用场景的介绍，全面评估了ChatGPT应用在新场景中的优势，分析表明ChatGPT已经在不同的学科领域展现出强大的创造能力；最后，从技术限制、滥用、伦理问题、监管政策的角度多维地分析ChatGPT面临的挑战，比如没有情感和主观经验、有可能泄露个人隐私和机密信息、决策过程缺乏透明度等问题，并从不同角度展望未来ChatGPT的发展与改进方向。

在技术层面，将ChatGPT与其他AIGC工具相结合，将有希望打造全能型的ChatGPT；而在非技术层面，通用人工智能（如ChatGPT）在未来有可能对高薪工作构成更大威胁，相关的研究证明ChatGPT已经开发出具有自己意识和意图的能力，从而对人类可能造成危害，所以对通用人工智能的讨论和发展在未来是有很大的不确定性的。

乔羽

A Complete Survey on Generative AI (AIGC):

is ChatGPT from GPT-4 to GPT-5 All You Need?

AIGC是一个快速发展的领域，具有很多潜在的应用，在带来巨大发展机遇的同时也面临着诸多的挑战与问题。乔羽首先从内容需要、技术条件两个角度分析了AIGC变得颇受欢迎的原因并具体分析了AIGC背后的基本技术；其次，从文本生成、图像生成、视频生成等方面具体阐述了AIGC能够解决的特殊化任务，在各类生成任务比如文本生成。近期的工作可以基于自监督模型先在大规模数据集上进行预训练，然后在小的数据上进行微调，该方法可以应用于低资源语言，处理不同的说话风格或噪音条件，以及转录多种语言。他从教育、游戏和元宇宙、媒体、广告、电影、音乐等多个领域展示了AIGC在生活工作中的应用场景及巨大作用，AIGC不仅促进了内容形式的多元化，为观众提供了更好的体验，也让相关从业者的工作更加高效，比如使用AI工具生成多样化的新闻素材，使用写稿机器人提升效率。最后，乔羽也提出了在当下AIGC面临的几大问题，如缺乏可解释性、道德和法律问题、特定领域的技术挑战、需要被更灵活地控制等，这都需要在未来被更多的研究者关注和解决。

机器翻译会自动将文本从一种语言翻译成另一种语言。开创性工作seq2seq首将encoder-decoder RNN结构应用于机器翻译。当句子变长时，Seq2seq的性能会变差，为此提出了一种注意力机制来帮助翻译长句子并增加单词对齐。现在流行的方法是采用预训练的语言模型，比如BERT和GPT，这两种方法能够大大加快文本翻译的速率，并且在准确性方面有较好的保证。