技术赋能叙事用AI书写视听艺术的新篇章

来源：光明网2025-05-30 14:07

第四届新视听融合创新创意大赛

技术赋能叙事用AI书写视听艺术的新篇章

　　作者：林卫国（中国传媒大学计算机与网络空间安全学院教授、院长）

　　第四届新视听融合创新创意大赛汇聚了全国各地高校师生、业界从业者与创客团队的热情与智慧。本届赛事技术应用赛道的核心聚焦于生成式人工智能（AIGC）在视频创作领域的最新进展与挑战，参赛者在技术应用与艺术表现之间进行深入探索，为我们呈现了一场技术与创意的盛宴。作为观赛者和评委团队的一员，我深切感受到人工智能正以前所未有的速度改变内容生产方式，而本次大赛则成为检验这一变革成效的重要舞台。

　　近年来，AIGC技术已经从最初的文本与静态图像生成，迅速演进到能够合成短视频甚至中长视频的阶段。底层模型的发展历经GPT、Stable Diffusion等文本与图像生成技术的铺垫，逐步衍生出 Video Diffusion、Temporal GAN以及基于Transformer的视频生成架构。这些模型能够将文字脚本、音乐与运动轨迹协同处理，实现“剧本到屏幕”一体化的创作流程。多模态协同生成成为趋势，创作者只需输入简单描述，系统便能输出初步成片，为后期的细化与润色提供坚实基础。短视频方面，国内外技术已相对成熟，能够在几秒至几十秒的时长内生成连贯且具备视觉冲击力的内容。

　　放眼国际，OpenAI、Meta、Google等科技巨头正不断加码视频生成技术研发。OpenAI推出的Sora平台（前身为 Make-A-Video）在短视频的质量与时长控制上表现突出，其多模态生成技术能够将文本提示转化为与音频节奏相匹配的动态画面。Meta Research发布的Make-A-Scene则更强调场景布局与可视化编辑，允许用户在生成过程中通过图形化界面调整元素位置与远近关系。Google Imagen Video 在运动连续性和超分辨率方面的创新，使得生成的视频具有更高的细节保真度和流畅度。这些前沿成果不仅推动了模型参数规模的大幅扩张，也推动了去噪、时序一致性与细节增强算法的快速迭代。

　　在中国本土，AIGC视频生成技术同样呈现出蓬勃发展势头。字节跳动的“火山引擎”已推出面向短视频的智能合成服务，帮助内容创作者在电商带货、社交媒体营销等场景中快速产出吸睛视频；快手科技打造的“可灵”引擎支持多风格、多主题的短视频自动生成，并通过大规模预训练与微调相结合的方式，不断提升生成质量；腾讯AI Lab推出的“源视”则专注于关键词驱动的场景合成，能够根据用户提供的核心词条快速生成对应的动态画面，满足广告创意与数字化展示的需求；百度文心大模型下的“百川智能视频”解决方案更是将AIGC技术融入工业级制作流程，与传统后期编辑工具实现无缝对接。这些技术在教育培训、品牌宣传、数字营销等领域的应用日益广泛，也为产业化落地提供了丰富案例。

　　尽管短视频生成技术已逐步成熟，但当我们试图将AIGC应用到更长时长的创作中时，依然面临不小挑战。首先，模型对长序列内容的记忆与逻辑连贯性控制能力尚显不足，在生成数分钟甚至十几分钟的中长视频时，常会出现场景跳跃、叙事重复或逻辑断裂等问题；其次，人物一致性难以保证，在不同镜头与视角下，同一角色的面部特征、表情细节、服饰风格甚至肢体动作都可能出现偏差，影响观众的代入感；此外，生成长视频需要极高的算力与存储资源，导致整体制作成本居高不下，尚无法满足商业化大规模生产的需求。可见，长视频生成与人物一致性依旧是制约AIGC大规模应用的关键瓶颈。

　　在观摩本届大赛作品时，我们发现专业评委在评判过程中既关注技术新颖度，也强调“故事为王”的创作理念。评委团队由影视学院教授、行业技术专家以及企业产品负责人组成，他们在评分时不仅考察作品在AIGC技术应用层面的创新程度，更关注能否用生成技术讲好一个有吸引力的故事。专业参赛作品在叙事结构上更为严谨：它们善于通过精心设计的剧情节点与情感曲线引导观众情绪，在短短几十秒或几分钟内完成完整的情节呈现；此外，这些作品对镜头语言的运用也极为考究，长镜头的平稳过渡、快剪的节奏控制、色彩与构图的艺术化处理，都经过了反复推敲，使得AI生成的视频在视觉表现力上不输传统手工剪辑。

　　相比之下，有些创作者的作品虽然创意新颖、题材多样，却往往在叙事连贯性、镜头调度和情感表达等专业层面略显稚嫩。他们常使用AIGC平台提供的默认模板进行创作，但缺乏足够的剧本策划与分镜设计，导致成片在结构上出现断裂或节奏把控失衡。此外，由于对镜头语言与后期调色、配乐等环节不够熟悉，个人作品在整体质感上与专业团队仍存在差距，难以在激烈竞争中脱颖而出。

　　本次大赛的举办让我们深刻认识到，AIGC技术虽然能够极大地降低视频创作门槛，但“技术驾驭”与“艺术表达”之间依然需要找到平衡。要提升作品品质，创作者需要在生成前进行充分的叙事策划与分镜设计，明确每个镜头的情感诉求与视觉意图；在生成后，还要借助传统后期剪辑、调色、配乐等手段，对AI输出素材进行精细化加工，以弥补算法带来的不足；同时，跨领域协作也尤为重要，技术团队需主动与编剧、导演、美术等专业人员紧密配合，共同打造兼具技术创新与艺术感染力的作品。

　　展望未来，随着模型架构的不断优化、算力成本的持续下降，以及专用加速芯片和分布式计算技术的成熟，AIGC在长视频生成与人物一致性方面的瓶颈有望得到缓解。实时交互式生成、虚拟人主演、沉浸式体验等新兴应用场景也将不断涌现，为视听创意提供更多可能。与此同时，创作者对故事与表达的执着追求依然是核心驱动力——唯有将技术与艺术有机融合，才能真正让AI成为讲述人类故事的新伙伴。

　　在这场科技与创意的盛会上，我们看到了一代又一代创作者对未来的无限想象，也感受到AIGC带来的前所未有的创作自由与效率飞跃。第四届新视听融合创新创意大赛不仅是一次比赛，更是一次技术碰撞与理念交流的盛宴，激励我们在不断挑战极限的过程中，开拓视听表达的新天地。期待更多热爱创作的人加入这场变革，共同用AI技术书写视听艺术的新篇章。

阅读剩余全文（）