全自动漫画产生系统能让任何电影及剧集变漫画

近年来,随着计算机科学得到飞速发展,科学家们不断取得新的技术突破,尤其是随着机器学习的迅猛发展,各种各样的运算模型被创造出来,比如可以自动产生文本、图像和其他类型数据的运算模型。这些模型相较于传统运算模型,在创建对人类手工制作要求高、耗时长的数据或创意作品时,表现出了很大的优势。

例如,在人工智能领域不断涌现出一批具有超凡本领的创作机器人,有自动创作水墨画的“艺术家”,自动写作诗歌的 “文学作家”,自动产生联考作文的 “考试小能手”,经过大量的经验训练,这些运算模型甚至拥有了过人的创作力。

而今,来自大连理工大学和香港城市大学的研究人员在自动创作领域又做出了新成果,该团队联合创建出了一个可以自动产生漫画书的新型系统,该系统通过从电视剧、电影、动画或其他视频中提取数据,进而创作漫画书。

arXiv网页。论文PDF相关研究以 “Automatic Comic Generation with Stylistic Multi-page Layouts and Emotion-driven Text Balloon Generation” 为题,发布在arXiv预印本平台上。

研究人员在论文中写道:“我们提出一个全自动系统,从任意类型的视频(电视连续剧、电影、卡通剧)产生漫画书。我们的系统不需要用户的任何手动输入,可以产生高品质的漫画页面,具有丰富的视觉效果和富有表现力的故事。”

漫画是一种艺术形式,一种用简单而夸张的手法来描绘生活或时事的图画。漫画的创作过程往往需要经历选题、搜集素材、搭建分镜草稿和编辑调整沟通等一系列过程,漫画书的创作不仅需要精湛的专业技术,更需要丰富的内容素材和大量的创作精力,通常非专业人士很难制作出自己的漫画书。

在网络如此发展迅速的当今,网上每天有成千上万的短片发布出来,结合漫画便捷的阅读形式和出色的故事描述技术,人们不禁会想象是否可以将这些视频自动转换为具有丰富的视觉效果和出色的叙事能力的高品质漫画书?

近年来,由视频产生漫画的相关技术取得了一定的进展,但所创建的模型大多不是全自动的,产生的漫画作品要么需要额外的用户输入,要么使用简化的表示形式或方法进行漫画页布局,进而导致整个漫画效果缺乏视觉多样性和表现力。

该最新研究解决了通过算法在页面之间分配所选关键影格,然后在每个页面漫画风格的布局上组织关键影格的问题。研究人员采用一种数据驱动的布局方法,从漫画数据中学习布局样式,通过自动从关键影格中提取系统的输入来扩展他们的方法,因此无需任何形式的用户输入,即可实现布局框架的完全自动化。

该系统的整体设计流程。 (a)关键影格提取和风格化;(b)自动多页布局框架(红色、紫色和绿色虚线框表示不同的组);(c)对话气球的产生和放置。图片来源:论文

研究人员还设计了一种数据驱动的情绪感知气球产生模型,该模型可以产生不同的气球形状,并根据字幕和音频的情感动态调整字体大小。然后,通过检测谁在讲话以及讲话者嘴巴的位置,将产生的气球放置在正确的位置。

该研究所创建的框架并不像大多数漫画产生框架那样,总是使用同一种类型的语音气球,而是产生不同类型的气球,以反映人物话语所传达的情感。为了做到这一点,对于给定一个输入视频片段,研究人员首先尝试通过分析视频获得对应的音频和相应的字幕,然后对字幕和音频进行情感分析,来把握不同的对话台词所传达的情感。

之后,模型根据人物所传达的情感,创造出形状和文本大小各异的对话气球。这极大地改善了整体漫画阅读体验,产生了更吸引人的布局,也反映了不同角色之间的对话内容。

不同情感的对话气球产生过程(Emotion -aware Balloon Generation)图片来源:论文为了实现系统产生的语音气球可以被放置在正在说话的角色附近,该模型首先检测视频中不同的说话者,然后在他们的附近放置与他们所表达的情绪一致的语音气球。

对话者检测流程。图片来源:论文

为了允许用户对产生的结果进行某种程度的控制,研究人员构建了一个用户友好的接口,来向用户施加约束,以构建更多个性化的设计,并优化结果。研究表明,该用户接口可以节省用户时间,同时提供更多的创建自由。

在从视频中提取关键影格并将其转化为漫画风格的图像后,研究人员设计的系统使用多页布局框架将图像分布在多个页面上,并创建出具有视觉吸引力的布局,以反映图像之间的关系。

研究人员表示:“该系统在无需任何人工干预的前提下,给定一个输入视频及其字幕,首先通过分析字幕提取消息关键影格,然后将关键影格图像转化为漫画风格的图像。”

研究人员通过一系列实验,评估了他们所设计的系统及各个模块,并选择四部电影《泰坦尼克号》(Titanic)、《风声》、 《老友记》(Friends)和 《型男飞行日志》(Up in the Air)和系列片中提取的16个长短为2至6分钟不等的视频片段,使用该系统与当前最先进的漫画产生系统“Content-Aware Video2Comics” 分别产生漫画,并就漫画品质进行对比分析。

该系统与一个名为“Content- Aware Video2Comics”的系统在漫画产生效果上的比较。 (a)图-(d)图是该研究的产生效果;(e)图-(h)图为“Content-Aware Video2Comics”系统的产生效果。图片来源:论文对比发现,该系统的漫画产生效果要优于其他系统,不仅能够产生更丰富的气球形状,还可以利用文本摘要来整合一些相关的字幕,以确保单词气球句子长度适中,关键是可以实现全自动多页布局,其布局效果合理、丰富。

该研究团队还招募了40位用户,让他们观看视频后阅读系统产生的漫画,并围绕漫画的整体效果、对话气球品质、布局品质、故事讲述效果、阅读体验等指标,对系统所产生的漫画与另一种漫画产生系统所制作的漫画进行了对比评价。绝大多数参与这项研究的用户表示,与之前开发的系统相比,他们更喜欢研究人员的模型所制作的版面。

用户评估结果图,纵轴表示每个问题的平均评分,横轴表示视频编号(图中蓝色条形柱表示“Content-Aware Video2Comics”系统的评分,橙色表示该系统的评分)。图片来源:论文研究人员表示:“我们的实验表明,与最先进的漫画产生系统相比,我们的系统可以合成更具表现力和吸引力的漫画。”

不过,虽然该系统已经被证明取得了可喜的结果,但它仍存在一定的局限。

例如,关键影格的选择不够准确,在某些情况下,所选择的关键影格彼此相似,无疑会给产生的漫画带来多余消息。

研究人员表示,一旦系统后续被更加完善,该漫画产生系统即可用来自动创建基于电影、电视剧或其他视频内容的漫画书。在后续的研究中,研究人员还计划开发一种可替代的关键影格选择模块,以此来提高系统产生的漫画布局品质,减少关键影格的冗余。

“更重要的是,受到许多现有方法的启发,这些方法可以根据所给定的含有多个句子的故事来产生图像串行,有可能从文本故事中产生漫画书,我们有兴趣将我们的方法扩展到利用文本消息来帮助产生漫画。”研究人员在论文中总结道。