“角色能否脱离人类而鲜活存在?”知名配音员对AI配音提出质疑
《辛普森一家》目前正在福克斯播出第36季,新剧集也在迪士尼+上流媒体播放。除了这部剧,阿扎里亚还曾在《恶搞之家》(Family Guy)、《飞出个未来》(Futurama)和《蜘蛛侠:动画版》(Spider-Man: The Animated Series)等动画节目中担任配音角色。

我可以想象用不了多久,AI人工智能就能重现我在近四十年来为《辛普森一家》中的100多个角色创造的声音,想到这一点就让我很难过,更不用说,AI偷走我的形象或声音——或任何其他人的——这似乎根本就不对。
就我而言,AI人工智能当然可以获取36年来“Moe 莫”这个永远满腹牢骚的酒吧老板的声音。他几乎出现在《辛普森一家》的每一集中,他曾害怕过,恋爱过,头部遭受过撞击,而且大多数时候都处于极度憎恨的状态。到现在为止,我已经以“莫”的身份用几十种方式笑过了,我也可能以“莫”的身份叹过100次气,所以在训练人工智能方面,有很多可供利用的素材。

但声音不仅仅是声响。我想,无论AI版本的莫(Moe)、斯内克(Snake)还是维古姆警长听起来多么像我的声音,总会缺少些什么——那就是人性!在创造声音的过程中融入了我太多的个人特质。计算机怎么能召唤出所有这些呢?
关于配音的一个误解是,它只需要声音。但实际上,我们的身体和灵魂都参与其中,才能达到适当的可信度。当我第一次看到为霍默配音的丹·卡斯特拉内塔(Dan Castellaneta)和为伯恩斯先生以及其他许多角色配音的哈里·谢勒(Harry Shearer)进行配音录制时,他们看起来那么傻,我几乎都感到尴尬了。他们四处跳跃,对着一个麦克风全情表演,却没有人观看,那时我23岁,我也花了一段时间才鼓起勇气这么做。
如果你的角色在跑步,你可以简单地原地跑动。如果你的角色在哭泣,你要流出真实的眼泪,表现出真实的情感。我的很多角色都挥过拳头或者被揍过脸。如果你的角色在挥拳的同时说话,除非你真的挥拳,否则很难假装。有时,我们会拿起道具来帮助我们进入场景的真实感。我扮演过一个嚼雪茄的角色,所以我说话时在嘴里塞了一支荧光笔。
多年来,一直很有趣的是看到那些没有太多配音经验的大电影明星和优秀演员来和我们一起录音。他们一开始不知道,这不能仅仅靠脖子以上的部分来完成。一旦他们意识到这一点,他们的表现就非常出色。我记得曼迪·帕廷金(Mandy Patinkin)和安妮·班克罗夫特(Anne Bancroft)进来后很快就明白了这一点。米克·贾格尔(Mick Jagger)在录音棚上并不害羞,但他也经历了这个过程。他最终明白,你必须全身心地投入,就像对待任何一场表演一样。
声音不仅仅是声音,我在我的角色中投入了太多自我感情。
我们在《辛普森一家》中做的另一件事是即兴创作。当开始对白表演时,会有打断和自然的来回——你不仅仅是在逐行背诵,我很难想象计算机能够模仿这种节奏。
多年来,我为漫画家、弗林克教授、松弛下巴的约克尔克莱图斯、船长和查尔默斯警司等人配音,他们以各种方式被创造出来——模仿名人、朋友、家人。
年轻时我去试镜《辛普森一家》(The Simpsons)时,当时年轻的阿尔·帕西诺(Al Pacino)的电影角色给我留下了深刻的印象,当时我在试镜中要求扮演一个毒贩,说话就像年轻的 Al Pacino 一样。在《辛普森一家》试镜结束后,有人告诉我,“我们喜欢那个声音,但我们希望你把它做得沙哑。我用年轻 Al Pacino的试镜,最终得到了调酒师 Moe的配音工作。
威格姆酋长实际上只是对梅尔·布朗 (Mel Blanc) 的模仿,是爱德华·罗宾逊 (Edward G. Robinson) 的那种夸张印象,我是听着这句话长大的。成为辛普森最令人欣慰的事情之一是,它对伴随着节目长大的孩子们来说似乎与梅尔·布兰克和兔八哥对我所做的一样重要,在他们的童年中提供了类似的安慰和幽默,这种安慰和幽默一直伴随着他们。
AI 能为人类做这件事吗?
任何模仿者或做声音印象的人都已经是某种奇怪的人工智能版本——你存储这些声音,对它们有深入的回忆,并可以重新创造它们。但对于 Wiggum 酋长来说,我并不是直接模仿 Edward G. Robinson,计算机完全可以做到这一点,我正在做一个奇怪的模拟。
在 1996 年的电影《鸟笼》(The Birdcage)中扮演管家阿加多尔 (Agador) 时创造的声音来自我小时候的记忆。我为这个角色选择了两种声音,一个更艰难,就像我在皇后区附近听的波多黎各人一样,另一个则听起来像我的外祖母。
在我家,我们是西班牙-英国双语家庭的西班牙裔犹太人。我的祖母会说五种语言,说英语时有西班牙口音,她也非常有爱心、甜美和女性化,这就是我最终的声音和角色的基础。我不是世界上最有男子气概的家伙,但这个角色对电影中的其他角色非常有母性。我对此没有感同身受,所以我开始想象我祖母会做什么,这一切都对我来说很自然,这不仅仅是听起来像她,正是她的心态和她的感情创造了 Agador 的声音。
如果 AI 试图重现我的一个声音,那么缺乏人性的声音会是什么样子?差异会有多大?老实说,我不知道,但我认为至少在短期内,我们会注意到有些不对劲就足够了,就像我们在低于标准的电影或电视节目中注意到某些不对劲一样。当阐述笨拙、对话很糟糕或角色说了一些不合时宜的话——如果他害怕,为什么会这样说呢?为什么她就这样宣布她的背景故事呢?等等。
如果这些加起来让人觉得我们正在观看的内容不是真实的,你不需要注意它。可信度是通过技艺赢得的,讲好故事和好表演,好摄影和好导演,好剧本和好音乐。
人工智能生成的声音有足够多的小东西失去或变形,让你觉得少了点什么。它就是不那么引人注意或有趣,就像视频中人工智能生成的面孔似乎缺少使它们可信和看起来像人类的元素一样——很多时候,微表情和手势并不完全正确。
或者这可能取决于剧集,伟大的作家不会每次都一炮而红,他们给你很棒的脚本,中等的脚本,不好的脚本。也许人工智能也会如此,我也认识到,在我们这个分心的时代,人们可能无法意识到其中的差异。
AI 可以增强表演的某些方面,当我知道某句台词需要笑声,但我不确定如何得到笑声时,我会尝试不同的事情,我将列出八九种尝试方法,我会做一个疯狂的镜头,一个高兴的镜头,一个悲伤的镜头,一个面无表情的镜头,一个咄咄逼人的镜头,一个真正符合我感受的镜头。很难说哪一个会奏效,但你总是可以在声音编辑中分辨出来。
AI人工智能模型可能不知道什么是有趣的,或者什么是时间,但它可以做一百万种不同的拍摄方式,而且可以告诉它像我一样去做——这可能非常有说服力。
所以,如果让我说实话,我真的有点担心。我的配音工作,是我喜欢做的事情,我不想停止做这件事。现在好莱坞的观点认为,让面孔看起来完全像人的技术还需要五年时间,我担心声音技术也会即将到来。
如果 AI 接管,也许会有一些好处。我非常怀念 Mel Blanc 的老兔八哥表演,我们再也不会得到他们了,但也许有了人工智能,我们可以拥有更多。如果像我这样非常熟悉这个角色微妙之处的人可以通过本质上指导 AI 来帮助重现兔八哥正在做的事情,也许它会特别有效。
我认为我们仍然需要一个在他的思想、心灵和灵魂中知道需要做什么的人。人工智能可以发出声音,但它仍然需要人来表演。计算机会自己理解情感,什么在移动,什么在搞笑吗?现在我们进入了科幻小说——因为我认为,要做到这一点,人工智能必须成为真的活起来。
就配音这一行业具体来论,AI能否取代人类配音?从基本技术层面当然可以。但能将人类复杂的情感和内心通过配音表现出来么?很难想象出AI能行吧。但如果AI配音充斥大部分工作时,还有人在乎配音员情感至深的表演么?这才是真正的问题。
所以,至少让我们尽情享受当下吧,享受在电影院感受真情实感的每一个时刻,以后也许就再也看不到了。
关于“角色能否脱离人类而鲜活存在?及AI配音”等问题欢迎你的想法和留言评论。