88384776 发表于 2022-7-27 20:30:23

音乐中的喜怒哀愁— 浅谈「音乐情绪辨识」

音乐中的喜怒哀愁— 浅谈「音乐情绪辨识」
音乐具有感染人心的魔力,而此魔力也正是人们喜欢聆听及创作音乐的主因。音乐可以拉近人与人之间的距离、创造共同的回忆、增加活动或戏剧的气氛、更能轻易地引起我们的喜怒哀愁。热情的歌曲让我们慷慨激昂、悲伤的歌曲说出人们的心伤、悠扬的歌曲则让我们心情平静。对许多人来说,生活中少了音乐,便觉得索然无味。

人们在聆听音乐时感受到的情绪其实受到许多因素影响,除了乐曲本身之外,听者本身的个性、性别、年龄、对于该音乐或歌手的熟悉度、喜好度、聆听时所带有的心情、聆听时周遭的时地物,乃至于听者对于该音乐所持有的回忆等等,都会产生一定程度的影响。也因此,听者所感受到的情绪和作曲家或是歌手想传达的情绪,并不尽然相同。


图一:电影《真善美》(The Sound of Music)中的美妙歌曲是许多人共同的回忆。
但在许多时候,我们可以说人们对于音乐中所要传达的情绪是有共识的。或许在听一首轻快的歌曲时,心情并不因此特别觉得愉悦,但却能够感觉到这首歌一般人听起来应该是会觉得满轻快的。人们对于音乐的情绪具有这样的欣赏力与鉴别力,但电脑却还没有。

本文所要介绍的「音乐情绪辨识」(Music Emotion Recognition),即是在谈如何让电脑像人脑一般,具有辨别音乐情绪的能力。理想中,一个音乐情绪辨识系统能够藉由分析一首歌曲的声波,找出诸如旋律、节奏、音色、歌词等等的特性,从而自动地辨识出这首乐曲所要传达的情绪。就像一台配备「人脸侦测」(Face Detection)的数位相机,能够藉由分析场景内的画面,自动地判断哪些区域具有人脸一样。在资讯科学领域,这样的研究常被称为样式辨认或是图形辨认(Pattern Recognition)。


图形辨认的发展与人们想让电脑能够更有智慧地理解图像、声音有密不可分的关系。传统上认为,电脑与人脑相比较,电脑强于记忆和计算,不仅能够储存大量的资料,更具有强大的运算能力,但是,电脑却没办法像人脑一样理解这些资料的内容与意涵。电脑能够知道一张图片中那个区域的颜色最蓝,但却没办法判断究竟是蓝天或是大海;电脑能够知道一段声音档中哪个片段的音量最大声,但却没办法判断这个片段究竟是人声、乐器声、还是爆炸声。然而,随着近来图形辨认与相关科技的发展,电脑在理解多媒体资料内涵的能力上已有许多进步,电脑与人脑之间的差距也逐渐在缩小,自动化地辨识音乐情绪即是一例。

为什么要做音乐情绪辨识?
音乐与情绪有密不可分的关系,自古以来便有许多不同学门的学者在探究音乐与情绪的关系,包含哲学家、社会学家、音乐学家、人类学家、神经科学家、音乐治疗学家等,但资讯领域真正大量投入人力研究自动化音乐情绪辨识系统,却要迟至21 世纪初期。因此,音乐情绪辨识仍是个还非常新的概念与研究领域。

音乐情绪辨识的兴起,主要是源于数位化时代的来临,MP3 压缩技术以及硬碟储存能力长足的发展,储存媒体不仅空间越来越大、价格也越压越低,人们能轻而易举地在个人电脑或是行动装置上储存成千上万首的歌曲,可是如何在那么庞大的音乐库中找到想听的歌曲,就成了个很棘手且重要的问题。

传统上,一般使用者还是习惯将歌曲以歌手名称、专辑名称等分资料夹存放,就如同一片片的光碟一样。使用者想要听歌的时候,必须在资料夹间浏览,选取自己想要聆听的专辑,或是从许多不同专辑中挑出部分歌曲。较为进阶的使用者会将不同专辑的歌曲组合、储存成播放清单,作为一种简单的捷径,在不同的时机挑选不同的播放清单来听。


然而,手动地挑歌是非常耗费时间的行为,播放清单的使用也造成只有少数部分的歌曲被反覆地聆听,大多数的歌曲其实很少会被使用者给选到,降低了音乐库实质上的丰富性。况且,在许多时候使用者并不清楚或不愿意选择要听哪些歌曲,而只想跟着当下的情绪或是情境,聆听符合那种感觉的歌曲。比如说,无聊的时候想要听点比较会让人亢奋的音乐、专心念书或是工作的时候想要听点优雅安静的音乐。这样的需求必须透过音乐情绪辨识的帮助,深入分析音乐的内容及情绪,方才能够被满足。

有了音乐情绪辨识系统,使用者可以以情绪为索引来找寻歌曲。比如说,使用者可以指定特定的情绪,要求系统回传带有这一类情绪的歌曲;使用者也可以指定一系列的情绪,例如说从平静到亢奋再回归平静,从而产生一个音乐播放清单,其中歌曲情绪的变化便随着使用者的设定。这样的检索方式不但便利、有趣,也更加的人性化。


图二:那么多歌曲,到底那些适合现在的心情播放呢?
除了让使用者选择音乐的情绪之外,结合现有的科技也可以让电脑根据使用者的心情、状态「主动地」推荐。例如一个智慧型的空间,比如说客厅或是汽车内,可以透过摄影机或是麦克风捕捉使用者的表情、动作、音量等的资讯,从这些资讯中判断使用者当前的心情,再主动地推荐符合该心情的歌曲。

一个智慧型手机或是音乐播放器也可结合当时的时间、地点或是一些感测器搜集到的资料,判断当时使用者可能在从事怎样的活动, 比如说起床、运动、工作或通勤等,借此来推荐适当的歌曲。有了音乐情绪辨识,音乐将能更深入日常生活中,丰富我们的生活。


情绪标定
音乐情绪辨识本身是个跨领域的研究,同时会需要心理学、音乐学及资讯科学的知识。由于音乐情绪辨识关切的是人对于音乐的感受,因此也可以说是一个艺术与科学的交会点。

就像我们教小孩子认字一样,我们会使用许许多多的范例,教导小孩子说这个字是1 、那个字是2 。小孩子会透过这些范例慢慢学习到,一条线直直下来的图形是1 、两个圆圈叠在一起的图形是8⋯⋯。同样地,要教电脑辨识音乐中的情绪,也需要先准备一个标定好的资料库,在这个资料库里面,我们很明确的知道哪些歌是属于快乐的情绪、哪些歌是属于悲伤的情绪,如此一来,电脑方能利用这些资料来找出各种音乐的特征与情绪的关系,分析出具有怎样特性的音乐会引起怎样的情绪。就像是有个老师在旁边给小孩子许多范例,教导她学习,这样的过程也被称之为监督式学习(Supervised Learning),而不是盲人摸象,没有提供任何训练资料就要电脑做判断。

音乐情绪资料库的建立关系到心理学「实验设计」的理论。由于情绪的感受没有客观的答案,因此通常还需要邀请一些受测者来替歌曲作情绪的标定。这些标定会被当成是歌曲情绪的「标准答案」。电脑会被要求能够像人类受测者一样准确地判断出这些歌曲的情绪。

由于情绪受到听者个性、性别与年龄等等的影响,因此必须让不只一位的受测者听我们所选定的音乐,并记录这些受测者聆听之后所感受到的歌曲情绪。如果一首歌曲的情绪无法取得多数人的共识,那代表所要传达的情绪是比较模糊的,或许就不适宜纳入资料库内。使用者的选定必须均衡,例如一半是男生、一半是女生,背景皆固定为大学院校中的学生等;歌曲的选定则必须多元,我们希望资料库里包含的音乐尽量越丰富越好,能涵盖各种不同类别、不同情绪的音乐,如此资料库才能具有代表性。另外,也需要注意实验设计不能给受测者太多的负担,且标定情绪的过程要明确且统一,例如,究竟是要以音乐旋律所传达的情绪为准,还是以歌词为准,或是两者皆考虑?这些因素皆必须仔细考虑并设计,否则可能会影响标准答案的品质,进而限制了情绪辨识的可学习性。


情绪运算
有了标准答案之后,我们还必须用到数位信号处理的技术,结合音乐学的知识和图形辨认的技术,分析音乐信号的特征,方能将音乐的特征与音乐的情绪做连结。


图三:美国杨百翰大学研究,幼儿能够分辨音乐为快乐或悲伤。
那些音乐的特征会跟情绪有关呢?我们不难猜到,情绪的亢奋与否和歌曲的音量大小、节奏快慢、音调高低与音色是否明亮有关;情绪是快乐或悲伤则可以从乐曲是大调或是小调、音色是否和谐顺畅有关。虽然这些资讯都可以在乐谱中得到,但在实际的情况中,许多时候我们只有音乐信号,并没有相对应的乐谱。再加上以现代的科技而言,电脑还没办法像受过音乐训练的人脑一样,精准地将歌曲的乐谱从声波中还原出来,电脑能够做到的,是透过数位信号处理的技术,尽量去估测出这些音乐特征的值,例如估测一首歌一分钟大约会有几个拍子、或是估测一首歌音高的分布情形等。由于电脑尚无法精确地以音乐的语言来描述音乐,只能透过一些统计值及的准确率也因而受到影响。


图四:在电影《K歌情人》中,男主角以真挚恳切的词曲挽回女主角的心。
音乐特征的分析本身亦是一门很大的学问,世界上还有许多科学家正努力研究更好的演算法来提升分析的效能。这类型的研究被统称为「音乐资料检索」(Music Information Retrieval)。自从2000 年开始,每年都会举办一个国际性的音乐资料检索学术研讨会(International Society Conference on Music Information Retrieval, http://www.ismir.net/),让世界各地的音乐资料检索学家一同分享与讨论研究,并有各式各样的比赛比较各种音乐分析演算法的优劣。音乐资料检索学家关注的题目很多,包含弦律辨识、和弦侦测、音色分类、自动转谱、人声与乐器声分离、音乐指纹、音乐序列比较、音乐推荐、音乐资料库管理等。国内许多大专院校与中研院,也都有设立专门研究音乐的实验室。这些研究除了能增进我们对音乐的认识,也能够帮助使用者更有效率地管理并检索音乐。

另一个分析音乐情绪的方法是透过歌词语意的分析。许多人认为,相较于歌词,音乐信号对于情绪的感染力还是比较强,主要是因为人们依然可以从外国歌曲或是纯音乐中辨认出适当的情绪。但是许多研究指出,引进歌词资讯仍然有助于提升音乐情绪辨识的准确率。主要的原因是因为歌词中有许多强烈与情绪相关的关键字,比如说「分手」、「谎言」、「安慰」、「幸福」等,这些关键字可以很容易地被辨认出来并用来估量歌曲的情绪。


歌词分析的困难点在于现今的语音科技仍然无法准确地从声音信号中辨识出歌词,因此必须假设歌曲的歌词是可以在网路上下载下来进行分析,但对于许多歌曲,尤其是比较冷门或是早期的歌曲,这样的假设并不成立。

无论是透过音乐信号分析或是歌词分析,甚至是两者的结合,我们都能运用图形辨认的技术,找出若干音乐与情绪之间的对应关系。如此一来,对于没有经过受测者标定过的歌曲,依然可以应用这些学到的对应关系,来猜测歌曲中内涵的情绪,进而将每一首歌曲的情绪辨识出来,供使用者端的应用程式使用。

除了上述的流程之外,我们也可以在情绪辨识系统里加入一些个人化的功能,让情绪辨识系统可以根据使用者的喜好有不同的反应。毕竟情绪的感知是很主观的,能做好个人化的部分可以让音乐情绪辨识更加地实用。

结语
有人说,音乐之所以那么迷人,是因为她那不可捉摸、触人心弦的魔力,这魔力没办法用任何公式或是语言来描述。或许,我们永远没办法、也没有必要,去破解为何音乐能够如此轻易地引起我们的喜、怒、哀、愁,但或许我们能够让电脑学会去欣赏音乐的美,进而让音乐的美更加充斥在我们的日常生活中。
页: [1]
查看完整版本: 音乐中的喜怒哀愁— 浅谈「音乐情绪辨识」