情感计算
5346字
2021-02-22 06:35
11阅读
火星译客

第一部分:简介

人类行为与情感直接成正比关系。随着科技进步,人机交互和情感计算在判断复杂的人类行为方面起到重要作用。人类行为分析领域集中在社会行为的建模和分析,及如何影响诸如面部、动作、声音和生理信号等方面的识别。这种行为可以是微观的,在很短的时间内发生,也可以对其进行进一步分析。微观行为的不同类型包括眨眼、打哈欠、快速动作。宏观行为是人类通常可以领会且容易辨认的模式。人类行为识别不仅局限于一个人的生理信号,而且还包括他在网上发布的文章、博客和社交网站的内容。如今,情感计算日益得到研究情感和和行为识别的研究者的关注。

行为检测的重要线索包括演讲、行为、面部表情和生理信号。情感计算利用软件和硬件技术,确定人类的情感状态。人类情感状态结合了生理信号和引起人类行为的心理信号。人类基本的情感,比如生气、高兴、厌恶、惊讶、恐惧和悲伤等,都可以识别,也可以使用情感计算进行分析。一个多种形式的基本人类行为检测框架在图1中显示。

本文的主要目的是综述今年来人类行为识别领域的研究进程。本文基于不同的线索注重介绍了行为检测的线索、技术和方法。本文的主要贡献包括了通过情感计算检测人类行为领域的最新论文的调查。

第二部分:行为检测的线索和方法

在这一部分,本文将讨论用于行为检测的不同线索和不同方法。

A.生物信号

每一种人类行为都有两个维度的特征,第一个维度是唤醒维度第二个维度是效价维度,唤醒维度是衡量情感强度的维度,效价维是衡量人们情绪的积极和消极状况。自主神经系统负责控制人体的心率、呼吸、消化、觉醒等功能。这些人体信号可以进一步用于检测人类的行为。

脑电图(EEG)信号:随着传感技术的普及和移动计算技术的发展,生理信号的连续监测也已经成为了可能。为了监测人类行为或情绪,系统可以将一系列生物信号作为输入数据,然后输出不同的情绪状况。这包括了双极脑电图信号的分析,主要是光学体积的描记信号以及大脑侧化。作者提出的深层生理影响网络,主要有两个组成部分:1,生理信号特征提取。2,长短时记忆网络(LSTM)和基于边缘的分类。DEAP多模态数据集已用于情绪分析,它是由32名参与者的样本生成的。他们用朴素贝叶斯分类器作为基线分类器。数据集中的视频分为非常喜欢、不太喜欢、兴奋和价态。朴素贝叶斯分类器的分类精度为67.7%。蔡等人提出了一种利用3个电极脑电图仪采集脑电图数据的方法,这种方法选择k近邻分类器对采集到的数据进行分类。研究人员用不同的声音从国际情感数字化声音-2中选择了5种不同的声音片段。数据收集自86例抑郁症患者和92例正常患者的403个样本。采用高通滤波器对采集到的脑电图信号进行预处理,然后去除截断频率和低频漂移。采用k近邻分类算法对数据进行分类。在该模型中,用槽和边框架表示实例,利用欧几里得距离计算相似度测度。

心率:心率信号、心电图有助于检测人类的焦虑行为。焦虑是一种消极情绪,它会影响一个人的心脏和社会活动。社交焦虑的生理症状包括心悸、发抖、出汗等。Wen et al.等人在[6]中提出了一种识别人类因公开演讲而产生的社交焦虑的模型。该模型有两轮实验设置,第一轮由特里尔社会压力测试协议组成,观众人数增加,第二轮除观众在场外,程序相同。这个过程从心电信号的收集和处理开始。在心电信号处理中,利用R峰定位算法从心电数据中提取搏动间隔(IBI)序列,然后用R峰定位算法对其进行人工校正。在特征提取阶段,计算局部赫斯特指数的心跳特征和范围。在所有12个特征提取。采用SVM分类器对采集到的数据进行分类验证,分类准确率82%。在[7]中,研究人员提出了一种方法来识别由心率变异性的情感声音引起的人类情感。从国际情感数字化音响系统中收集心脏的情感声音,将其组合成四个层次的唤醒和两个层次的价态。

呼吸信号:呼吸模式包含丰富的人类情感信息。每个人的呼吸深度和速度因不同的情绪而有所不同。例如,快速和深呼吸表示兴奋,这有可能是由焦虑、快乐或愤怒的情绪引起的。[8]中作者提出的唤起效价情绪理论认为,人的情绪状态分布在唤醒和效价两个维度上,x轴为效价,y轴为唤起。深度学习框架用于从呼吸数据中识别情绪。在深度学习框架下使用的方法包括稀疏自编码和逻辑回归。作者利用德国奥格斯堡大学的两个数据集进行了实验,分别用生理信号(DEAP)和情感数据库进行情感分析。DEAP数据集包含32名参与者的自然反应,参与者的年龄从19岁到37岁不等。提出的深度学习框架在第一隐层200个神经元,在第二隐层有50个神经元,学习速度为0.01。该框架的唤醒分类准确率为85.89%,效价分类准确率为83.722%。四种情绪的平均准确率为80.22%。

B面部表情:

检测抑郁症等行为的临床过程广泛且耗时,需要专业医生。面部表情和外表在抑郁症的检测中起着重要的作用。在[9]Zhou等人提出了一个名为DepressNet的模型,它是一种利用视觉表征来了解抑郁症的多区域方法。深度CNN和一个额外的全球平均池层被训练用于面部表情,这是后来用于抑郁症检测。利用卷积神经网络进行特征提取和预测输出。它使用多层神经网络进行深度学习。该方法从视频中提取一个人的一组图像,对其进行处理并预测输出。首先,利用中国科学院(CASIA)的网络人脸数据集对深度残差网络进行人脸识别训练。网络的softmax层被回归输出层替换,回归输出层又连接到全局平均池(GAP)层。采用抑郁激活图对其进行识别。

在压力网中,通过多个局部深度模型同时识别面部的不同区域,从而提高整体面部识别的能力。用于测试目的实例都来自2013年和2014年AVEC资料组。实验机构设置中包括人眼检测和视频帧中用于研究面部检测的工具包。将每个检测到的图像尺寸调整为224*224,才可以输入压力网。具有大批量32大小的图形处理器,学习速率达0.001,迭代次数达100000的深度神经网络测试成功。

C. 说话和姿态

类似压力过大这样的行为会产生令人讨厌的攻击性、给人带来痛苦等。因此,是否可以在初期阶段就检测到压力的产生这一点非常重要。人通过各种手势、变换语调来表达他的情绪和压力。一些非语言的标志,如手势、面部表情、姿势和交流中使用的肢体语言传递释放压力。 在[10] Lefter et al提出了两种观点,其中第一个观点讨论了人类的表情和压力的感知,另一个侧重于通过音频和视频自动进行压力识别。提出的方法有两个模型,第一个模型用于压力表达和感知。它处理的是这个人使用的词语的语义和他说话时的手势。

该模型的四个主要组成部分包括语音语义应力、语音调制应力、手势语义应力和手势调制应力。第二个模型是基于使用中间变量自动检测应力。它是一个如图2所示的三层框架,称为基线模型,以音频/视频信号为输入,然后进行低层特征提取、中层特征提取,最后进行高层特征检测。实验结果表明,音频特征比视频特征具有更好的应力预测性能。

D.文本数据

如今,人们使用网页博客、电子公告板、社交媒体和微博来表达自己的想法和情感。这是探测人类行为的线索之一。研究者调查过大量的网页文章后发现,遇到负面事件的人会表现出消极情绪,而这种消极情绪反过来又会产生负面想法。作者曾提出一种增强事件的提取方法来自动提取负面情绪,即从网络帖子中提取负面事件。同时,他们还曾提出一种“事件驱动”的抑郁倾向警告模型,用来预测人的抑郁倾向。基本方法包括自然语言处理、文本挖掘和信息检索。经过分析,每一篇网页文章都包括四类消极情况,比如:消极情绪、消极事件、消极征兆和消极想法。为了从文章中提取负面情绪,使用了词的n-gram模型。n-gram模型使用一元、二元和三元模型从文本中手动提取负面事件。提出的增强事件提取方法主要分为三个功能:事件术语特征、言语模式的事件部分和事件情感对功能。所使用的数据集包含在6个月内收集的18000篇中文网络文章。通过增强的事件驱动预警模型得到结果的准确性还存在一些问题。在分析小型网络帖子时,这种方法有一定的局限性。

第三部分、数据库和数据采集设备

Biosemi ActiveTwo 是一种具有快速应用时间的脑电信号采集系统。它还可以用于心电数据的采集。硬件配置包括256个电极,7个传感器通道,且每个通道中包含24位模拟数字转换器。这种便携式设备通过有线方式连接,信噪比较高。这种设备非常昂贵,大约需要17,000欧元。Emotiv Epoc Plus 是一款拥有14个通道、无线连接和运动传感器的大脑感应设备。 它可以兼容Android,Windows,iOS和Linux等系统平台。其他特征包括面部表情检测,如眨眼、使眼色、惊讶、皱眉、微笑、紧握和大笑。这个装置的成本是799美元。 Shimmer 3是心电图传感器开发工具包,能提供所需的支持以重新搜索。该设备有几个版本,从shinmer3 ECG x1到Shimmer ECG x13。每个版本的硬件配置都不同。基本硬件配置为5x18生物物理导联和50xecg电极。 该设备售价为554欧元。Biopac mp150是一个数据采集系统,与bionompadix PPGED-R结合使用来采集 PPG 数据[16],是一个无线系统,射频频率为2.4 GHz,且内置加速度计。

第四部分、运用有效计算的行为认知方式

接下来讨论的方法用于行为认知,这些方法也能用于分类、实施预测和推荐系统。

A.朴素贝叶斯分类算法

朴素贝叶斯分类器是基于贝叶斯定理,是一个集合的分类算法。它用于监督式学习和情况下的输入模式较大。在行为识别方面,它可以用于手势识别。这是一种快速有效的分类方法。朴素贝叶斯分类器运行基于条件概论。在贝叶斯分类器中,通过方程 p (t | bi) p (t) p (bi | t)给出未知实例 bi { bi1,... ,bin }的每个 t 的概率。朴素贝叶斯分类器采用完整的视频或视频序列作为手势识别的输入。通过基本训练过程估计必要概率。手势识别一开始就假设我们知道手势的起点。该过程继续从每个序列中提取代码词并确定手势。

B.K最邻近分类算法

K最邻近分类算法是众多研究人员在数据分类时使用的最简单的方式之一。这种算法类似于人们回忆往事,利用往事做新决定。许多研究人员一直,利用脑电图学数据,使用KNN算法探测人类的抑郁情感。首先利用Emotive EPOC+设备,获取脑电图信号。每一已获信号将使用V形槽口和高带通滤波器,随后从信号中革除噪音将它常化处理。提取的数据根据所要求的级别进行训练。通常使用欧式距离公式计算距离和区分数据。

C.支持向量机 (SVM)

在探测人类行为,比如愤怒情绪时,支持向量机基于其他分类算法可用来分类数据。支持向量机可基于提取特征区分面部表情。支持向量机具备不同的核心函数,比如多项式核函数,线性核函数和径向核函数。支持向量机利用很少的数据能够解决非线性问题。这次试验基于JAFFE数据库。JAFFE数据库包含10位日本籍女性的213张照片。图像特征提取分为两步,第一步:塑造特征提取,第二步:面部特征提取。在第一步中,使用了点追踪器检测58个关键点。针对面部表情识别,线性和径向核函数行之有效。

D.深度学习

从人工神经网络(ANN)到深度神经网络(DNN):随着感知器的诞生,这一切始于20世纪60年代。感知器是人工神经网络的基本单元,其将加权输入进一步求和以触发激活功能。多层感知器与隐藏层一起形成人工神经网络,而具有多个隐藏层的神经网络形成深层神经网络。图3给出了ANN和DNN之间的基本差异。

行为识别的最新趋势之一即情绪检测是一种情感深层网络。深层网络的基础是人工神经网络,一种具有最大神经元数量的神经网络,具有自动特征提取的复杂连接网络。

深度信念网络(DBN):深度信念网络是受限制的波尔兹曼机器(RBM)的集合,用于预训练和微调阶段。DBN用于从原始输入向量中提取高级特征。RBM帮助DBN使用无监督学习来学习数据集的高级属性。 RBM的预训练阶段以无人监督的方式自动学习特征。RBM中用于学习过程的算法是1.梯度方法2.Constrastive Divergence。受限玻尔兹曼机的训练,使用原始数据和受限玻尔兹曼机参数作为输入,然后使用合适的分类器来微调网络。以下是深度信念网络训练中的步骤,1、初始化深度信念网络和受限玻尔兹曼机层。2、通过非监督学习,进行权重矩阵训练和向量偏置训练。3、选择参数和分类器。4.

卷积神经网络(CNN):卷积神经网络能有效进行图像处理,这是研究者在行为识别领域更偏好使用它的主要原因之一。卷积神经网络还可用于情感分析、机器翻译分类和数据回归。多层神经网络无法处理图像数据,因为人工神经网络不能与2维图像数据一起扩展。卷积神经网络的一般架构如图4 微调网络。

输入层以(宽*高*颜色通道)的形式接受三维输入图像。每个图像在传递到卷积层之前需要转换为可接受的形式。卷积层有助于选出我们试图关注的图像特征。卷积层有多种类型,如[24],如平铺层、扩张层、转置模块和初始模型。线性整流函数(ReLU)是一个激活函数,方程为f(h)= max(h,0)。当h值为正时,它会被激活,否则输出为零。池化层在连续的卷积层之间穿插,以减小数据的空间大小。而这种池化层使用的max函数调整数据大小,称为max池化。利用卷积神经网络进行人脸识别,取得了显著的效果。CNN还可以处理MRI数据、NLP应用、三维图像数据和图形数据。

递归神经网络(RNN):前馈网络不能用于预测下一个可能的输出,如在自然语言处理中预测下一个可能的单词,语音识别等。RNN为这类应用程序提供了强大的支持。RNN结构如图5所示。

将递归神经网络与长短时记忆(LSTM)相结合,取得了较好的效果。LSTM以较好的值反向传播和较好的方程更新而闻名。表2[25]总结了深度学习下的不同架构。

图6中的图显示了使用深度学习架构进行行为检测时分类的准确性。

第五部分:行为线索与方法

表格3讨论了行为线索和可能进行数据处理和分类的方法。

第六部分:结论

本次调查的主要贡献在于回顾使用情感计算的行为识别的最新趋势。我们已经讨论了有效识别人类行为和情绪的不同行为线索和方法。本文还讨论了可用于情感计算的不同方法如:深度学习,支持向量机,最近相邻法分析和朴素贝叶斯分类器等。基于大数据集的准确性和有效性,深度学习方法更适合于情感计算领域。行为识别和分析的未来趋势是采用多模式方法并有效使用深度学习方法来优化结果。基于多模式融合方法的情感障碍检测将仍是本调查论文的研究领域。

第一部分:引言

随着中国经济的发展,人民生活水平的提高,我们的注意力从生活中的物质层面转移到了精神层面,特别是我们的社区,家长,学校,社区,国家,越来越重视人们的心理健康教育。调查显示,每500个人中就会有1人患有孤独症,这是一种综合性的精神障碍,涉及心理学,神经学,社会学等多方面,但是具体的原因尚不明确。具体表现为:对人缺乏情感反应,严重影响社会交往;语言及非语言交际和想象活动严重减少;刻板,重复或仪式化的行为严重限制了他们的活动。他们在面临情感问题时,会感到困惑,无法识别他人的情感,无法正常表达情感以及产生情感共鸣。对于年轻人因缺乏情商而喜欢独处这一社会现象来说,作者试图将情感计算这一概念引入人机对话领域,让孩子可以进行正常的情感交流,通过在电脑上建立一个“孤独症”的空间氛围来帮助孩子,这会形成一个充满情感和温暖的良好的精神健康系统。

第二部分. 孤独症的特点和情感需求

孤独症患者通常记忆力突出,但因为他们缺少情感智力,特别是情感共鸣,所以他们中的大多数人在情感理解方面存在困难,不善于与人交往。孤独症的症状之一就是保持固定的生活方式,并需要慢慢适应。

戈尔曼认为这是人类智力情感能力的重要指标。但人是社会产物,它不是独立的,从情感社会学的角度来看,它是情感,文化和社会结构的生物学基础相互作用的结果。孤独症患者习惯于沉浸在自己的世界中,从情感进化的角度出发,对人类情感本身的基本假设,通过环境可以产生情感表达的多种唤醒形式,使人们紧密相连,促进社会团结,产生社会责任的形式。

正如说指出的那样,或许这是帮助患有自闭症孩子的一种有效方式。因为这种方式能让这些孩子以及其他情商极高的人待在一起,重复处理多种情况,帮助他们学会理解并做出回应。然而,这总能让人感到无聊,然后才是耐心。但情感计算能评估情感基础理论,所以可以用计算机用于多种情感场景。能有效地引导用户更好地明白自闭症如何在社交中反映其技能,并能对人类情感作出认同和回应。这样,当人们使用计算机时,就降低了沮丧感,甚至能让人们在情感世界里认识他们自己以及其他人。

第三部分、情感计算人机对话的可行性

A.情感计算的研究

不管计算机时候否能够专注于情感,事实是,它是由美国麻省理工大学的明斯基教授发明的。根据他1985年的一篇专论,他认为计算机应该具备情感能力。他在他的专著中提到,问题不在于智能机器是否拥有情感,而是没有情感的机器如何智能。从此以后,该问题的焦点转向计算机领域的情感问题。情感计算由麻省理工学院媒体实验室首次提出并给出定义,由皮卡德教授领导的美国研究小组是第一个开始研究的。皮卡德教授在其出版的专著《情感计算》中首先给出了一个定义:情感计算是关于情感、情感和情感影响方面的计算。

当前的计算机主要是基于逻辑推理系统,这种系统忽视了情感能力的作用。达马西奥认为,在人的情感感知能力中,规划、推理、学习、记忆、决策和创造性发挥着很重要的作用。因此,在人机交互中,人们自然期望计算机也具有这种情感能力。目前的研究重点是情感计算,它是通过各种传感器所造成的对人类情感的生理和行为特征信号,建立情感模型,创建一个感知、识别和理解人类的情感和感觉的能力,能为用户做一个智能、灵敏、友好的响应个人电脑系统。目前,我们在面部识别,手势分析,话语识别和情感表达方面取得了进步。情感计算研究会继续加深对人类情感状态的理解,文本感知提升了计算机的性能,使得计算机变得越来越智能,并且能够同人类进行自然热烈,生动有趣的智能互动。

B.人造机器对话的特点及在情感方面的不足

人造机器对话的特点是人机交互的一种形式。它的一大显著特征是,基于对话与持续学习,以及反应目标,使用沉浸式人机交互方式去选择不同的模拟场景,进而实现强化作用。基于人机对话的环境下,对心理轨迹条件变化的认识往往被忽视。当学习者不能理解和接受学习内容时,就会产生焦虑、不愉快、可怕的情绪。因此,在基于计算机的环境下去跟踪情绪状态是必要的,尤其信息技术的飞速发展,使得人机对话不断发生变化。

C.情感计算与人机对话的结合有助于情感自闭症的可行性分析

当学生学习不好时,我们应该调整教学策略。我们提出了基于情感计算模型的人机对话,利用人们在认知和理解不同语言时的面部表情构建了情感计算模块,识别并弄清楚了情感状态。我们借助机器测量了自闭症患者对情感状态的感知,在此基础上,对特定情感状态下做出的相应情感奖励和补偿进行了调整,从而达到了理想的人的和谐状态。

皮卡德团队设计了一个情感对话系统——虚拟人“劳拉”可以通过文本界面与用户交流锻炼体验:如果用户完成了锻炼目标,劳拉就会表扬他;如果没有完成,劳拉就会鼓励他。经过一段时间的“共存”,大多数用户更有动力锻炼,也更愿意继续与劳拉交流。这一技术将被用于治疗自闭症,它可以使自闭症患者对学习更感兴趣,对自己更加自信。在角色扮演中,电脑可以根据自闭症患者的情感反应,给他们正确的反馈,从而让他们高兴,并对他们一直做出的努力给予奖励。想要很好地缓解自闭症的症状,人机对话不仅要有较高的认知能力,还要有情商。这两者在人机对话这样一个环境中可以实现互操作性,让自闭症儿童生活在一个有益而愉快的氛围中,起到积极的缓解作用。

第四部分. 研究设计

A.研究问题和研究目的

随着科学技术的发展和社会的进步,越来越多的孩子缺乏情感,越来越多的人需要情感上的安慰。针对现状,作者试图引导情感计算领域的人机对话,通过测试对象是情感信息的提取和识别,所以当孩子们使用电脑时,电脑可以给予他们一定程度情感上的安慰,造成情感上的交流,这也可以探索缓解自闭症问题的新方法。

B .研究原则

该研究基于著名心理学家保罗·埃克曼和他的研究伙伴w·v·弗里森于1976年创建的面部动作编码系统(FACS)。该理论描述了不同面部肌肉动作与表情之间的对应关系,是情感识别的基础。它们分为44个独立但相关的运动单元,并分析这些运动单位的表达以及人与人之间的关系。 根据面部动作编码系统(FACS)的实验结果显示,没有其他激励有效,如果不是他们自己的经历,又或者做出错误的陈述的主体发送错误的信号,这些来自状态的特定情绪面部表情(单一的情绪状态) 测绘精度为88%,结果表明情绪可以从面部表情中识别出来。

C.专门研究的机制设计

操作如图1所示,自闭症患者的内心世界将通过这样的模型重新建立。然而,本研究的范围仅限于面部表情的识别。

D.研究设计

1)主体

孤独的患者敏感且有极强的自尊,缺乏安全感,考虑到一些原因,研究对象的对象没有选择自闭症患者来研究,而是倾向于选择孩子,第二个选择是在青春期的孩子,不怎么听话的,喜欢退缩和内向的高中生。

2)研究过程与方法

对某市一中学56名学生进行调查,其中半数为男生。在操作计算机时,只需启动 ACMBER——王继军提出的基于情绪表情识别的模型,获得实验组在人机对话测试下的表情。在一系列过程中,通过拍照、收集数据、人脸检测和定位、表情数据提取、面部表情识别分类、情绪理解和情绪调节,就可以完成表情测量,分析和识别人的瞬时情绪状态,生成一系列数据,管理数据,理解和最后创建情绪调节策略。

E.结果

根据六个基本情绪表达,埃克曼定义为: 惊讶、恐惧、厌恶、愤怒、喜悦和悲伤,在三个月内,对测量对象使用计算机时在一定时间内收集情绪表达数据,图2显示其测试数据的结果趋于平和,数据显示出上升趋势,经过在人机对话中情感计算的结合后,这些数据显示能够促进其发展或产生一定的积极影响。

从另一个角度来衡量, 再加上学校的情况, 通过丰富的面部表情, 有关参加学校团队活动水平的报道, 在学校活动中参加集体活动的程度, 兴趣程度在广泛的自愿暴露程度上, 人们愿意接受教师调查程度的变化, 以反映认知能力、行为、情绪反应,人际交往、态度、这五个维度层次的变化。老师们所作的一项调查表明,教师接受了与情感计算与人机对话,。他们比以前更愿意表达自己的想法, 喜欢看到学生打闹,。他有时露出笑容, 即使他们没有参与, 他们的心理也有所改变。

F. 不足之处

本研究以有限的条件和技术为基础, 没有经过大量的测试。因此, 除了情感计算系统对学生情绪变化的影响外, 无法确定其他因素是否也有轻微影响。此外,考虑到孩子的自尊和个人隐私的真实情况,本研究的试验对象并不是自闭症患者,而有的学生属于正常的性格内向,但结果却表明,试验对象获得了一定的情感成效。虽然本研究存在许多不足之处,但我认为人机对话系统的情感计算作为辅助治疗,对自闭症患者具有一定的可行性和价值。

第五部分:总结

人机对话仍是情感计算研究中一个非常薄弱的领域。仍有许多未知事物等待我们去探索,同时,如何将具体的研究成果应用到实际问题上,帮助需要情感慰藉的社区群体,尤其是“越来越孤独”的年轻一代,将是一个有意义的问题。在现有的技术的基础上,开发了计算机,通过游戏及虚拟社团培养理解能力,使“孤独”的孩子不再沉浸在自己的世界中。但在情感识别和建模阶段仍有困难,随着技术的革新,可以将理论与实践相结合,以实现真正的人机交互。
 

0 条评论
评论不能为空