大家好，欢迎来到IT知识分享网。

基于分层注意力网络的方面情感分析

宋婷1, 陈战伟2, 杨海峰1

1 太原科技大学计算机科学与技术学院

2 中国移动通信集团山西有限公司

摘要：基于深度学习的方面情感分析是自然语言处理的热点之一。针对方面情感，提出基于方面情感分析的深度分层注意力网络模型。该模型通过区域卷积神经网络保留文本局部特征和不同句子时序关系，利用改进的分层长短期记忆网络（LSTM）获取句子内部和句子间的情感特征。其中，针对LSTM添加了特定方面信息，并设计了一个动态控制链，改进了传统的LSTM。在SemEval 2014的两个数据集和Twitter数据集上进行对比实验得出，相比传统模型，提出的模型的情感分类准确率提高了3%左右。

关键词：深度学习 ; 方面情感 ; 区域卷积神经网络 ; 分层长短期记忆网络 ; 注意力机制 ; 动态控制链

论文引用格式：宋婷,陈战伟,杨海峰. 基于分层注意力网络的方面情感分析[J]. 大数据, 2020, 6(5): 82-91.SONG T, CHEN Z W, YANG H F. Aspect sentiment analysis based on a hierarchical attention network[J]. Big Data Research, 2020, 6(5): 82-91.

1 引言

社交网络的使用日益频繁，如何从网络中挖掘并抽取用户的情感信息是自然语言处理的研究热点之一。基于方面的情感分析可针对不同方面挖掘用户深层次的情感，首先区分文本中同一实体的不同属性，这是方面情感分析的第一个子任务——方面词的提取，提取的内容可以是一个单词，也可以是一个短语；接着针对各个方面词分析情感极性。例如句子“Good food but dreadful service at that restaurant”，通过分析可知，该语句评论的实体是餐厅，分别对两个方面（即food和service）进行了相应的情感表达，二者的情感极性分别是积极和消极。在初期研究中，文本的分类问题使用的是传统的机器学习方法，首先在训练集上分析、提取数据信息，构建分类模型，从而预测未被标注的数据。传统机器学习构建手工特征的方法是人工规则和特征工程，这是一个较为烦琐的过程。近年来，深度学习被广泛应用在自然语言处理领域，并取得了较好的成绩，深度学习结合注意力机制在基于方面的情感分析中取得了比传统网络模型更好的效果。深度学习还被应用在机器翻译、句子对建模等方面。深度学习最大的特点是能自动学习批量数据，继而挖掘数据中的潜在特征，利用注意力机制加深对目标内容的关注，在训练过程中依次调整参数。

目前结合深度学习的方面情感分析模型还存在许多问题，如基于卷积神经网络的模型使用滤波器仅获取文本句子内部对象的依赖关系；单层的基于循环神经网络的模型结合注意力机制可获取文本的长距离关系，却忽略了句子间的依赖关系。

基于以上问题，本文提出基于方面情感分析的深度分层注意力网络模型（hierarchical attention network model for aspect-based sentiment analysis， HANMAS），该模型结合区域卷积神经网络和改进的分层长短期记忆网络（LSTM），围绕方面目标，既通过卷积神经网络（convolutional neural network， CNN）单词层和单词层LSTM保留了句子的局部特征信息和依赖关系，又通过句子层LSTM获得了句子间的情感依赖关系。本文提出的模型在传统LSTM中嵌入特定方面目标，设计一条动态控制链，通过控制单元获取对应的远距离情感信息，从而获得深层次的方面情感信息。笔者在SemEval 2014的两个数据集和Twitter数据集上进行实验，实验结果表明，相比于基于方面情感的传统神经网络模型和基于注意力机制的网络模型，本文模型的情感分类准确率相对较高。

2 相关工作

基于方面的情感分类属于细粒度分类任务，传统的情感分类方法有支持向量机、朴素贝叶斯、最大熵等，深度神经网络是当下比较常用的方法。

卷积神经网络和循环神经网络（recurrent neural network，RNN）是常用的针对情感分析任务的深度网络模型。卷积神经网络通过卷积操作提取文本的局部特征，无时序性；循环神经网络根据上一时序状态和当前输入确定当前网络状态，由此获得网络时序性。参考文献在传统卷积神经网络的基础上，依靠门控制部件输出不同特定方面对应的信息，使模型性能得到了有效提升。参考文献采用LSTM获取句子的情感信息，LSTM是RNN的变体，其网络嵌入了上一时刻的状态值，使模型较好地解决了长距离依赖问题。参考文献在传统的卷积神经网络基础上结合了注意力机制，分别获取词向量、词性、位置信息的注意力计算，是一个多注意力机制的卷积网络，此方法在未获取外部知识的状态下得到了方面情感极性。Wa ng Y Q等人提出基于方面嵌入的长短期记忆网络（LSTM with aspect embedding， AE-LSTM）和基于注意力机制的方面级长短期记忆网络（attention-based LSTM with aspect embedding），这两种网络都是基于传统长短期记忆网络建模的，它们基于方面目标信息获取上下文特征，结合句子隐藏状态计算注意力向量，由此得到情感分类结果，后者比前者更加突出了方面目标信息的嵌入。参考文献基于特定方面目标信息，结合长短期记忆网络和卷积神经网络，分别获取文本长距离依赖，且通过注意力机制获得句子表示，取得了较好的分类结果。参考文献提出了嵌入常识知识的长短期记忆网络（attentive LSTM with commonsense knowledge，Senti-LSTM）模型的特定方面情感分析，其中利用情感常识分析文本内容，获得了较优的模型性能。Ta n g D U等人提出了目标依赖情绪分类长短期记忆网络（TD-LSTM）模型和目标连接长短期记忆网络（targetconnection LSTM，TC-LSTM）模型的方面情感分析，两种模型都结合特定方面目标嵌入了上下文语义。参考文献结合注意力机制提出自注意力网络（transformer），设计了多头注意力机制来获取深层次注意力信息。Ruder S等人提出了分层的双向LSTM模型来获取句子级别的相互关系。

以上工作大多围绕深度神经网络和注意力机制进行研究。

3 基于方面情感分析的深度分层注意力网络模型

本节主要介绍基于方面情感分析的深度分层注意力网络模型的相关细节。该模型通过区域卷积神经网络和改进的分层长短期记忆网络获取情感分类。图1为基于方面情感分析的深度分层注意力网络模型，由以下4个部分组成。

图1 基于方面情感分析的深度分层注意力网络模型

● 区域卷积层。根据不同方面目标将句子划分为不同区域，对于每个独立特定方面，卷积神经网络将抽取局部情感信息。

● 改进的单词层LSTM。在传统LSTM中嵌入了句子特定方面信息，设计一条动态控制链，通过控制单元获取相应方面目标远距离情感信息，得到改进的嵌入方面信息的长短期记忆网络（LSTM with aspects，A-LSTM）。

● 句子层LSTM。基于改进的LSTM，区域卷积层的输出和改进的单词层LSTM的输出合并进入句子层LSTM，获取基于特定方面目标的整个文本句子间的依赖关系。

● 情感输出层。获取分类结果。

3.1 任务定义

给定句子

，包含n个单词，其中wi为句子s的第i个元素；A为句子的特定方面表示，句子通常包含0个或若干个方面目标（方面词）；给定方面词

，包含m个单词。通过向量化表示得到句子s的词向量矩阵

，方面目标词的词向量矩阵

，其中d1、d2是词向量的维度。研究目标是基于方面目标获取句子的情感极性，基于不同方面目标将句子划分为不同的独立语句，依次判断情感极性。

3.2 区域卷积层

区域卷积层将句子划分为包含多个方面的目标子句，通过注意力机制重点关注各个方面目标及其上下文语义。本文根据句子中不同方面词将句子分割成若干个独立部分，由此分别获取不同方面的情感极性。假设句子

包含两个方面词A1、A2，根据方面词A1和A2将句子分割成两个独立的目标子句：

，每个子句的长度是z。若句子包含0个或1个方面目标，则只得到一个目标区域，即一个目标子句。每个独立的目标子句进入卷积神经网络，通过第i个卷积核进行卷积操作，得到ci，如式（1）所示：

其中，卷积核长度为l，参数

和b分别为卷积核的权重矩阵和偏置项。由此得到目标子句的特征图

，如式（2）所示：

通过局部特征下采样抽取每个特征图最重要的特征

，下采样方法利用最大池化（max-over-time pooling）获取局部特征，k个卷积核得到的特征如式（3）所示：

3.3 改进的单词层LSTM

通过分层的LSTM得到了单词层（句子内部）、句子层（句子之间）特征信息，本节介绍改进的A-LSTM，以便获取单词层的特征信息，同时，在改进的A-LSTM基础上构建单词层LSTM。

3.3.1 A-LSTM

将方面目标嵌入传统的LSTM，在此基础上设计动态控制链，通过动态控制单元获取上下文记忆，利用注意力机制更有效地围绕方面词获取情感信息。A-LSTM如图2所示。

图2 A-LSTM网络

图2中包含3条控制链：

，第j个方面目标词向量；

，针对方面目标j，上一时刻网络隐藏层记忆状态；

，针对方面目标j，动态控制链上一时刻的网络状态值。

分别表示方面目标j的门控单元、现时刻网络隐藏层记忆状态、动态控制链现时刻网络状态值。动态控制链上的动态控制单元是门控循环单元（gated recurrent unit，GRU），其获取上下文语义的长距离依赖信息，针对方面目标j，通过门控单元和动态控制单元计算网络的现时刻隐藏层记忆状态，如式（4）～（7）所示：

其中，式（4）中的

是新输入内容

针对

计算所得的网络状态，式（7）经过式（4）所得的临时状态和动态控制单元，最终得到现时刻网络状态

。式（6）门控单元

中第一部分

计算得到图2中的B模块，

式中第二部分

计算得到图2中的A模块。∅和σ是非线性的激活函数，式中X、Y、U、V是训练参数，⊙为乘运算。

与传统LSTM相比，A-LSTM嵌入了方面信息，并设计了动态控制链，当输入内容与

相符时，门控单元基于方面目标挖掘更深入的隐藏层记忆状态，动态控制单元提供基于方面目标的上下文语义长距离依赖信息。隐藏层记忆状态利用遗忘过期信息过滤无用信息，将网络的最终隐藏层记忆状态值降到单元距离值内。

3.3.2 单词层LSTM

单词层LSTM在A-LSTM基础上获取目标子句中与方面信息高度相关的特征表示，得到句子内部单词间的特征关系。每一个LSTM单元的输入包含上一时刻网络隐藏层记忆状态、当前时刻的新输入值，同时还嵌入了方面信息。

LSTM在每次输入新值后得到的隐藏层记忆状态为

，其中d为输出向量的维度，n为状态数。单词注意力层计算过程如式（8）～（10）所示：

其中，Wc、bc分别为权重参数和偏置参数， hc为与输入c相对应的隐藏层记忆状态，计算得到注意力值ac，从而得到整个网络的注意力值u。

3.4 句子层LSTM

通过改进的单词层LSTM计算得到的仅是词语间的特征信息，但针对文本的上下文句子（尤其一些语义表达不清的句子），某一词语前后句子语义对其情感判断尤为重要，因此本文通过句子层LSTM获取文本句子间的依赖关系。

将区域卷积网络的局部特征信息输出和改进的单词层LSTM的句子内部词语间特征关系输出合并，作为句子层LSTM的输入。其中区域卷积网络是一个序列化的矩阵，按句子在文本中的顺序排序。句子层LSTM的输入如式（11）所示：

其中，

是区域卷积网络的下采样特征向量，u是单词层LSTM的输出值。

3.5 情感分类层

将句子层LSTM的输出值作为情感输出层的全连接网络的输入，计算情感分类结果，得到情感分类输出：

其中，W为全连接层权重参数，b为全连接层偏置项，s’为句子层LSTM的输出。本文使用反向传播算法训练网络模型，通过最小化交叉熵优化模型，计算损失函数loss：

其中，D为训练集大小，C为数据类别数，y为文本的预测类别（即情感分类输出），

为实际的类别，λ||θ||2为L2正则项。

4 实验及结果分析

4.1 数据集

本文提出基于方面情感分析的深度分层注意力网络模型，通过对比SemEval 2014的Laptop、Restaurant数据集以及Li D等人发布的Twitter数据集，分析模型性能。数据集中分别含有4种极性的情感：积极、消极、中立、冲突，冲突类别在数据集中所占比例较低，因此实验中仅保留积极、消极、中立类别。数据集信息见表1。

4.2 评价指标和参数设置

模型性能以分类准确率为评价标准，使用Glove词向量方法初始化句子单词向量及方面向量，维度为300。采用均匀分布U(−0.1,0.1)对未登录词进行初始化，偏置初始化为0，训练采用Adam优化器更新模型参数。区域卷积神经网络目标区域的长度设置为30，窗口大小分别设置为整数2至5，每种大小的窗口的个数设为100，随机失活率（dropout）设置为0.5。

4.3 对比模型

将本文模型分别与以下模型进行对比，以验证本文模型的性能。

● 卷积神经网络（CNN）：基于传统的卷积神经网络构建模型，模型将独立句子作为输入，未嵌入方面目标信息，获取文本句子内单词间依赖关系。

● 长短期记忆网络（LSTM）：基于传统的长短期记忆网络构建模型，模型将独立句子作为输入，未嵌入方面目标信息，获取文本句子内单词间依赖关系。

● 基于注意力机制的卷积神经网络（convolutional neural network based on attention mechanism，ATT-CNN）：基于传统的卷积神经网络构建模型，模型针对特定方面加入注意力机制获取句子内情感关注信息，将独立句子作为输入。

● 基于注意力机制的方面级长短期记忆网络（attention-based LSTM with aspect embedding，ATAE-LSTM）：基于传统的长短期记忆网络构建模型，模型针对特定方面加入注意力机制获取句子内情感关注信息。

● 带有长短期记忆网络的词嵌入（composing word embeddings with LSTM，LSTM-R)算法：基于传统的长短期记忆网络构建模型，模型将整体文本作为输入，针对特定方面未关注其注意力机制。

● 交互式注意力网络（interactive attention network，IAN）：用于多层次语义分类，利用注意力机制针对特定方面获取情感信息。

● 基于词-方面关联融合的长短期记忆网络（LSTM based on word-aspect association fusion，AF-LSTM）：利用一个连接层，通过注意力机制结合方面信息获取情感分类。

● 支持向量机（support vector machines，SVM）：将支持向量机作为分类器来抽取特征。

4.4 实验结果

本文模型（HANMAS）同上述模型的对比结果见表2。

表2中数据是不同模型在3个数据集上的实验结果，数据集中包含积极、中立、消极3种类别，分析可得三分类实验的分类准确率普遍低于以往文献中的仅包含积极、消极的二分类结果。几种对比模型中基于循环神经网络的模型（LSTM、ATAE-LSTM）优于基于卷积神经网络的模型（CNN、ATT-CNN）；在LSTM上嵌入注意力机制的模型（ATT-CNN、ATAE-LSTM、IAN）的分类效果好于单一的传统模型；嵌入方面信息分别获取情感分类的模型（ATT-CNN、ATAE-LSTM、LSTM-R）的分类准确率有显著提高；将整体文本作为输入的模型（LSTM-R）获取了句子间的依赖关系，分类准确率明显优于将独立句子作为输入的模型（LSTM）。

本文提出的模型性能优于几种对比模型。本文提出的模型针对特定方面通过注意力机制获取情感信息，通过改进的分层LSTM深层次地获取句子内部局部特征和句子时序关系以及句子之间的依赖关系，对比同样结合方面信息的网络模型，在数据集Restaurant上取得接近SVM的分类性能，在数据集Laptop和Twitter上得到了较好的分类效果。本文提出的模型层次复杂，算法复杂度较一般模型有所提高，模型通过增加模型层次和算法复杂度得到了更高的准确率。

4.5 A-LSTM性能

本节针对改进的A-LSTM进行对比实验，在数据集Restaurant上分别选取2个、4个、6个方面目标嵌入网络模型，验证模型的二分类结果，结果如图3所示。随着方面目标数量的增多，模型分类准确率能够保持平稳，说明当面对多方面目标文本时，模型有较好的扩展性能，尤其当分类数量增多时，模型分类准确率优于对比模型。

图3 嵌入不同数量方面目标的分类准确率对比

A-LSTM在实验中经过若干次迭代，通过计算平均损失值判断网络性能，结果如图4所示。随着迭代次数的增加，两种模型的平均损失逐渐降低，但改进后的A-LSTM模型性能较好，在多次迭代下模型收敛的速度较快。

图4 收敛速度对比

5 结束语

本文基于方面情感分析，提出结合区域卷积神经网络和改进的分层LSTM的深度分层注意力网络模型，模型通过卷积神经网络保留文本局部特征信息和不同句子时序关系，利用分层注意力LSTM获取句子内部和句子间的情感特征，其中通过添加特定方面信息并设计一个内部动态控制链，对传统LSTM进行了改进。经过实验对比，验证了本文模型的有效性，与基于方面情感的传统深度网络模型和基于注意力机制的网络模型相比，文本情感分类准确率得到了有效提升。对于包含跨领域词汇和网络用语句子的方面情感分析，本文模型情感分类效果有待提高，此问题将是下一步的研究内容。

作者简介

宋婷（1984-），女，太原科技大学计算机科学与技术学院中级实验师，主要研究方向为人工智能与数据挖掘。

陈战伟（1984-），男，中国移动通信集团山西有限公司高级工程师，主要研究方向为人工智能与数据挖掘。

杨海峰（1980-），男，博士，太原科技大学计算机科学与技术学院教授，主要研究方向为人工智能与数据挖掘。

联系我们:

Tel:010-

010-

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作：010-

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/57355.html

基于分层注意力网络的方面情感分析