PairSCL：句子对级别的有监督对比学习方法

Original 刘聪NLP NLP工作站 2023-11-28

收录于合集 #论文解读 40个

写在前面

大家好，我是刘聪NLP。

今天给大家带来清华软院的一篇文章，针对自然语言推理任务的句子对级别的有监督对比学习方法-PairSCL，全名《Pair-Level Supervised Contrastive Learning for Natural Language Inference》。

paper：https://arxiv.org/pdf/2201.10927.pdf
github：https://github.com/THU-BPM/PairSCL

假期马上就要结束了，记得劳逸结合呦~~~

介绍

自然语言推理（Natural Language Inference，NLI）任务是自然语言理解研究领域的一个基本问题，根据给定的前提句（premise）和假设句（hypothesis），推断他们直接的关系，包括：蕴含、中立和矛盾。最近，许多研究采用对比学习的方法，结合NLI数据集中的句子对本身的关系来学习句子表示。

但是，这些方法仅关注了句子对中每个句子的表征，没有考虑不同类别中句子对之间的关系。针对NLI任务，该论文提出句子对级别的有监督对比学习方法，即「采用交叉注意力机制学习句子对的联合表征，并通过对比学习，将相同类别的句子对表征拉到一起，不同类别的句子对表征推开」。

模型

PairSCL模型结构如下图所示，共包含：句子编码层、交叉注意力层、损失层。

句子编码层

句子编码层，即对输入的文本分别计算句子的表征。对于给定一个NLI数据实例，包含前提句为，假设句为，其中，和为句子长度。将其通过编码器BERT或RoBERTa模型，获得其对应的句向量表征为和，其中，为模型输出维度。

交叉注意力层

交叉注意力层，即通过捕获句子对之间的关系，获取句子对表征。首先计算前提句和假设句之间的词级别注意力矩阵，针对前提句第i个词和假设句第j个词有，

其中，，，表示向量按元素相乘。然后获取包含假设句信息的前提句i个词的表征，

然后进一步增强局部语义信息，

其中，表示链接操作；表示原前提表征与假设信息增强的前提表征之间的差异；表示语义相似度；上述两个内容均用来衡量句子对之间的语义相关度。差异越小，语义相似度越大，句子对越容易被归到蕴涵类中。得到了包含假设句推理信息的前提句新表征，

其中，表示层归一化；同理获取包含前提句推理信息的假设句新表征；最后，将其拼接，得到句子对表示，

损失层

损失层，通过联合监督对比学习损失和交叉熵损失，训练网络参数，获取更好的句子表征及句子对表征。

监督对比学习损失

对于一个批次数据，定义正例为，损失为

其中，表示句子对i和句子对p是否相似；为温度超参数；通过优化，可以相同类别的句子对表征更紧密，「将同一类别的句子对从其他类别中剥离开」。

交叉熵损失

对于一个批次数据，损失为

其中，和为可训练参数；通过优化，「判断句子对表征具体属于哪一种类型」。

总损失

总损失为监督对比学习损失和交叉熵损失的加权求和，

其中，为平衡两种损失的超参数。

实验结果

基础模型采用了BERT和RoBERTa模型，训练10个epoch，批次大小为512，温度为0.05，优化器为Adam优化器，超参数α为1。对于base模型学习率为5e-5，large型模型学习率为1e-5，最大句子长度为128。

在NLI数据集上，共与ESIM、KIM、ADIN、BERT和RoBERTa5种模型进行比较，如下表所示，均取得了较好的效果。在迁移任务上，MR、CR、SUBJ、MPQA、SST-2、TREC和MRPC7种数据集上进行实验，对于单句分类任务，在冻结的BERT编码器表示上训练一个逻辑回归分类器；在MRPC任务中，使用交叉注意力层获得的句子表征来映射语义空间。如下表所示，均取得了较好的效果。并且在SNLI数据集上进行消融实验，发现去除对比学习损失和交叉注意力层对结果影响很大。

总结

个人认为，该论文的思想还是挺奇特的，不仅考虑原始句子的表征，还同时考虑到句子对表征之间的差异；是一个有监督交互式文本表征更好的方法。

请多多关注本人知乎「刘聪NLP」，有问题的朋友也欢迎加我微信「logCong」私聊，交个朋友吧，一起学习，一起进步。

我们的口号是“生命不止，学习不停”。

往期推荐

COLD：中文冒犯性语言检测数据集

SNCSE：一种基于软负例的无监督句向量对比学习方法

ExtraPhrase：一种针对抽象式（生成式）摘要的数据增强方法

BertSum-基于BERT模型的抽取式文本摘要

CPT模型：一种中文兼顾NLU和NLG的非平衡预训练语言模型

SimCSE论文精读

EMNLP 2021之SF：一种预训练语言模型的片段微调（Span Fine-tuning）方法

EMNLP2021之AEDA：一种更简单的文本分类数据增强技术

常用预训练语言模型（PTMs）总结

继续滑动看下一个

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

PairSCL：句子对级别的有监督对比学习方法

写在前面

介绍

模型

句子编码层

交叉注意力层

损失层

实验结果

总结

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

生成图片，分享到微信朋友圈

PairSCL：句子对级别的有监督对比学习方法

写在前面

介绍

模型

句子编码层

交叉注意力层

损失层

实验结果

总结

您可能也对以下帖子感兴趣