ExtraPhrase：一种针对抽象式（生成式）摘要的数据增强方法

Original 刘聪NLP NLP工作站 2023-11-28

收录于合集 #论文解读 40个

写在前面

大家好，我是刘聪NLP。

昨天在刷arxiv时，发现一篇针对抽象式（生成式）摘要的数据增强方法-ExtraPhrase，今天分享给大家，全名《ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization》。

paper：https://arxiv.org/pdf/2201.05313.pdf

介绍

在预训练语言模型横行的时代，利用大量并行数据训练的深度学习模型已经在抽象式（生成式）摘要任务中取得了惊人的效果，例如：BART、MASS、T5等模型；然而，大规模语料库的构建成本高且具有挑战性。该论文引入了一个低成本且有效的策略-ExtraPhrase，以增加模型训练时所需的训练数据。

ExtraPhrase方法主要由两部分组成：（1）Extra表示Extractive Summarization，即对原始文档进行抽取式摘要，也就是对原始文档进行信息压缩；（2）Phrase表示Paraphrasing，即对压缩后的的抽取式摘要内容进行回译，将摘要内容进行有效的改写，增加数据多样性。

模型

ExtraPhrase方法如下图所示，

Extra：在这个步骤中，提取给文档中每个句子的重要部分，也就是对原始句子进行压缩。采用的方法，是一种不需要任何平行语料训练的方法-「基于句子语法树的规则方法」。首先，解析给定的句子以获得它的依赖树（利用spaCy工具）；然后，对依赖树进行修剪（删除深度超过一半的节点），得到一个较小的有根子树；最后，对提取的根子树进行线性化，得到其序列化表示。
Phrase：Extra中构建的摘要只包含原始句的词汇。为了增加摘要的多样性，对摘要进行回译。使采用一个公开的翻译模型，将Extra中每一个句子，先从英语翻译成德语，在从德语翻译成英语。

以下几点需要注意：

ExtraPhrase方法中，都是针对句子进行操作，但是原始文档是由多个句子组成，并且不是所有句子均有意义。因此，在数据增强生成伪摘要时，仅对前三个句子进行操作。
在Extra阶段，采用基于句子语法树的规则方法是为了减少数据构造的成本，当然更好的Extra方法，可以使效果更好。
在训练过程中，对于所有的伪训练数据，在原始文档前面附加一个特殊标记<pseudo>。

实验结果

在Gigaword和CNN/DailyMail两种数据集上进行实验，并且对比方法包括：Oversampling、Back-translation、Self-training，如下图所示，

Oversampling：过采样方法，是数据增强的最简单方法，从原始训练数据中采样文档-摘要对，并将采样的实例添加到训练数据中。
Back-translation：反向翻译，是序列到序列任务中广泛使用的数据增强的方法，针对原始训练数据，训练通过摘要生成文档模型；然后将训练数据中摘要输入模型，生成伪文档，构建伪文档-摘要数据。
Self-training：在自训练中，针对原始训练数据，训练通过文档生成摘要的老师模型；然后将训练数据中文档输入模型，生成伪摘要，构建伪文档-摘要数据。

模型训练采用Transformer模型，结果如下表所示，在标题生成任务和摘要生成任务上均取得较好的效果。为了验证低资源的情况下的效果，针对训练数据，随机挑选1K数据作为训练数据，剩余训练数据用于生成伪数据；结果如下表所示，在低资源情况时ExtraPhrase方法提升更显著。比较ExtraPhrase方法生成伪摘要的多样性，采用BERT模型进行语义评判，并采用BLEU进行字面评判；如下表所示，ExtraPhrase方法和Self-training方法生成的伪摘要与真实摘要的语义相似程度很高，但是ExtraPhrase方法在表达上的多样性要比Self-training方法高很多。由于摘要生成文档过程中，缺少很多关键信息，因此Back-translation方法的不足也很明显。通过下表可以看出，对越长的文档，生成伪文档的差异越大，会导致信息明显不对称。最终，比较三种方法的时间成本和金钱成本，由于ExtraPhrase方法不需要额外的训练，因此，可以明显降低数据增强的成本。

总结

个人认为该论文中针对抽象式摘要的数据增强方法还是有很多可取之处的，但是Extra是可以通过更好的方法做优化的。

放假ing，但是也要学习。

请多多关注本人知乎「刘聪NLP」，有问题的朋友也欢迎加我微信「logCong」私聊，交个朋友吧，一起学习，一起进步。

我们的口号是“生命不止，学习不停”。

往期推荐

MatchSum-一种基于语义匹配的抽取式摘要框架

BertSum-基于BERT模型的抽取式文本摘要

CPT模型：一种中文兼顾NLU和NLG的非平衡预训练语言模型

SimCSE论文精读

EMNLP2021之AEDA：一种更简单的文本分类数据增强技术

常用预训练语言模型（PTMs）总结

回顾BART模型

LM-MLC 一种基于完型填空的多标签分类算法

继续滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

ExtraPhrase：一种针对抽象式（生成式）摘要的数据增强方法

写在前面

介绍

模型

实验结果

总结

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

ExtraPhrase：一种针对抽象式（生成式）摘要的数据增强方法

写在前面

介绍

模型

实验结果

总结

您可能也对以下帖子感兴趣