ExtraPhrase:一种针对抽象式(生成式)摘要的数据增强方法
写在前面
大家好,我是刘聪NLP。
昨天在刷arxiv时,发现一篇针对抽象式(生成式)摘要的数据增强方法-ExtraPhrase,今天分享给大家,全名《ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization》。
paper:https://arxiv.org/pdf/2201.05313.pdf
介绍
在预训练语言模型横行的时代,利用大量并行数据训练的深度学习模型已经在抽象式(生成式)摘要任务中取得了惊人的效果,例如:BART、MASS、T5等模型;然而,大规模语料库的构建成本高且具有挑战性。该论文引入了一个低成本且有效的策略-ExtraPhrase,以增加模型训练时所需的训练数据。
ExtraPhrase方法主要由两部分组成:(1)Extra表示Extractive Summarization,即对原始文档进行抽取式摘要,也就是对原始文档进行信息压缩;(2)Phrase表示Paraphrasing,即对压缩后的的抽取式摘要内容进行回译,将摘要内容进行有效的改写,增加数据多样性。
模型
ExtraPhrase方法如下图所示,
Extra:在这个步骤中,提取给文档中每个句子的重要部分,也就是对原始句子进行压缩。采用的方法,是一种不需要任何平行语料训练的方法-「基于句子语法树的规则方法」。首先,解析给定的句子以获得它的依赖树(利用spaCy工具);然后,对依赖树进行修剪(删除深度超过一半的节点),得到一个较小的有根子树;最后,对提取的根子树进行线性化,得到其序列化表示。 Phrase:Extra中构建的摘要只包含原始句的词汇。为了增加摘要的多样性,对摘要进行回译。使采用一个公开的翻译模型,将Extra中每一个句子,先从英语翻译成德语,在从德语翻译成英语。
以下几点需要注意:
ExtraPhrase方法中,都是针对句子进行操作,但是原始文档是由多个句子组成,并且不是所有句子均有意义。因此,在数据增强生成伪摘要时,仅对前三个句子进行操作。 在Extra阶段,采用基于句子语法树的规则方法是为了减少数据构造的成本,当然更好的Extra方法,可以使效果更好。 在训练过程中,对于所有的伪训练数据,在原始文档前面附加一个特殊标记<pseudo>。
实验结果
在Gigaword和CNN/DailyMail两种数据集上进行实验,并且对比方法包括:Oversampling、Back-translation、Self-training,如下图所示,
Oversampling:过采样方法,是数据增强的最简单方法,从原始训练数据中采样文档-摘要对,并将采样的实例添加到训练数据中。 Back-translation:反向翻译,是序列到序列任务中广泛使用的数据增强的方法,针对原始训练数据,训练通过摘要生成文档模型;然后将训练数据中摘要输入模型,生成伪文档,构建伪文档-摘要数据。 Self-training:在自训练中,针对原始训练数据,训练通过文档生成摘要的老师模型;然后将训练数据中文档输入模型,生成伪摘要,构建伪文档-摘要数据。
模型训练采用Transformer模型,结果如下表所示,在标题生成任务和摘要生成任务上均取得较好的效果。
总结
个人认为该论文中针对抽象式摘要的数据增强方法还是有很多可取之处的,但是Extra是可以通过更好的方法做优化的。
放假ing,但是也要学习。
往期推荐