- · 《新闻大学》栏目设置[09/01]
- · 《新闻大学》数据库收录[09/01]
- · 《新闻大学》收稿方向[09/01]
- · 《新闻大学》投稿方式[09/01]
- · 《新闻大学》征稿要求[09/01]
- · 《新闻大学》刊物宗旨[09/01]
ACL 2021 PENS 个性化新闻标题生成数据集
作者:网站采编关键词:
摘要:编者按:在数字信息时代,人们获取新闻的效率越来越高,但获取新闻关键信息的效率却很低。 NLP领域的新闻标题生成任务(NewsHeadlineGeneration)可以根据新闻文本自动生成包含关键信
编者按:在数字信息时代,人们获取新闻的效率越来越高,但获取新闻关键信息的效率却很低。 NLP领域的新闻标题生成任务(NewsHeadlineGeneration)可以根据新闻文本自动生成包含关键信息的短标题,让读者高效地了解新闻中的重要新闻。
为了开展新闻标题生成任务的研究,微软亚洲研究院的研究人员构建了第一个可用于个性化新闻标题生成方法离线评估的基准数据集:PENS(PersonalizedNewsheadlineS)数据集;同时也提出了生成个性化新闻标题的通用框架,并对其效果进行了评估。论文“PENS:ADatasetandGenericFrameworkforPersonalizedNewsHeadlineGeneration”已被纳入ACL2021。欢迎有兴趣的读者留言,交流心得!
在数字信息时代,随着文本信息量和传输速度呈指数级增长,信息过载问题越来越严重。以新闻为例。每天都有无数新的新闻发布,用户很难在有限的时间内从海量的新闻中筛选出感兴趣的文章进行进一步阅读。因此,用简洁的语言概括新闻的关键信息是非常重要的。在NLP领域,新闻标题生成任务(NewsHeadlineGeneration)可以根据新闻的主体自动生成包含关键信息的短标题,让读者高效的了解到新闻的重要内容。由于标题本身是对新闻文本的高级概括,因此生成标题的简单、流畅和事实一致性对这项技术来说是一个挑战。
近年来,随着用户个性化服务的普及和人工智能技术的进步,新闻网站等内容平台希望通过头条来吸引读者的阅读兴趣,但同时也避免了“头条党”现象时有发生。因此,生成个性化的新闻标题成为了标题生成领域的一个新的研究方向。
什么是个性化新闻标题?例如,如果有关于篮球比赛的新闻报道,其潜在用户受众通常是比赛球队的球迷。如果新闻标题不考虑用户的阅读兴趣,而只是客观地描述了比赛的结果,那么失败方的粉丝可能不太可能进一步阅读新闻,因为当他们看到标题时,他们已经知道他们支持的球队输了。比赛结束后,更多了解输球过程的意愿会相对较低。但是,如果考虑用户的阅读兴趣,将个性化的标题呈现给不同球队的球迷(如图 1 所示),即使是输球球队的球迷也可能愿意了解这条新闻的内容。例如,标题的核心词是粉丝支持的明星,突出球员的个人表现。
图 1:个性化新闻标题示例
个性化新闻标题生成任务的定义是:给定用户的历史阅读行为数据和候选新闻内容,生成用户专属的不同新闻标题。生成的标题不仅要引起用户的阅读兴趣,增加用户进一步阅读的可能性,获得更高的点击量和阅读量,还要兼顾新闻标题的事实一致性,保证用户的阅读质量,避免成为一个标题党。它有两个关键的子任务:
①学习用户的个性化阅读兴趣??:通过用户的历史阅读行为信息,可以对用户的个性化阅读兴趣??进行建模,从而学习用户的个性化表达;
②生成个性化新闻标题:将用户的个性化表示算法与新闻标题生成算法相结合,为不同阅读兴趣的用户生成不同的新闻标题。
因此,带有个性化标题的新闻可以激发用户的阅读兴趣,从而可以获得更高的点击率和阅读量,这将成为新闻平台关注的新兴研究领域。
PENS,一个可以离线评估的数据集
为了开展个性化新闻标题的生成研究,需要一个大规模的数据集进行离线评估。否则,在测试不同算法的性能时,研究人员可能需要重复在线A/B测试,或者组织人工评估来观察算法的效果,不仅实现成本高,而且公平性和再现性也很困难。确保。
为了进一步研究个性化新闻标题的生成,微软亚洲研究院的研究人员构建了PENS(PersonalizedNewsheadlineS)数据集,这是第一个离线评价个性化新闻标题生成方法的基准数据集,所有数据都是基于MicrosoftNews用户的匿名新闻点击记录构建的,还包含用户行为信息和新闻语料信息。
PENS 的新闻语料库包含大约 110,000 篇英文新闻文章。每篇新闻文章由四部分组成:新闻ID、新闻标题、新闻正文和新闻类别标签。训练和测试数据中出现的所有新闻都与语料库中文章的新闻ID一一对应。
PENS训练数据集包含匿名用户的新闻曝光日志(ImpressionLog),包括44万匿名用户的50万条新闻曝光日志,以及每个用户的历史点击信息。具体来说,每条训练数据由五部分组成:用户ID、曝光时间戳、点击新闻列表、未点击新闻列表和用户历史点击新闻列表。列表中出现的所有新闻均按首次曝光时间排序。
为了满足线下测评的需要,研究人员邀请了103名英语系大学生(以下简称“标注者”)手动创建了PENS测试数据集。构建过程分为两个阶段:第一阶段,每个标注者浏览新闻语料中随机选取的1000个新闻标题,从中选出至少50个感兴趣的标题,作为用户的历史点击行为;在第二阶段,每个注释者为另外 200 篇新闻文章写下他理想的标题。这些手工编写的新闻标题的质量由专业新闻编辑审核。低质量的标题将被删除(例如,太长、太短或与正文不一致),剩余的合格标题将作为相应用户个性化新闻标题的黄金标准。
文章来源:《新闻大学》 网址: http://www.xwdxzz.cn/zonghexinwen/2021/0806/1925.html