投稿指南
一、本刊要求作者有严谨的学风和朴实的文风,提倡互相尊重和自由讨论。凡采用他人学说,必须加注说明。 二、不要超过10000字为宜,精粹的短篇,尤为欢迎。 三、请作者将稿件(用WORD格式)发送到下面给出的征文信箱中。 四、凡来稿请作者自留底稿,恕不退稿。 五、为规范排版,请作者在上传修改稿时严格按以下要求: 1.论文要求有题名、摘要、关键词、作者姓名、作者工作单位(名称,省市邮编)等内容一份。 2.基金项目和作者简介按下列格式: 基金项目:项目名称(编号) 作者简介:姓名(出生年-),性别,民族(汉族可省略),籍贯,职称,学位,研究方向。 3.文章一般有引言部分和正文部分,正文部分用阿拉伯数字分级编号法,一般用两级。插图下方应注明图序和图名。表格应采用三线表,表格上方应注明表序和表名。 4.参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定,采用顺序编码制。

ACL 2021 PENS 个性化新闻标题生成数据集

来源:新闻大学 【在线投稿】 栏目:综合新闻 时间:2021-08-06
作者:网站采编
关键词:
摘要:编者按:在数字信息时代,人们获取新闻的效率越来越高,但获取新闻关键信息的效率却很低。 NLP领域的新闻标题生成任务(NewsHeadlineGeneration)可以根据新闻文本自动生成包含关键信

编者按:在数字信息时代,人们获取新闻的效率越来越高,但获取新闻关键信息的效率却很低。 NLP领域的新闻标题生成任务(NewsHeadlineGeneration)可以根据新闻文本自动生成包含关键信息的短标题,让读者高效地了解新闻中的重要新闻。

为了开展新闻标题生成任务的研究,微软亚洲研究院的研究人员构建了第一个可用于个性化新闻标题生成方法离线评估的基准数据集:PENS(PersonalizedNewsheadlineS)数据集;同时也提出了生成个性化新闻标题的通用框架,并对其效果进行了评估。论文“PENS:ADatasetandGenericFrameworkforPersonalizedNewsHeadlineGeneration”已被纳入ACL2021。欢迎有兴趣的读者留言,交流心得!

在数字信息时代,随着文本信息量和传输速度呈指数级增长,信息过载问题越来越严重。以新闻为例。每天都有无数新的新闻发布,用户很难在有限的时间内从海量的新闻中筛选出感兴趣的文章进行进一步阅读。因此,用简洁的语言概括新闻的关键信息是非常重要的。在NLP领域,新闻标题生成任务(NewsHeadlineGeneration)可以根据新闻的主体自动生成包含关键信息的短标题,让读者高效的了解到新闻的重要内容。由于标题本身是对新闻文本的高级概括,因此生成标题的简单、流畅和事实一致性对这项技术来说是一个挑战。

近年来,随着用户个性化服务的普及和人工智能技术的进步,新闻网站等内容平台希望通过头条来吸引读者的阅读兴趣,但同时也避免了“头条党”现象时有发生。因此,生成个性化的新闻标题成为了标题生成领域的一个新的研究方向。

什么是个性化新闻标题?例如,如果有关于篮球比赛的新闻报道,其潜在用户受众通常是比赛球队的球迷。如果新闻标题不考虑用户的阅读兴趣,而只是客观地描述了比赛的结果,那么失败方的粉丝可能不太可能进一步阅读新闻,因为当他们看到标题时,他们已经知道他们支持的球队输了。比赛结束后,更多了解输球过程的意愿会相对较低。但是,如果考虑用户的阅读兴趣,将个性化的标题呈现给不同球队的球迷(如图 1 所示),即使是输球球队的球迷也可能愿意了解这条新闻的内容。例如,标题的核心词是粉丝支持的明星,突出球员的个人表现。

图 1:个性化新闻标题示例

个性化新闻标题生成任务的定义是:给定用户的历史阅读行为数据和候选新闻内容,生成用户专属的不同新闻标题。生成的标题不仅要引起用户的阅读兴趣,增加用户进一步阅读的可能性,获得更高的点击量和阅读量,还要兼顾新闻标题的事实一致性,保证用户的阅读质量,避免成为一个标题党。它有两个关键的子任务:

①学习用户的个性化阅读兴趣??:通过用户的历史阅读行为信息,可以对用户的个性化阅读兴趣??进行建模,从而学习用户的个性化表达;

②生成个性化新闻标题:将用户的个性化表示算法与新闻标题生成算法相结合,为不同阅读兴趣的用户生成不同的新闻标题。

因此,带有个性化标题的新闻可以激发用户的阅读兴趣,从而可以获得更高的点击率和阅读量,这将成为新闻平台关注的新兴研究领域。

PENS,一个可以离线评估的数据集

为了开展个性化新闻标题的生成研究,需要一个大规模的数据集进行离线评估。否则,在测试不同算法的性能时,研究人员可能需要重复在线A/B测试,或者组织人工评估来观察算法的效果,不仅实现成本高,而且公平性和再现性也很困难。确保。

为了进一步研究个性化新闻标题的生成,微软亚洲研究院的研究人员构建了PENS(PersonalizedNewsheadlineS)数据集,这是第一个离线评价个性化新闻标题生成方法的基准数据集,所有数据都是基于MicrosoftNews用户的匿名新闻点击记录构建的,还包含用户行为信息和新闻语料信息。

PENS 的新闻语料库包含大约 110,000 篇英文新闻文章。每篇新闻文章由四部分组成:新闻ID、新闻标题、新闻正文和新闻类别标签。训练和测试数据中出现的所有新闻都与语料库中文章的新闻ID一一对应。

PENS训练数据集包含匿名用户的新闻曝光日志(ImpressionLog),包括44万匿名用户的50万条新闻曝光日志,以及每个用户的历史点击信息。具体来说,每条训练数据由五部分组成:用户ID、曝光时间戳、点击新闻列表、未点击新闻列表和用户历史点击新闻列表。列表中出现的所有新闻均按首次曝光时间排序。

为了满足线下测评的需要,研究人员邀请了103名英语系大学生(以下简称“标注者”)手动创建了PENS测试数据集。构建过程分为两个阶段:第一阶段,每个标注者浏览新闻语料中随机选取的1000个新闻标题,从中选出至少50个感兴趣的标题,作为用户的历史点击行为;在第二阶段,每个注释者为另外 200 篇新闻文章写下他理想的标题。这些手工编写的新闻标题的质量由专业新闻编辑审核。低质量的标题将被删除(例如,太长、太短或与正文不一致),剩余的合格标题将作为相应用户个性化新闻标题的黄金标准。

文章来源:《新闻大学》 网址: http://www.xwdxzz.cn/zonghexinwen/2021/0806/1925.html



上一篇:应对疫情,国内多所高校延迟开学
下一篇:热点 | 造谣“高校教授携妻子闺蜜旅游”,已被

新闻大学投稿 | 新闻大学编辑部| 新闻大学版面费 | 新闻大学论文发表 | 新闻大学最新目录
Copyright © 2018 《新闻大学》杂志社 版权所有
投稿电话: 投稿邮箱: