IR08-四川大学公共管理学院新闻数据采集实验报告 - 新闻大学杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 新闻大学

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

IR08-四川大学公共管理学院新闻数据采集实验报告

作者:

关键词:

摘要：

文章结构:实验主题、实验工具、实验过程、错误报告与错误分析、小组个人利用scrapy爬取教师信息实验报告

一. 实验主题

爬取四川大学公共管理学院新闻动态上的新闻，包括标题、发布时间、正文。

二. 实验工具

八爪鱼采集器7.3.8

三. 实验过程

八爪鱼是一款可视化的网络爬虫制作工具。本次实验使用八爪鱼的自定义采集，完成数据采集实验。

将新闻动态的网址，复制粘贴到采集网址处后，点击保存网址，系统会进入到流程设计页面并自动打开输入的网址。

新建任务

采集新闻动态属于分页列表详细信息采集，我们先建立分页循环流程，鼠标点击浏览器页面的“下一页”按钮，在弹出的对话框中选择“循环点击下一页”。

建立分页循环

下面对新闻标题创建循环点击

我们要把每个新闻的链接打开，进入详情页面，然后再采集详情里面的数据。结合前面建立的翻页循环，我们就能自动点击下一页翻页，对每一页的新闻标题列表都能逐个打开进入详情页，从而完成对所有新闻详细数据的点击并最终达到提取所有数据的效果。

鼠标点击下图中第一个新闻标题“行政管理系成功举办台湾台北大学张四明教授学术讲座”链接，这时候点击右边操作提示框中的“选择全部”选项，然后再选择“循环点击每个链接”选项即可。

循环点击

接下来就是最终提取数据的步骤了。

鼠标点击页面中要提取的内容，包括标题，发布时间和正文，连续选择提取内容，默认“采集该元素的文本”，选择好后，点击“采集数据”。

选择爬取数据

这样提取完毕之后我们可以点击流程按钮，修改字段名称以及简单的处理一下提取到的数据。在下面的界面中，左侧是采集任务的逻辑图，在右侧修改字段名称。修改完成后，点击“确定”保存。

流程

采集逻辑如下图所示:

采集逻辑

在上图中，我们可以看见在时间字段中，包括“发布时间:”这几个字，通过八爪鱼，我们可以在采集的时候将这几个字去掉。选中时间这个字段，点击“自定义数据字段”。

依次点击“格式化数据”，“添加步骤”，“正则表达式匹配”，输入如图所示正则表达式，点击“计算”和“确定”，即可。

正则表达式然后再次点击“确定”，即可回到流程界面，这时可以看见时间字段中，数据只有日期了。

点击“保存”后，点击“开始采集”，再在弹出的对话框中选择“启动本地采集”(其他几种方式需要付费)采集结果如下图:

采集结果

系统会在本地电脑上开启一个采集任务并采集数据，任务采集完之后会弹出一个采集结束的提示，接下来选择导出数据，我们选择将数据导出为csv文件，采集完之后，我们发现有41条重复数据，最终我们采集到400条新闻。

任务完成

数据样例四. 错误报告与错误分析错误报告:

错误报告错误分析

提取数据的目标网页是:

目标网页新闻栏中有专题栏目，点击进入后与目标页面网页结构不一致，采集失败

专题链接中含有来自四川大学网站的新闻，点击进入后与目标页面网页结构不一致，采集失败

四川大学网站的新闻新闻中有英文专题，也是因为网页结构不一致的原因，采集失败。

英文专题还有来自CCTV官网的视频新闻

视频新闻数据重复的原因

目标新闻网页存在重复:

重复新闻五. 总结

当前使用八爪鱼所设置的爬取规则太过简单，缺乏对特殊情况的判断和处理。

六. 小组成员个人利用scrapy爬取公共管理学院教师信息的实验报告

cc01--使用scrapy爬取四川大学公共管理学院教师信息实验报告yjl33--scrapy学习zl36--八爪鱼+Scrapy爬取公共管理学院新闻动态&教师信息

文章来源：《新闻大学》网址: http://www.xwdxzz.cn/zonghexinwen/2020/1020/612.html