分析数据新闻的采制流程。
数据新闻是指利用数据抓取技术采集海量信息, 对数据进行清洗、 挖掘、价值提炼并进行可视化呈现的新闻生产方式。 数据新闻包含新闻选题、 数据采集、数据清洗、 数据分析、 数据可视化这五个重要环节。 数据采集是数据新闻制作的前提, 数据清洗为了更好的进行数据分析, 数据分析通过提炼数据价值为新闻报道服务, 数据可视化用最适合的方式包装、 呈现新闻。
(1) 新闻选题
数据新闻选题的发起有两个主体, 一是由实验室发起选题, 一是由编辑部发起选题。 实验室发起选题, 是指数据分析师在对感兴趣的数据分析时, 发现有价值的新闻点, 便会以数据可视化实验室的名义发起选题。 编辑部发起选题, 是指记者依据社会经济运行状况, 凭借新闻敏感发现有价值的选题, 便会以编辑部的名义发起新闻选题。
无论是哪一方发起选题, 选题都需要双方的讨论协商, 进行选题的可行性讨论。 记者和编辑需要从新闻价值的角度考虑可行性, 数据分析师需要从数据获取的角度考虑可行性, 美术设计师需要从排版设计的角度考虑可行性, 程序员需要从可视化呈现角度考虑可行性。 项目负责人需要从时间和经济成本考虑选题是否可行。各方进行反复讨论、 达成一致, 数据新闻选题才能正式启动。
(2) 数据采集
数据新闻制作是围绕“数据”展开的。 当数据新闻的选题和角度确定以后, 就需要进行“数据采集”。 数据新闻作品的数据来源多样, 当数据新闻团队敏感的察觉某个事件的重要性时, 便会有意识的去搜集相关数据。 借助数据采集工具在互联网上进行数据采集或去政府、 组织、 研究机构网站直接下载信息。 数据新闻数据采集主要有以下几个步骤: ①寻找可采集的数据源; ②评估数据源并选择采集工具; ③进行数据采集并分类存放。
(3) 数据清洗
在数据新闻实践中, 最费时费力的便是数据清洗, 数据清洗环节工作繁杂且重要。 这个环节中常常面临由于格式无法直接使用的数据和“脏数据”。 所谓的“脏数据”是指采集的数据不完整、 数据不一致、 数据重复、 数据存在错误、 异常数据、 人为篡改数据等。 数据清洗的目的便是对数据进行格式转换, 洗掉存在的“脏数据”。数据清洗的意义在于避免“脏数据”成为说谎的工具, 并为下一环节的数据分析做准备。 数据清洗有很多常用的软件, 比如Excel、 OpenRefine、 DataWrangler等, 熟练掌握数据清洗工具是进行数据清洗的前提。
(4) 数据分析
数据分析是利用统计学方法, 使用Excel、 Spss此类数据分析软件对采集的数据进行处理, 汇总、 整理并消化, 实现数据价值最大化, 挖掘数据背后的故事。
①划分数据分析的类别
开始数据分析之前, 首先需要对数据分析类别进行划分, 依据新闻选题角度以及所获取的数据的类型划分数据分析的类别, 是描述性数据分析, 还是探索性数据分析、 验证性数据分析。
②选择适合的分析方法
确定了数据分析类别, 就可以选择合适的分析方法了。 统计学领域的一些学者针对数据分析的类别给出了常用的分析方法, 比如对比分析法、 平均分析法、 结构分析法、 分组分析法对数据特征进行描述。
③利用工具进行数据分析
当方法确定下来, 就可以依据方法的指导, 进入到数据分析的实战阶段。 利用工具进行数据分析, 让数据开口说话。 数据分析常用的工具有: Excel、 Spss、 R语言。
(5) 数据可视化
可视化建基在平面设计、 人机交互、 计算机编程等多个交叉学科之上。 对于数据新闻来说, 借助可视化呈现新闻, 可以使抽象、 复杂的数据变得直观、 形象,降低信息传播中的障碍, 提高信息的传播效用。 可视化项目开发的方案有很多, 主要包含五个步骤: 新闻资料分析、 建立储存数据的方法、 针对可视化视觉编码、 匹配图表与交互设计、 进行程序开发。