​讲述 ▏撩开数据新闻的神秘面纱

如何挖掘出隐藏在数据背后的新闻?小报君今天带大家一起走近这个天天与各种数据打交道的年轻团队,听小伙伴们一起讲讲那些隐藏在数据背后的新闻、产品与故事。其实对于数据新闻的定义很好奇,是不是在报道中插入几张折线图就算是数据新闻了呢?李彤彤:我觉得本质上没有区别,数据新闻不是特殊化的新闻,最终都还是让读者了解某一社会问题。比如我们会用动态图表,因为动态图表相对而言更加生动,能更直接地展现一些历史变迁。

检查咨询微信:DNA662222

全文共2751字

阅读大约需15分钟

▲上观新闻数据新闻中心年轻团队

上观数据新闻中心成立于2017年,前身为上观融媒体工作室。在这三年多的探索实践中,数据新闻中心对数据获取、分析、呈现进行了多方面的尝试,逐步建立起以数据可视化为特色的新闻内容生产模式。除此之外,数据新闻中心也在融媒体报道与智库型数据库服务上积极探索,以丰富报道形式、满足更广泛的采编需求,相关作品取得不错的成绩,曾获评上海新闻奖一、二、三等奖,中国记协全国媒体融合优秀案例,上海人大新闻奖等。数据新闻作品《我们用12520个热词测试了百度搜索,发现了这些规律》还曾入选全球数据新闻短名单。

那么,数据新闻中心到底做什么的?如何挖掘出隐藏在数据背后的新闻?小报君今天带大家一起走近这个天天与各种数据打交道的年轻团队,听小伙伴们一起讲讲那些隐藏在数据背后的新闻、产品与故事。

1

「数据不等于数字」

Q

数据新闻的含义及特点_大数据4v特点是指_数据新闻特点

其实对于数据新闻的定义很好奇,是不是在报道中插入几张折线图就算是数据新闻了呢?数据新闻和其他新闻有什么区别呢?

李彤彤:我觉得本质上没有区别,数据新闻不是特殊化的新闻,最终都还是让读者了解某一社会问题。但数据新闻更强调数据对叙事的推动。相较于采访,我们更多的是对大数据进行分析和处理,发现一些规律或是现象。所以可能也就是插入了几张折线图,但这个过程是围绕数据展开的。

脱崟:数据新闻中的数据也不是只局限在统计数据,我们也会用到纯文本的内容、或是空间数据。比如说我们和互动频道合作写的《半年投诉超19万件!这件上海市民天天接触的事,为何成投诉焦点?》,就是对19万条的投诉文本进行分析,通过机器学习等人工智能的方法,来探究上海市民对物业服务管理有哪些不满之处。

曹俊:我们在2月做的关于上海咖啡馆的稿子,用到的就是大量的空间数据。我们将上海6545家咖啡馆绘制到地图上,用热力图的方式来看上海各区咖啡馆的密集程度,看不同类型的咖啡厅的分布状况,这也算是数据新闻的特点吧。

李彤彤:确实,我们蛮常使用到空间数据的。在《一个黑人的死亡如何在8天内引爆全美300多个城市的抗议活动》中,我们就标注出美国300多个城市的位置,结合具体的时间,通过动图的形式来展现“Black Life Matter”是如何在全美蔓延的。

▲“Black Life Matter”是如何在全美蔓延

大数据4v特点是指_数据新闻的含义及特点_数据新闻特点

2

「获取可以“不择手段”」

Q

如何获取有效数据,有什么经验可以跟大家分享一下吗?

脱崟:我会用Python、R等计算机语言来抓取想要的互联网数据,比如说《当我们谈论垃圾分类的时候我们在谈论什么》,我就是写程式语言来抓取了微博、微信、知乎上的数据。当时微博抓了超过1万条的评论,微信公众号的文章也抓了100多篇,知乎也抓了100多个问题,超过4000个回复。

李彤彤:我们一般使用Python来抓数据,也会用到政府部门的公开数据,还有一些研究报告。像《给小孩取个啥名?大陆和台湾家长都爱上了偶像剧主角的名字》,我就关注了公安部户政管理研究中心和台湾内政事务管理部门的研究报告,通过对比两者的研究结果,来分析大陆和台湾的家长在取名时有哪些差异。

脱崟:其实除了这些网络上的数据,我们也会做实地调研,用很传统的方式来收集一些线下数据。比如我在2018年做的《上海相亲角调查》,就是花了三个月的时间,在上海人民公园里收集那些相亲者的信息,比如择偶要求和个人特征等,然后我们再对这些信息进行编码、人工标注,进而进行使用、分析。

偶尔还会用做实验的方式来收集数据,因为有一部分数据在网络上是没有样本的。我们在写《我们用12520个热词测试了百度搜索,发现了这些规律》时,为了验证“百度搜索的结果会偏向百家号”这个假设,我们用Python写了一个程式,让电脑自动执行搜索的指令,于是我们用超过1万个搜索热词来对百度进行测试。虽然获取数据的过程是麻烦了点,但这篇新闻最后也是入围了全球数据新闻奖的短名单。

李彤彤:除了自己抓取,商业数据因为都不公开,所以我们也会和一些平台合作数据新闻特点,向他们提出我们的诉求。比如说今年春季的稿子《上海春菜图鉴:最受欢迎的居然是平平无奇的它》,我们就是和“美团买菜”合作,获得了上海居民春季买菜的数据。

3

「让数据更有美感」

Q

在我们的既定印象中,数据往往是枯燥的,是令人畏惧的,我身边的朋友都说“看到一堆数据就头疼”。各位大神,有什么办法能帮助大家克服对数据的恐惧呢?

狄斐:的确,如果只是一堆冰冷的数字,读者是会害怕。我们在数据可视化上花了很多功夫,也做了一些尝试,希望在清楚展现数据的同时,加入设计与美学的体验。

就像“上海春菜图鉴”,我们不是简单地使用直方图、折线图这类图表,而是在这个基础上手绘了部分春菜,这样读者看起来就不会觉得那么抽象、乏味。

曹俊:除了让图表更加贴近主题外,也要在呈现形式上下点功夫。比如我们会用动态图表,因为动态图表相对而言更加生动,能更直接地展现一些历史变迁。比如《让数据动起来!1990-2019浦东与主要二十城GDP比较》,我们让直方图随着时间变化,读者可以很明显地看到不同城市在这30年间GDP的变化,也可以很明显地看到浦东的发展。

狄斐:在用数据表达的同时,我们也会尝试加入互动游戏,通过这种方法来提升读者的交互体验,提高阅读感受。在2020年,我们也收集了各行各业关于抗疫的数据,有宏观的数据,也有个体的故事。我们与报社编辑中心、社交媒体、财经、城事等部门的小伙伴合作,一起完成了《守护上海堡垒的居然是ta!》的融媒体报道,用游戏的方式来展开叙事。我们画了不同角色的故事,还做了互动视频,读者可以选择快递小哥、城管执法人员、共享单车保洁员等角色,来体验“返沪复工”的旅程。

4

大数据4v特点是指_数据新闻特点_数据新闻的含义及特点

「分工合作,严肃活泼」

Q

一篇数据新闻的写作周期一般需要多久?大家又是怎么分工合作的呢?

脱崟:稿件周期的长短,取决于数据获取和处理的难易程度。如果是偏向统计数据的报道,最快可能一、两天就可以完成。但这也是团队合作的产物,毕竟整个流程还是很长的,包括数据的搜寻、整理、分析、制图、写稿,一般是一位数据记者与一位设计相互合作,共同完成。

除了统计数据类的报道,一般的稿子可能需要两周左右,因为前期各个环节都很耗时。数据的抓取可能会遇到反爬,处理代码的Bug也很麻烦;有时候抓取回来的数据会很乱,将它清理成有结构性的数据也需要时间;同时像主题模型这样的数据分析也需要不断调整参数,所以前期的数据抓取与分析就是一个大工程。

李彤彤:《解放中的解放》,这篇稿子我们光是抓取数据就花了快一个月的时间。记得当时是三台电脑同时在抓,因为数据量实在太大了,我们周末也要到报社来,查看数据抓取过程是否顺利。

▲ 1949年的《解放日报》出现频次最高的词汇

狄斐:在制图方面,如果需要手绘数据新闻特点,可能就会久一些,因为除了设计,更要保证图表表述的准确性。有时手头同时在做几个项目的图表设计,周期也会比较久。

曹俊:遇到加急任务,有时早上六、七点就接到领导消息,要求赶工。虽然有点忙、有点累,但看到最终呈现效果,还是很开心的。

原创文章,作者:admin,如若转载,请注明出处:https://top.d1.net.cn/pinpai/71624/