「为了解析、共享、使用2.6TB的巴拿马文件,他们到底开发了哪些工具?记者们又如何使用?」

特约撰稿人 周炜乐、梁思然 发自尼泊尔

巴拿马文件的曝出,靠的是近80个国家的400多位记者,在逾12个月的调查中的凝心聚力。
巴拿马文件的曝出,靠的是近80个国家的400多位记者,在逾12个月的调查中的凝心聚力。端传媒摄影部/设计图片

一家律师事务所,曝光1150万份文件,数据量超过2.6TB,涉及214万家离岸公司,21个避税天堂,和全球72名前任或现任国家元首、政府首脑或其家人——巴拿马文件的曝出,靠的是近80个国家的400多位记者,在逾12个月的调查中的凝心聚力。而他们的联系与协作,则是得益于国际调查记者同盟(ICIJ)铺就的数据管道。

由此,一个深入当地、放眼全球的新闻编辑室文化,一种记者与程序员的有效联结,正在多个国家的记者团队中扎根、发展。

ICIJ的数据团队,是怎么建起来的?

现在能驾驭大型数据调查的ICIJ,4年前却为此大为头疼。当时,前一年在哥伦比亚大学史泰博调查报导中心交流学习的莫尔•卡布拉(Mar Cabra)加入ICIJ,全职员工仅有4名,机构缺乏数据处理能力。遇项目需要,他们通常招募短期雇员处理数据。虽可解一时之急,但合同工的工作时间不固定,项目持续性差,发展缺乏长远规划。

2011年,ICIJ掌握了250万份离岸金融秘密文件,联合50多家媒体机构开始分析密档,陆续揭露了10个离岸金融管辖地、10万多个离岸公司的交易情况以及公司的实际持有者,最终成为影响波及全球的“离岸解密”项目(Offshore Leaks)。项目的巨大影响导致多个政府立案调查、高层下台、修订政策。这也是ICIJ首次做这样规模的大数据分析。

项目结束后,参与项目的两位程序员加入ICIJ,搭建起数据团队。如今,机构共有12名员工,有着四名程序员和三位记者的数据和研究团队就占了半壁江山,电视记者出身又热衷于数据新闻的卡布拉担任团队负责人。她曾比喻自己就像空中管制员,负责程序员和记者之间的沟通、协调,监督管理工作进度,直接向副总监报备工作。此后,ICIJ成员合作模式也日渐纯熟,具备了处理大数据量的能力。此次,2016年巴拿马文件的数据量为2.6TB,是2013年离岸解密的10倍,维基百科的1500多倍,绝大多数为邮件、符合数据库格式的信息、PDF文件、图像和文本文件。

程序员X记者,如何搞定2.6TB调查?

电子通讯软件、数据处理工具、数据库,以及可视化呈现工具,都是ICIJ制作、发布项目、扩大影响力的有利助手,都是程序员和记者相互合作、打磨的结果。在卡布拉的带领和协调下,程序员协助解析数据、开发工具,并积极征求记者同伴的意见,以便日后改进。

为了与数十个国家的记者做快速沟通,ICIJ摒弃了既麻烦也不安全的邮件组。他们得到了奈特原型基金(Knight Prototype Fund)的资助,提升开源软件Oxwall安全和使用性能,联系成员测试、改进,一步步变成了现在的“记者版脸书”Global I-Hub:登入时需通过双因素认证(two-factor authentication ),登入后页面上显示论坛话题、链接,用户可分享文件、实时聊天。

大家可能好奇,这2.6TB的数据文件,是如何被解析的?要知道,大部分泄密数据零散不一、未成结构,莫萨克•冯赛卡律师事务所的内部数据库到ICIJ手上时已不再是原有格式。程序员里戈韦托•卡瓦哈尔(Rigoberto Carvajal)和开发员米格尔•费安多(Miguel Fiando)重新构建了数据库结构,根据文件原有编码找到数据之间的关系,使文件符合图形数据库格式。

ICIJ这次遇到的文件格式千奇百怪,他们于是不得不将绝大多数文件做光学识别(OCR)扫描,再标记索引、处理解析。ICIJ用了三四十个临时服务器,以便同时完成处理数据和扫描文件的任务。

数据解析完成,ICIJ用图书馆员常用的开源解析工具Project Blacklight,做分面搜索。工具支持按文件结构、年份、文件类型检索,也可支持正则表达式检索,用户可检索含有护照号码等特定格式数字的文件,预览并下载。程序员马修•卡鲁阿纳•加利齐亚(Matthew Caruana Galizia)解析出文件处理链的代码,供ICIJ做开源共享。

经程序员的努力,ICIJ还开发了批量检索功能。如果记者想寻找所在国家的政治人物,上传名单到Blacklight,系统便可按照近似度检索,将结果输出至csv格式的表格。这就意味着,如果检索含有冰岛首相西格蒙杜尔•贡劳格松(Sigmundur Gunnlaugsson)的名字,若将结果的相似度设置为2,可搜出符合“西格蒙杜尔·贡劳格松”,“西格蒙杜尔·X·贡劳格松”,“贡劳格松,西格蒙杜尔”格式的结果。记者可自主设置条件,快速检索。

将海量数据可视化,也是一个需要程序员巧思的细致工序。ICIJ选择了工具Linkurious,用关系图展现数据,方便易懂。记者仅需点击数据点、延伸数据网,就能检索姓名。记者还可通过它用API抽取数据,或者把它插入网页故事。

此外,ICIJ还开发了一个承载数据库的交互式工具“The Power Players”,可查 70多位政治人物的资料。点开页面,你就能看到政治人物的头像依次排列,点击头像,在左侧可见与该人物相关的数据条目,右侧可见其周围的关系网。报导发表前,ICIJ会与合作伙伴分享这个交互工具的嵌入代码,有些非英语国家的媒体还会翻译成自己的语言。

上述功能强大的工具,藏着ICIJ贴近记者需求的用心。对ICIJ来讲,与他们合作使用工具的用户既有熟稔数据技能、与程序员并肩作战的记者,同时也有擅长分析文件、与人交谈却在技术上怯场的传统调查记者。因此每个工具都必须照顾两方的需求,操作过程尽量简单,但也能完成结构复杂、体量庞大的工作。

目前,ICIJ已经在尝试开发一个可以在不同电脑上安装、配合浏览器运行的插件式工具,方便记者与持有相应实体机构信息的其他记者联系、合作。想要做到这一点,ICIJ还需让工具克服自然语言处理等难关。

海量数据到手,小型记者团队如何庖丁解牛?

顺着ICIJ构建的数据通道,各国记者团队开启了揭黑之旅。

去年夏天,深耕调查报导40余年的印度尼西亚《Tempo》周刊受ICIJ邀请,组建了一支由调查组编辑菲利普斯·帕里拉(Philipus Parera)带领的6人记者团队。

粗览数据,《Tempo》的记者发现,近800名印尼政商界人士的名字赫然在列。他们列出名字,分为三类:政府官员、商人和其他,每个记者分配相应人数进行调查。六个月里,在ICIJ提供的编程、数据处理的支持下,他们搜索利益链条,每天和其他参与调查的媒体讨论发现、互通有无,向ICIJ报告进展。

今年4月3日,《Tempo》发表了第一批报导。报导披露的名单里,包括因腐败案外逃的在国内势力庞大的两名企业家以及首都雅加达地方行政长官,舆论哗然。

与ICIJ的这次合作,让这个传统纸媒体验到了数据挖掘、跨境合作的潜力。在帕里拉看来,巴拿马文件采取的跨境调查形式,可以为故事增值。他说:“从这次调查后,我们相信,如果要做更具影响力的调查报导,我们必须要通过合作。不仅在印尼国内,在亚洲甚至国际上,我们正开始尝试和尽可能多的媒体建立合作网络。”他表示,杂志也正考虑聘请程序员,来协助处理日益增多的大数据分析或其他调查项目。

蒙古电视台也是巴拿马文件调查中的一员,但一开始并未参与其中。巴拿马文件一出,蒙古电视台新闻制片人拉瓜·尔登(Lkhagva Erdene)在朋友帮助下确认蒙古人涉及其中,便争取机会参与。经由引荐,他们于今年5月初加入调查。

仅有三名记者的调查团队,在ICIJ的数据库里检索了与私营企业有联系的重要政治人物,发现蒙古前总理与一家采矿企业有关联。从这家企业出发,他们顺着调查了国内有关企业、排查企业采矿许可证等合法资质。

不久后,尔登在三期新闻播报中,曝出蒙古前总理、前外交部长、总统的外交顾问和蒙古首都乌兰巴托市市长的儿子都曾在同一家采矿公司的董事会任职,并披露了这家公司每笔20万到50万美元不等的股票交易。

在这个亚洲内陆小国,五分之一人口生活在国际贫困线下。官员牵涉巨额贪腐的报导,震荡非同凡响。尔登说:“官员拥有巨额离岸财富一直是社会上的某种‘传说’,而跨境调查是唯一能证明的方法。依靠这些数据,我们记者与国内情报部门或检察机关相比,能更有力地质疑权力,做出突破性调查。巴拿马文件(对蒙古)另外一点重要意义,就是让调查报导重新受到公众重视。”

巴拿马文件之外,还有哪些惊艳的数据调查?

身处数字媒体时代,新闻机构愈加重视利用信息、数据和互动技术,挖掘新奇故事、揭露潜在链条,也更重视背景科普、数据再利用。以往枯燥、冗长的报导变得直接、鲜活,新闻从平面时间轴变成三维空间。

成立于2006年,由24家非营利性调查中心、数十名记者和几大东欧和中亚区域性新闻机构联合组成的有组织犯罪和腐败报导项目(OCCRP)深谙此道。他们依靠本地经验丰富的优秀记者生产优质、低成本且高效的报导,建立国际网络连接各地记者,调动其成员组织内部的研究员、编辑、设计师和程序员予以支持,与世界各领域的记者建立深层、稳固的关系。从2009年以来,他们的报导已经使得28亿美元资产被冻结或截获,各国政府开启55项犯罪调查、发出115份逮捕令。

数据技术是他们的强大支撑。他们开发了VIS、Influence Mapping、OpenCorporates、Document Cloud、Investigative Dashboard、Overview等工具,可实现创建虚拟数据库、分析呈现关系网络、查阅公司注册信息、标注并发布文档、协作调查、可视化等用途。他们还建立了有组织犯罪的在线资源中心和数据库,包括庭审记录、法律条文、研究报告、公司记录和公开文件等各类资料,向记者和公众开放查询。

去年,其历时一年的调查报导“邪恶联盟”(Unholy Alliances)使其第四次捧起了新闻奖项“全球亮光奖”。记者通过上千页银行资料的检索和调查,结合采访,挖掘出揭露黑山总理洛•久卡诺维奇(Milo Djukanovic)及其家族银行通过洗钱、向贩毒团伙和商人非法借贷以敛财造势的黑幕。

如果细数优秀数据报导,今年获得普立兹国内报导奖的《华盛顿邮报》系列报导也属一例。他们创建全国性数据库、采访当事人,从枪击被害人特征、案件处理方式等,揭露警察枪击平民背后诱因,问责体系弊病。

以猎奇、有趣著称的新闻聚合网站Buzzfeed,其调查团队也曾参与泄密文件调查。这就是与BBC合作、揭露顶级网球组织操纵比赛的报导。丑闻的爆出,靠的也是一份泄密文件,以及记者的深入调查——记者分析了26000场比赛中的赌球行为,并在三个大洲采访了对博彩和假球有专业见解的人士、网球官员和运动员。如果再往前推,今年奥斯卡获奖电影Spotlight(港译《焦点追击》)展现的《波士顿邮报》天主教神职人员性侵案调查,也是在大数据技术到来之前,严谨排查数据的报导典范。

这些报导引领的新风向是:从数据和采访找故事,以故事理顺逻辑、说明数据,又以数据佐证故事,阐释问题的规模和影响,唤起社会关注,叩响舆论监督大门。

一场新闻业与数据技术的变革日益勃兴,但新闻故事仍是他们的立身之本。正如哥伦比亚大学新闻学院教务长希拉·克罗内尔(Sheila S. Coronel)曾说的:“新闻记者作为孤胆英雄的时代一去不复返了。但归根结底,最有价值的调查报导投资是每个愿为揭露丑恶而将自己的生命和自由置之度外的记者。”

参考文章:Mar Cabra & Erin KissaneMarina Walker GuevaraDrew SullivanBrant Houston周炜乐