如何迎接更多的“巴拿马文件”?
目前最大的问题是,技术是专制的,于是它很难被用在利于大众的领域上。人工智能不应该是绝对的坏事,如何把技术用在对的地方 - - 比如让机器学习帮助调查记者的工作?
在巴拿马文件曝光三周年之际,我常常想知道我们错过了哪些故事。
巴拿马文件提供了一个鼓舞人心的跨境媒体合作的成功案例,并在报道服务中使用了开源技术。正如我的一位同事所说的那样:“你手中的数据基本上庞大而混乱,你需要用技术来梳理你的问题 — 以解决每个人的问题。”
他指的是包括他本人在内的400名记者,他们在一个虚拟新闻编辑室工作了一年多,以揭开巴拿马律师事务所 Mossack Fonseca 的大量文件中隐藏的奥秘。这些记者使用开源数据挖掘技术和图形数据库,将数十种不同格式的1150万份文档落在实处。
尽管如此,在这项工作中做出绝大多数思考的人都是记者。技术帮助我们组织、索引、过滤和使数据可搜索。其他所有工作都归结为400名记者的大脑集体了解和理解各种角色和计划、前线公司和参与秘密离岸世界的银行。
如果你考虑一下就能知道,它仍然是一个高度手动和耗时的过程。记者必须根据他们所知道的情况,在类似 Google 的平台上逐一输入搜索内容。
那么他们不知道的是什么?
快进三年,机器学习算法正在蓬勃发展,这些算法正在改变人类的工作方式,从农业到医学再到战争。计算机学习我们所知道的东西,然后帮助我们找到人类无法预料的模式,并以我们自己无法做到的方式预测事件。
如果我们要在巴拿马文件上部署机器学习算法,这项研究会是什么样子?我们可以教计算机识别洗钱吗?一种算法可以将合法贷款与旨在在实体之间洗钱的虚假贷款区分开来吗?我们是否可以使用面部识别来更容易地确定该宝藏中数以千计的护照副本中的哪一个属于当选的政治家或已知的罪犯?
所有这些的答案都是肯定的。更大的问题是,我们如何使这些人工智能技术民主化,并将它们完全整合到各种规模的新闻编辑室的调查报告流程中?如今这些技术主要由谷歌,Facebook,IBM 和少数其他大公司和政府控制,而这些当权者和他们联盟的寡头正是记者需要针对的目标。
一种方法是与大学建立伙伴关系。我去年秋天来到斯坦福大学,参加 John S. Knight 新闻奖学金计划,研究人工智能如何增强调查报告,以便我们更有效地发现错误行为和腐败行为。
我的研究使我进入了斯坦福大学的人工智能实验室,来到了麦克阿瑟天才奖学金获得者 ChrisRé 教授的实验室,他的团队一直在研究一种称为“弱监督”的机器学习技术前沿。
该实验室的目标是“让人们更快更容易地将人类对世界的了解注入到机器学习模型中”,Alex Ratner 博士解释说。领导实验室开源弱监督项目的学生,名为 Snorkel。
今天主要的机器学习方法是监督学习,其中人们要花费数月或数年时间手动标记数百万个数据点,以便计算机可以学习预测事件。例如,为了训练机器学习模型以预测胸部X射线是否异常,放射科医师可能要将数万张X射线照片手工标记为“正常”或“异常”。
Snorkel 的目标,以及更广泛的弱监督技术,是让“领域专家”(在我们的案例中是记者)使用自动标记数据的功能或规则来训练机器学习模型,而不是手工标记繁琐且昂贵的过程。一句话总结就是:“如果你遇到问题x,就这样处理它。”(这是 Snorkel 的技术说明)。
“我们的目标是实现民主化和加速机器学习,”Ratner 在去年秋天第一次见面时说道,这让我立刻想到了调查报告的可能应用。如果 Snorkel 可以帮助医生快速从X射线和CT扫描中提取信息,以一种有意义的方式对患者进行分类 — — 而不是让患者排长队等待 — — 它可能也有助于记者找到线索并优先处理类似巴拿马文件那种规模的调查的情况。
Ratner 还告诉我,他对“不必要的幻想型”解决方案不感兴趣。他的目标是以最快、最简单的方式解决每个问题。
1月初,我的新闻编辑室 — 国际调查记者联合会和 Re’s Stanford 实验室发起了一项旨在加强调查报告流程的合作。为了沿用“没有任何不必要的幻想”原则,我们将其称为机器学习调查。
对于记者而言,与学术界合作的吸引力有两个:获得可以帮助我们报告的工具和技术,以及大学环境中没有商业目的。对于学者而言,吸引力是“现实世界”问题和记者带来的数据集,并可能带来新的技术挑战。
有许多具有公民意识的人工智能科学家关注民主,他们希望帮助记者进行改变世界的报道。但是,如果合作能够持久并富有成效,那么如果学术界可以解决技术挑战,并且数据可以在学术环境中复制和发布,那么它就会有所帮助。
如果目标一致,那么在关系的早期就进行整理以及权衡取舍。对我们而言,这意味着首先要关注公共数据调查,因为它非常适合 Ré 实验室的研究。合作伙伴关系正在帮助我们建立 ICIJ 团队去年为获奖的 Implant Files 调查所做的机器学习工作,该调查揭示了全球医疗设备严重缺乏监管的现状。
有些问题我们根本不需要机器学习。那么我们怎么知道AI何时才是正确的选择呢?领导 Quartz AI Studio 的 John Keefe 表示,机器学习可以帮助记者在当他们知道应该在大量文件中寻找什么信息但发现目标信息需要太长的时间或太难的情况下。
以 Buzzfeed News 2017 年的间谍飞机调查为例,其中机器学习算法部署在飞行跟踪数据上,以识别监控飞机(这里的计算机已经学到了飞机的转弯率、速度和高度模式),或者亚特兰大学报对医生性骚扰事件的调查,其中计算机算法帮助识别了超过100,000个纪律文件中的性虐待案件。我也对乌克兰数据新闻机构 Texty 的工作着迷,该机构使用机器学习通过分析450,000个卫星图像来发现非法的琥珀采矿。
如果您在调查中使用机器学习,请确保从参与项目的记者和编辑那里购买。您可能会发现阻力,因为新闻编辑室的AI读写能力仍然很低。
在 ICIJ,研究编辑 Emilia Diaz-Struck 一直是我们新闻编辑室的“人工智能翻译员”,帮助记者了解我们选择使用机器学习的原因和时机。
“最重要的是,我们可以用它来解决那些原本无法解决的新闻问题,”她说。记者在人工智能训练的过程中发挥了重要作用,因为他们是计算机需要学习的“领域专家” — — 相当于培训模型以识别肿瘤中不同恶性程度的放射科医师。
在 Implant Files 的调查中,记者帮助训练机器学习算法,系统地识别被错误分类为伤害和故障的死亡报告,这一趋势首先被提供给记者的消息来源发现。
计算机正在增加记者的工作而不是取代记者职业。 AJC 团队阅读了与使用机器学习发现的6,000多个医生性虐待案件相关的所有文件。
ICIJ 事实检查员手动审查算法发现的2,100例死亡中的每一例。 “新闻业并没有停止,它只是在准备下一个跳跃,”Keefe 说。他在 Quartz 的团队最近获得了奈特基金会的资助,与机器学习调查的新闻室合作。分享经验,以便其他人可以学习。在这个领域,记者可以从学术传统中学到很多东西,这些学术传统是建立在彼此的知识上,并公开分享成果,包括好的和坏的。
“失败是研究人员的一个重要信号,”Ratner 说。 “当我们在一个失败的项目上工作时,就像它一样令人尴尬,这通常会启动多年的研究项目。在这些合作中,失败是应该被跟踪、测量和报告的东西。“
当两个不同的世界聚集在一起解决问题时,可能会发生大量的意外情况。 ICIJ 的数据团队现在已经开始与 Ré 实验室的另一部分合作,该实验室专门从表格和其他奇怪格式的文本中提取意义和关系(想想 SEC 文件或 ICIJ 卢森堡泄漏项目中令人头晕目眩的图表,就是那样)。
该实验室还在研究其他更具未来感的应用,例如从领域专家那里获取可用于训练AI模型的自然语言解释(称为 Babble Labble)或在他们阅读研究时追踪放射科医生的眼睛,看看这些信号是否也可以帮助训练算法。
也许有一天,在未来不太远的时候,我的 ICIJ 同事 Will Fitzgibbon 将使用 Babble Labble 来谈论计算机关于洗钱知识的问题。
当我解释那些不可能的、多步骤的图表时,我们将追踪我的同事记者 Simon Bowers 的眼睛,这些图表在解锁时揭示了跨国公司为避免纳税而采用的方案。
与此同时,我们需要保持真实。没有什么不必要的幻想。