中国数据开放之路



    2010年,我尚在英国南安普敦大学(University of Southampton)攻读博士学位时,第一次接触到了开放数据(Open data)的概念和实际应用。当时由南安普敦大学EnAKTing项目组所开发的犯罪地图,能够让人们了解自己生活区域周边发生的偷盗、谋杀等罪案情况,而正是透过这一应用,我惊讶地发现离学校不远处的居民区居然在兩天前刚发生一起谋杀案。而这一应用的成功背后,则是英国政府自2009年起便推动的政府数据开放计划,其使得与民众息息相关的政治、经济、社会、民生类数据得以免费自由地被任何人去利用,从而让终端的用户能够透过数据这一透镜去了解自己身处的城市,监督政府,参与城市建设。

而在英国开放数据茁壮发展之时,开放数据对于中国的大众而言,则是一个完全陌生的概念。可以说,在2013年以前,简体中文世界里,关于“开放数据”的资讯是一片荒漠。唯有在繁体中文的世界,才能从台湾和香港获取到开放数据的资料,了解到港台地区第一线的实践和思考。

2013年,我从英国回到上海,以英国开放知识基金会(Open Knowledge Foundation)中国大使的身份借助社交媒体传播开放数据的理念和知识。得益于彼时新浪微博在中国大陆的流行,由此结实了一批热心于此话题的同好。而在2014年初,由开放知识基金会中国联合数据新闻、城市规划、环保、数据科学等若干个社群共同发起了“开放数据中国”,以建设和培育开放数据生态为社群使命。而这一社群的诞生,使得开放数据在中国的推动工作不再是由一个单一机构来完成,而是由不同行业和领域的机构针对各自特点来开展相应工作,进一步吸引和支撑各类群体在开放数据供求两端中的发展。

但开放数据倡导者一直不得不面对的一个现实是,开放数据作为一个舶来品对于中国社会而言的确是一个曲高和寡的议题。虽然有一批意识超前的城市规划工作者、新闻工作者等在行业内部开始就此议题开展讨论,呼吁政府数据的开放,但长期以来,它都算不得是一个真正得到国家机器认可和推动的话题。

而这一切直到2015年秋才得以改变。

地方政府先行试验,对外却保持低调

2015年9月,国务院发布了《促进大数据发展行动纲要》,纲要首次在国家层面推出了“公共数据资源开放”的概念,将政府数据开放列为了中国大数据发展的10大关键工程。纲要设定了两个关键目标:2018年底前将上线国家政府数据统一开放平台,以及2020年底前“逐步实现信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等民生保障服务相关领域的政府数据集向社会开放”,自此开放数据在中国进入了主流舆论的队列。

但实际在2015年以前,一些中国地方政府就早已开始了政府数据开放的试验。

2011年,上海市政府就率先开展了政府数据开放的可行性研究,并拟定了政府数据开放试点计划。包括上海市公安局、商务委等在内的9个市级委办局参与其中,在各自网站上开辟数据产品的栏目,发布格式易于机器读取和处理的政府数据。次年6月,上海市政府随即推出了全国首个开放数据门户,上海市政府数据服务网(datashanghai.gov.cn),正式对外提供一站式的政府数据资源,首批重点开放政府审批、备案、名录类数据。

上海门户上线之后,首都北京也在同年上线了北京市政务数据资源网(bjdata.gov.cn)。而2013~2015年的三年间,区级、市级、省级三类地方政府相继开展了探索工作,包括佛山南海、武汉、青岛、贵阳、杭州在内的近15个地方都陆续上线了各自的开放数据门户。而这批先行者的共同特质,则是都位于沿江、沿海地域,经济发达,具备信息化基础,且通常被认为是所处地区中具备一定改革、试点能力的地方。

有趣的是,各地方虽开展开放数据工作,推进政府职能部门对数据进行梳理、清洗、发布,但在对外宣传上则异常低调。各地除了门户上线时的一则相关新闻通稿外,几乎就不再有关于本地开放数据计划的媒体声音,这也使得公众对于政府所开展的开放数据工作知之甚少。2014年,以开放知识基金会中国的名义,我就曾开展过一项问卷调查,针对大学学生、科研院校学者、新闻媒体工作者、IT专业人士等调研他们对开放数据概念的理解及对目前中国境内开放数据发展现状的了解情况。而在近200人的回复中,超过50%的人表示从未听说过北京、上海等地有开设开放数据门户,而那些知道且真正有访问使用过开放数据门户的人则仅仅占到了8%。

那么地方政府的开放数据试验开展的成效又如何呢?

整体而言,各地方开放政府数据项目仍是处于初级探索阶段。2015年中,开放数据中国和复旦大学数字与移动治理实验室共同完成了一项名为“中国开放数据探显镜(opendatalens.cn) ”的研究。该项研究选取了有代表性的7个地方政府开放数据项目进行评估。截至2015年5月20日,这7个地方共发布了1946个数据集。其中,发布数据最多的是武汉(635个数据集),发布数据最少的则是湛江(29个数据集),平均每个地方发布278个数据集。而进一步考察各地方所发布数据中符合机器可读的比例发现:当前平均可机读率为84.1%,其中北京和海曙两地可机读比例最高(100%),武汉则最低(54%)。而若考察各地对数据的授权条款,则发现无一满足开放授权的要求。

这也正是当前中国开放数据发展的尴尬之处:虽有行动,但却游离于国际通行的“开放”准则之外。

别把“开放数据”与“大数据”画上等号

一般来讲,国际上的开放数据被定义为任何人可以自由免费获取、使用、再传播的数据资源。在这一简短的表述中,最为重要的便是“自由”两字。依据开放知识基金会的”开放知识”定义,自由来自于两个方面:第一是技术层面上,承载数据的格式必须为机器可读,即为机器所理解而能自动解析的格式;第二是法律层面,即数据的授权条款应能保障使用者获取、使用、再传播数据时不受到人种、群体、阶层、用户等级、用途、目的等各类的限制。

但对于中国的数据开放工作而言,长期以来缺位的便是对“开放”的诠释和定义。在开展开放数据试验的地方中,也仅青岛一地在其《关于加快推进公共信息资源向社会开放的通知》中稍许明确了数据的机器可读性:“在履职过程中产生、收集和整理的信息资源,凡不涉及国家秘密、商业秘密和个人隐私的,原则上都要以公众可获取、易加工的方式,原始、整体地向社会开放”,但其对数据的授权依然是只字未提。而国务院的《促进大数据发展行动纲要》也从未明确定义其所指称的“公共数据资源开放”具体有何准则。因而,整个中国的开放数据,实际上,就是建立在不同机构、乃至执行个体个人对开放数据理解基础上而开展的工作。

缺乏统一的“开放”定义,亦使得开放数据这一概念,承载了不同的含义。一些地方强调政府数据是“大数据”发展不可或缺的一部分,提倡定向对企业开放数据或者以交易形式来开放数据,但开放数据并非大数据的子集,开放的数据未必要符合大数据规模大(volume)、流转快(velocity)的特点,小而美的数据,也能满足公民创新之需要。而另一方面,其“自由”的属性,决定着其不作为“垄断性”资源存在于市场,天生具备公共属性,亦与市场上所谓大数据为“黄金”、“石油”的论断相左。然而,在大数据神话的全民狂欢下,无论是政府还是媒体,都或有意、或无意地将“非封闭”的数据一股脑称之为开放数据,而这一范畴则实际可包含数据共享、数据交易、数据开放等多个数据流通的类别。 概念的混淆,某种意义上,也造就了“开放数据”在中国的一时“繁荣”。

但若跳出数据的层面来看开放数据,则会发现开放数据在中国想要生根发芽还为时尚早。

发展开放数据的两种路径

不同于传统政府信息化项目,开放数据的发展并非仅仅是一个技术层面的问题,其发展的关键在于开放文化是否能够渗入整体政治、社会、经济的发展,其与开放政府、公民科技、政府数字化变革等多个议题都有着共生的关系。这也就意味着想要推动数据开放在中国的全面发展和落地,就势必需要政府能够改变其推进开放数据项目的方式,由政府单一推动变为政府——公众协作推动,同时重新思考开放数据项目的定位,将其从一个信息化项目或者说大数据项目转变为一个牵动整体政府数字化变革的基础项目来建设。

归根结底,开放数据的建设是需要从一个生态建设的层面来思考的,而如何去做则是摆在眼前的一个难题。2014年,世界银行透过开放知识基金会的国际网络和开放数据中国达成合作意向,联合复旦大学数字与移动治理实验室共同组织了中国第一个开放数据的专题会议,以“开放数据生态建设”为主轴,汇聚了数据供需两端的代表共同讨论中国开放数据的建设和发展。时任纽约大学The GovLab实验室高级顾问的Joel Gurin,美国休士顿市开放数据项目的奠基人之一Bruce Haupt,世界银行开放数据工作组负责人Amparo Ballivian作为国际专家分别分享了开放数据生态建设的关键所在,这其中,公民社群的建设和互动则是焦点之一。

无论是美国的“为美国而编程”(Code for America) 还是台湾的“g0v”(零时政府),都是开放数据浪潮下的明星社群。起步于民间自底向上的力量,公民社群从公民自身的需求出发,去倡导并利用本地释放的开放数据,将其作为监督政府与建设城市的”武器”。

2012年底,因不满当时台湾政府经济动能推升方案广告的说明效果,正在参与雅虎黑客松(hackathon)比赛的高嘉良等人,临时改变所做项目,抓取了网络上的政府预算数据并予以可视化,获得了比赛的佳作奖。而凭此比赛的奖金,高嘉良和朋友们发起了“g0v”,以实作出网络服务的方式进行”骇”政府的公民运动。而在3年之后,当柯文哲上任台北市长之后,则接受社群提议,开放了台北市财政预算,积极与g0v社群合作,推出了台北市的财政预算可视化。也正是在这样的一个互动博弈的过程中,地方政府的开放数据发展水平随之提高。

而与之草根模式的不同的,则是纽约的BigApps模式,由政府牵头,组织竞赛,“招安”公民创客来利用开放数据进行创新,正向驱动数据的供给。这一模式同样在英国大获成功,由英国开放数据研究院及英国智库Nesta共同组织的开放数据系列挑战赛,分别在食品、治安、环境等多个领域下设定命题,鼓励对开放数据的商业探索,并积极孵化培育创新企业。

相对于草根社群的崛起,国内政府更偏向于竞赛这一模式的可掌控性。为此,自2014年起,上海、北京率先尝试了开放数据竞赛的试验,期望不设命题地提供数据、吸引大众创新利用数据的创意,但收效甚微。而2015年,在中国工业设计研究院、开放数据中国、上海交通大学、复旦大学、美蒽朗公司等多个机构的合作下,与上海市政府协作,以政府——社群共建的模式推出了上海开放数据应用创新大赛(以下简称SODA)。2015年大赛聚焦交通出行,向参赛者提供了包括公交卡刷卡记录、强生出租车运载记录等优质数据,吸引了505个优秀的交通领域应用,使得大赛联合主办方上海市交通委大呼“脑动大开”。而2016年,SODA大赛则进一步聚焦城市安全的主题,抛出食品安全、交通安全、金融安全、商圈安全等多个领域的数据,吸引参赛者参赛。

自SODA大赛以来,全国各地尾随启动数据竞赛的政府则越来越多,青岛、广州、贵阳等地纷纷推出了交通等方向的数据大赛。但令人遗憾的是,在这一争相模仿的过程中,“开放”并非是比拼的核心,相反的,除了上海之外,其余地方在推出大赛时,往往选择了更为封闭的方式来开展比赛,将重点放在了利用政府数据资源吸引企业、扶植创新等议题上,数据开放这一原本的主角则踪迹全无。

但即便是成功如SODA大赛,也不能说在开放之路上走的多么顺畅。其数据的提供方式仍旧只能算得上是半开放,仅有入选复赛的100支队伍才能获得完整的数据,且不得二次传播。而原本比赛期望达到的推动政府部门长效开放的目的,也尚未能得到落实。如何有效地推动大赛和现有开放数据项目的齐头并进,在达成创新创业的双创目标的前提下,同时推进开放数据自身的发展和进步,则是摆在上海团队面前的一道难题。

另一方面,摆在公民创客面前的的是非商业项目的落地困境。2015年SODA大赛中,不乏有团队利用数据为政府开发了决策模型和应用,期望帮助政府来改善交通,而此类侧重于社会价值的项目在落地中并不顺畅,一方面缺乏市场的买单,而另一方面,政府现有的采购体系也很难给予支持。但对于公民创客来说,利用开放的数据来进行创作并改善城市的运作是最为关键的,如何使得他们的心血能够落地,则是对现有市场体系和政府运作体系的考验。正如前文所述,开放数据不是一个独立的信息化项目,它是一个开放生态中的有机一员,需要我们的政府、企业作出相应的变革,拥抱开放,和公民创客们合作共营一个良好的生态,使得城市转变为可读可写的平台,才能互相促进成长,平衡供需,培育创新。

而这,是否就是中国将会探索出的开放之路?

(本文作者是南安普敦大学计算机博士,自2013年起作为开放知识基金会大使推动数据开放,并联合发起开放数据中国。目前为SODA大赛项目负责人。本文仅代表作者观点。)