作者:李丁
几年很热门的大数据问题在主要研究数据、用数据说话的人口学界却很冷清。除王广州专门发文讨论过大数据时代人口学的创新问题(王广州,2015; 2017)外,其他人很少进行正式讨论。具体研究方面,仅有少数几个作者用户籍登记数据(王莉,2011)、婚姻登记数据(高颖等,2011到2016的系列文章)、手机信令数据(王德等,2016)、灯光遥感数据(高倩等,2017)、百度迁徙数据(赵梓渝,2017;蒋小荣,2017)做了些研究发表在人口学的几大期刊上。为什么会出现这种情况?
一、人口学大数据研究讨论还较少的原因
大体而言,这和中国大数据的开放现状、人口学研究取向以及人口学者的训练都有一定关系。
一方面,人口学研究讲求量的准确,而能提供这种准确度的大数据不多。用南佛罗里达国际大学的赖庆博士的话说,人口学是“定于量”的,不像社会学“化为量”即可。关于中国的生育水平,人口学界争论了二十多年,就是为了确定中国的总和生育率到底是在大约1~2之间的哪个具体小数上。
其次,近十多年来,确实有越来越多的信息被电子化,甚至量化,但是诸如普查数据、户籍数据、婚姻登记数据、出生数据、教育学籍数据,以及医保、交通、劳保、不动产、银行等公共部门掌握的微观个人数据开放获取的可能性仍很低。已开放的数据往往只是一些互联网企业有限开放或可公开爬取的异形数据或零碎的、不系统的文本、图片、视频数据。这些数据往往缺乏基础性的社会人口变量,而且大多没有解决样本的代表性和测量准确性问题,无法对人口学所关心的数量、结构、过程做出精确估计。因此,人口学者通常也不敢用这些数据。
再者,人口学者不太擅长用这些新数据。人口学擅长年龄、队列分析,经常要求年龄别或者五岁组的统计指标,这就要求各年龄组都具有独立的代表性,样本规模要求很大。一直以来,人口学者主要依赖权威部门(统计局,卫计委)发布的汇总数据或者大规模的抽样数据(包括统计局的普查、小普查的样本数据,人口变动抽样调查数据,卫计委组织的流动人口动态监测调查数据和计生服务与生育状况调查数据等少数微观样本数据,以及各种教育、卫生、户籍、人口汇总数据,或各单位自己组织的小规模样本调查数据)来做研究。说人口学者会玩数据,是因为他们擅长于开发利用汇总数据,较早使用计算机处理微观数据,而且可能处理过体量比较大的数据(如普查数据)。 这些数据结构通常很简单,变量也不太多。但采集和处理异形数据(如访谈文本)的经验较少,比社会学家更挑数据,更依赖公共部门;另外,他们中真正接触到超大规模原始业务数据(样本量千万以上的如户籍数据、全员人口监测数据、学籍数据)的并不多,很多还需要依赖掌控这些数据的业务人员进行查询和汇总。可以说,在面对新型大数据、异形数据,国内人口学者的实际处理能力还有待提高。比方说,新型大数据中空间信息和社会网络信息越来越多,国内人口学者对这些新信息的理解和处理能力就还比较有限,相当部分研究主要由地理学专家贡献。
总而言之,不能用、不敢用和不会用阻碍了在量化方法基础相对较好的人口学者对大数据的探索和发言。尽管社会上大数据的口号喊了很久,但国内基础性公共数据不可得的情况未明显改观,使得即便讨论也容易变成纸上谈兵,而夸夸其谈也不符合人口学者的形象。
二、人口学该如何接触和开发大数据
在这种情况下,人口学者是不是光等着掌握数据的公共部门开放数据就可以了呢?面对越来越多的基于互联网和智能设备的新数据、异形数据,人口学者能在推动这些大数据的应用方面有所作为吗?这些新数据对人口学者回答传统研究问题有帮助吗?这就首先需要弄清楚所谓的大数据到底包括哪些数据,哪些与人口学关注的核心变量或问题相关?然后想办法接触和开发这些数据。
今天所谓的大数据主要来自两个方面,首先是政府及公共部门日渐电子化的基础业务数据。王广州将之分为全员人口数据和特定人群数据,如户籍、生育、死亡、医疗和迁移登记数据等等。以往很多纸质版的、分散的资料,现在大多都电子化,并联网统一。这些业务、台账、调查数据包含大量的人口变量信息和社会属性信息,如果合理开放,能帮助人口研究者更好地研究人口的生、老、病、死、迁移流动以及行为活动。并且可以把研究做到很小的区域范围内,突破以往研究中研究精细度和研究规模之间此消彼长的矛盾。王广州研究员强调的就是这类数据。
但是这些数据(包括人口普查样本数据)直到现在仍极少向人口学者开放,部门之间分割严重,很少互联互通。这些数据已经存在那里了,花了大价钱,相关部门也逐渐认识到它们的价值,如果关联串并整合起来,价值会更大。但很可惜,部门利益或过度敏感等原因,使得这些数据的开放、整合困难。封锁在那里,不断贬值。晚开发一天,信息就过时贬值一天。数据采集项目不是花完钱收集好就完了的,更重要的是数据开发。而且开发使用者越多越好,因为数字资源具有很强的外部性,非排他性。一些被担忧的问题本可以通过技术和制度设计解决,但常常被相关部门搞成权力问题、政治问题。但相信,这些数据会日渐统合、开放,一些地方的动作会比中央动作更快,某些地方会比另一些地方快。你不整合、不公开,整合、公开的地方的治理效率就会比你更高,权威性、合法性就会比你大,迫使你不得不学习、模仿。这首先需要有人懂得如何统合利用这些带有丰富的人口社会属性的大数据,切实做出提高社会治理效率,降低交易成本的研究成果。
第二类数据来自互联网痕迹数据、GPS定位、手机信令、视频监控等便携或智能设备产生的新数据。这些数据包含人们动态的时空信息和社会行为信息,通过对这类数据的开发能把握一定时空范围内人口的分布和活动情况,提高我们对于人口动态的把握。但往往缺乏基础性的人口社会信息,使得能够研究的主题往往超出传统人口学范围。基于这些新数据做深入交互分析还比较困难,人口学者要与其他专业一起面对相关挑战,做好创新准备。
如果不空谈,人口学者就要多接触这两类数据。除了社会关系之外,主要应该是凭借人口学现在的专业理论和技能优势与相关公共部门或商业机构建立合作关系,获取数据的使用权。这意味着我们必须掌握大型数据库的使用方法以及新型数据的信息提取加工方法。如各种异形数据和基础数据的匹配方法,将手机号、机器识别号匹配身份证信息,从身份证信息提取年龄、性别、户籍、出生地信息这样的基本技能;也包括通过电子痕迹数据甄别使用者的性别、年龄、常住地、工作地等标签信息的方法,包括机器学习方法。
随着企业数据资产意识的增强和公民隐私保护意识的增长,人口学者以及其他学者接触和使用相关数据的难度并不一定越来越容易,只有占据有利的分工位置,才能有所作为。北京市师范大学的高颖通过和北京市民政局数据信息中心的合作,利用北京市近年来的婚姻登记数据对北京市婚配模式及其变迁、人口结构及其变迁做出了系列研究,对我们认识北京户籍人口、常住人口的演变规律提供了非常重要的基础信息,为进一步的人口调控与政策调整提供了依据,就是很不错的例子。
大体而言,人口学有两种路径逐步提高接触数据的机会:第一,以专家身份接受委托,在保密的前提下帮助这些业务部门开发数据,生产非公开的咨询产品,让相关部门知道人口学的独特价值;第二,培养好人口学学生,给他们武装上人口学的理论武器和技术装备,并输送进这些业务部门,进行数据管理和开发。这两种方式,都可以提高人口学者的专业形象,帮助与公共部门和商业机构建立社会联系,有助于人口学界逐渐了解这些新数据资源,掌握数据的开发使用方法。在此过程中,人口学者特别应该有意识地争取获得一些可以开放使用的样本数据,与开发使用经验一起,分享给整个学术界,而不是封闭独占。这样才能为整个学术共同体进行研究和教学积累基础设施,推动整个共同体专业能力的提升。大家要有意识地提高人口研究的可复制性和开源性,公开数据计算过程,提高统计结果的可比性。越是开放的数据(包括采集过程和分析过程),权威性越高,可大大降低长期的数字之争发生的可能性。各大期刊可尝试要求投稿者提供数据分析的源代码和样本数据。
实际操作时,如果国家层面入手难度较大,可以考虑先和那些先行一步的乡镇、县区、省份或部门合作,将研究重心下沉到一定的区域。以往因为各个地区经济实力不足,数据基础差,很多人口学者不得不主要利用国家层面的数据,关注全国层面的人口问题。未来各个地方的经济实力不仅支持大规模数据的采集和人口研究,数据的质量也会越来越好,随着人口转变的深化,地方也会越来越重视人口研究,为人口学者提供更大的舞台。越来越多的地方会认识到人口资源和人力资本争夺的重要性,人口问题的异质性及其对解决方案影响,人口学的发展空间仍然很大。
三、人口学要强化优势并努力创新
在这种探索实践过程中,人口学者如何展现自己的学科优势呢?我想核心是应该积极围绕大数据的开发使用创造条件。一是尝试提供权威性的基础数据用于大数据校准;二是将成熟的人口学理论和方法介绍到新数据的开发使用中。充分开发既有基础数据,根据新数据的需要适时产生一些基础数据,如汇总指标,帮助校准大数据统计结果,促进新数据的使用和开发。微信公众号“城市数据派”发布的利用百度定位数据在宁波和杭州湾做的人口估计就和基础的户籍数据和人口数据进行了比对,从而综合判断新来源的数据的代表性和精确度,为进一步开发和使用新数据提供了依据。
在理论和技术方面,人口学经过多年的发展已经积累了一些非常成熟的方法和技术,例如队列分析技术、标准化技术、生命表技术、间接估计方法、随机人口模型、事件史技术、人口预测技术等等。这些成熟的模型和技术有着深厚的学科积累,懂计算机技术的人不一定都搞得懂。如何选择测量和汇总指标、选择模型、设定参数等都需要一定的人口学原理作为支撑。在这方面,人口学者应该积极将既有理论工具和方法应用于指导新数据的开发,让数据掌控者知道人口学专业的价值,促进新老技术的交流,在地区性的数据分析实践中逐渐完备学科的相关技能。
最后,人口学研究者在积极接触和探索大数据时,应该有创新思维,有意识地扩展人口学的学科领地。尽管目前能够获得的大数据、新数据在代表性和微观准确性上有所不足,但通常具有很好的时效性和较大的样本基数,在区域或人群汇总指标上具有较好的效度和信度。我们应该充分利用这些汇总信息,善于利用相对指标分析总体的结构特征及其变迁。例如,在传统人口数据中,空间数据较难得,了解人口的空间分布很难,即便有也常常是做区域内均匀分布的假定。现在,手机和智能设备提供了非常准确人口位置信息,能够帮助我们更好地估计部分人口的空间分布、变动以及特定空间内的人口构成等,但由于并非所有的人都使用手机和智能设备,它提供的信息可能存在结构性偏差(如对老年人、小孩反映不足),但仍是重要的参考,通过一定校准,准确度可进一步提高。这就需要部分人口学者掌握相关的分析和校准技术,有些创造性。又比如,以往人口学者倾向于在个人层面上进行分析(生育、死亡、迁移),因为只有个人才有年龄、性别等人口学特征,但目前在个体层面进行数据的匹配、串并还很难。人口学者可能需要更多地探索在相对中观或宏观的研究单位上,人口统计特征与其他汇总属性之间的关系,例如社区人口规模、人口密度、人口结构与社区社会经济形态、人口过程如死亡水平、出生水平、迁移状态之间的关系。因为新型大数据往往更容易在更高层次的研究单位上进行指标汇总、匹配、串并。这种情况下,如何进行因果推论,如何避免层次谬误之类的方法论问题也就变得更加重要。
总的来说,人口学者要想在大数据时代有所作为,仍面临不少挑战,但等靠要是不行的,要积极创造条件赶上去。其他学科也应该加强和人口学者的合作。如果人口学者都难以有所作为,其他学科利用大数据做出来的研究,其坚实性和深入性也就值得怀疑。因为如果人口学者可用的基础性的人口社会属性都不全的话,细致的交叉分析和统计控制也就成了空话,人群内部的异质性也必然被忽略。我们要一起不断推动公共部门和数据垄断企业加强大数据的开放、串并和合理合法使用,创新数据的开发使用方式甚至提问题方式。这还有很长的路要走,先从局部地区、具体项目做起来,并一定要在学科内加强共享、交流、学习。大家一起不断积累,共同进步。
来源:中国社会科学报