首页 >> 资讯 >> 本网原创
大数据时代人口学如何积极作为
2017年09月13日 08:00 来源:中国社会科学网-中国社会科学报 作者:李丁 字号

内容摘要:中国人口学者主要使用的数据包括统计局的普查、小普查的样本数据,人口变动抽样调查数据,卫计委组织的流动人口动态监测调查数据和计生服务与生育状况调查数据等微观样本数据,其他各种教育、卫生、户籍、人口汇总统计数据,以及各单位自己组织的小规模样本调查数据。这些业务、台账、调查数据包含大量的人口变量信息和社会属性信息,如果开放使用,能够帮助人口学者更好地研究人口的生老病死、迁移流动、行为活动,并且有助于把研究做到很小的区域范围内,突破以往研究精细度和研究范围之间的矛盾。比如高颖通过和北京市民政局数据信息中心合作,利用北京市近年来的婚姻登记数据对北京市民婚配模式及其变迁、人口结构及其变迁做出了系列研究,为我们认识北京户籍人口、常住人口的演变规律提供了非常重要的基础信息,为进一步作人口调控与政策调整提供了依据。

关键词:人口学者;研究;汇总;手机;样本;户籍;登记数据;使用;智能设备;匹配

作者简介:

  这几年很热门的大数据在主要用数据说话的人口学界却较为冷清。除王广州专门发文讨论过大数据时代人口科学的创新问题外,其他人很少进行正式的讨论;具体研究方面,仅有少数学者用户籍登记数据、婚姻登记数据、手机信令数据、灯光遥感数据、百度迁徙数据做研究发表在人口学期刊上,其中属于人口学的更少。为什么会出现这种情况呢?

  讲求量的准确导致人口学大数据

  和研究讨论较少

  大体而言,这和中国大数据的开放现状、人口学研究取向以及人口学者的训练都有一定关系。

  首先,人口学研究讲求量的准确,而能提供这种准确度的大数据不多。如南佛罗里达国际大学的赖庆博士关于定量和量化的概念辨析所言,人口学是“定于量”的,不像社会学“化为量”即可。关于中国生育水平到底有多高,人口学界争论了20多年,就是为了确定总和生育率到底是在1—2之间的哪个具体小数上。

  其次,近十多年来,确实有越来越多的信息被电子化甚至量化,但是诸如普查数据、户籍数据、婚姻登记数据、出生数据、教育学籍数据,以及医保、交通、劳保、不动产、银行等公共部门掌握的微观个人数据开放获取的可能性仍很低。已开放的数据往往只是一些互联网企业有限开放的异形数据或互联网上可以公开爬取的零碎的、不系统的文本、图片、视频数据。这些数据往往缺乏基础性的社会人口变量,而且大多没有解决样本的代表性和测量准确性问题,无法对人口学所关心的人口数量、结构、过程做出精确估计。因此,人口学者通常也不会用这类数据。

  再者,人口学者不太擅长用这些新数据。一直以来,人口学者主要依赖权威部门(统计局、卫计委)发布的汇总数据或者规模抽样调查数据来做研究。相对于社会学者,人口学者处理的大多是变量相对少、结构比较简单的结构性数据,采集和处理异形数据(如访谈文本数据)的经验较少。在这一点上,人口学者比社会学者更挑数据,也更依赖于公共部门。人口学擅长年龄、队列分析,经常要求年龄别或者五岁组的统计指标,这通常要求每一个年龄组都具有独立的代表性,从而在样本规模要求上要大数十倍。中国人口学者主要使用的数据包括统计局的普查、小普查的样本数据,人口变动抽样调查数据,卫计委组织的流动人口动态监测调查数据和计生服务与生育状况调查数据等微观样本数据,其他各种教育、卫生、户籍、人口汇总统计数据,以及各单位自己组织的小规模样本调查数据。人口学者善于处理数据,是因为他们长于开发汇总数据,较早使用计算机处理微观数据,而且可能处理过体量比较大的数据。但这些数据结构通常很简单,变量也不太多。另外,他们中真正接触到超大规模原始业务数据(样本量千万以上的,如户籍数据、全员人口监测数据、学籍数据等)的并不多,很多还需要依赖掌控这些数据的业务人员进行查询和汇总。可以说,在面对新型大数据、异形数据时,国内人口学者的实际处理能力可能还有待提高。比方说,新型大数据中空间信息和网络信息越来越多,国内人口学者对这些新信息的理解和处理能力还比较有限,这部分研究主要还是地理学专家贡献的。

  人口学需积极接触和开发大数据

  面对越来越多的基于互联网和智能设备产生的新数据、异形数据,人口学者能在推动这些大数据的应用方面有所作为吗?这些新数据对人口学者回答传统研究问题有帮助吗?总之,人口学者要应对大数据时代,首先需要弄清楚所谓的大数据到底包括哪些数据,哪些与人口学关注的核心变量或问题相关,然后想办法接触和开发这些数据。

  今天所谓的大数据主要有两类。第一类是政府及公共部门日渐电子化的基础业务数据。王广州将之分为全员人口数据和特定人群数据,如户籍数据,生育登记、死亡登记、医疗登记数据,迁移登记数据等。以往很多纸质版的、分散的内容,现在大多都电子化了,且日渐联网统一。这些业务、台账、调查数据包含大量的人口变量信息和社会属性信息,如果开放使用,能够帮助人口学者更好地研究人口的生老病死、迁移流动、行为活动,并且有助于把研究做到很小的区域范围内,突破以往研究精细度和研究范围之间的矛盾。王广州强调的主要是这类数据。但是这些数据(包括人口普查样本数据)直到现在仍很少向人口学者开放或仅向部分人开放。这些数据已经存在了,放在那里贬值,很可惜。相关部门也认识到它们的价值,如果关联串并整合起来,价值会更大。但由于各种非技术的原因,这些数据的开放、整合还很困难。实际上,数据采集项目最重要的是数据开发,而且越多人使用开发越好,大家都能从中获得新知识,也能迫使相关部门数据开发技术和数据服务质量的提升。

分享到: 0 转载请注明来源:中国社会科学网 (责编:冯瑶(实习))
696 64.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
wxgg3.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们