大数据在征信体系建设中应用的思考


来源:安全内参
中国人民银行征信管理局局长 万存知
中国人民银行征信管理局局长 万存知

互联网诞生在美国,但在中国应用最为广泛。金融科技脱胎于互联网,走在最前沿的依然是美国和中国。金融科技包括大数据、云计算、区块链、人工智能等技术,其中大数据作为一切技术运转的最基本单元,也是一切技术发展的 “燃料” 和“能源”。大数据的创新与发展为征信体系建设做出了重要贡献,但也产生了一些新的风险和矛盾。对于此,我们需要把握好大数据发展与风险防范之间的平衡,引导大数据在征信业务中的合规运用,发挥征信金融重要基础设施作用,更好实现建立覆盖全社会征信系统的总体目标。

大数据的基本概念

大数据指的是数量、种类、更新速率呈指数增长的数据及处理这些新型数据的处理技术,大数据的产生与发展应用了先进的数据分析手段,其出现重新定义大量以前难以定义和使用的数据,拓展了数据的应用范围,数据的使用更加灵活和深入,数据之间联系也更为紧密。

大数据包括结构化和非结构化数据。结构化数据,又称行数据,是指通过关系型数据库进行储存和管理,由二维表结构来逻辑表达和实现的数据,通常以数字、字母、文字等字符体现,具有一定的规律性,数据格式和内容有严格限制。非结构化数据是指数据不规则或者不完整,没有预先定义的数据模型,或者没有按照预先定义的方式组织的信息,如电子邮件、文本文件、音频文件、图片和视频、图片和短信以及潜在未定义的数据来源。

大数据具有 4V 的特征:大量(Volume),即数据量巨大;多样(Variety),即数据种类繁多;高速(Velocity),即数据处理速度快;价值(Value),即数据被赋予了更高的价值。

大数据在征信体系建设中的应用 大数据以其独特的 4V 特征,为促进征信体系建设方面发挥的积极作用。

1. 大数据带来了数据量级的指数增长。有一个经常被引用的估算,2011 年,全球数据规模为 1.8ZB,并以每天至少产生 2.5EB 数据量的速度增长,预计到 2020 年,将会有 40ZB 的数据量被创造出来。而在国内数据市场中,淘宝每天有上千万家商户在不断的产生信息,微信的月活跃用户已超过 10 亿,京东金融每天产生的数据量超过 200TB。这些都表明大量的数据正在产生和积累,而且数据量正在非常迅速地增长,这种增长在征信系统中表现的尤为明显。

我国已建成世界上收录人数最多、数据规模最大、覆盖范围最广的金融信用信息基础数据库(下称 “数据库”)。截至 2018 年 9 月末,人民银行运维的数据库中,个人系统累计收录信贷信息 30 亿多条、非信贷信息 66 亿多条,为 9.7 亿多自然人建立统一的信用档案,接入法人机构 3453 家,日均查询 477 万余次;企业系统累计收录信贷信息 3.5 亿多条、非信贷信息 5100 多万条,为 2560 多万户企业和其他组织建立了信用档案,接入法人机构 3351 家,日均查询 29 万余次。

2. 大数据丰富了信息的类别,信息来源更加广泛。大数据的发展致使多种类型的替代数据(Alternative Data)在信贷领域中出现,替代数据包括个人的支付、交易、消费、社交、上网痕迹、网络搜索、生活轨迹等,来源也由传统的金融机构发展到政府部门、公共事业单位、互联网公司、科技公司等,现已被越来越广泛的应用于信贷支持。

从国外发展上看,国外征信机构广泛探索利用替代数据支持信贷,如通过采集电信、有限电视、租赁等账单支付数据,移动设备、电子邮件、社交媒体等网络数据及社会关系信息对无信用记录者和薄信用记录者提供征信服务。

从国内发展上看,国内征信机构也加大了对替代数据的采集力度。目前,数据库除了实现对银、证、保领域借贷信息的共享外,还采集了社保、公积金、环保、欠税、民事裁决与执行等替代数据。此外,百行征信按照 “共商、共建、共享、共赢” 原则,已与 241 家机构签署信用信息共享合作协议,涵盖网络借贷信息中介机构(P to P)、网络小额贷款公司、消费金融公司、汽车金融公司、融资租赁公司、民营银行、助贷机构、金融科技公司等,并将逐步覆盖到水电气话等公用单位及运营商掌握的,能影响个人信用状况的替代数据。

3. 大数据加速了信息的集中,缩短了信息流动的时间。大数据的高速更大程度上发挥了征信功能的作用。数据的产生速度和流动速度越快,数据的集中度越高,征信系统就能快速甚至实时的做出对客户偿债意愿和偿债能力的判断,在保证信息时效性、提升信贷效率的同时,也能更好防范金融领域中的各类风险。

高速的数据输入、处理、输出速度使征信机构的数据更新与交互时间由 1 月、1 周、1 天,变为 1 小时,1 分钟乃至实时。如当前数据库已经支持实时更新,能实时对客户做出分析评价,也能及时完成大量的异议及各类数据的更正,保证征信系统高速高质量运转。此外,征信机构还与银行开展了 7×24 不间断的数据实时传输、更新,确保数据时效性的同时也大大缩短了放贷时间,在线上将企业从贷款申请到发放贷款的时间由传统的 10 天左右压缩至 10 分钟左右,拉近了征信机构、放贷人和借贷人之间的距离。

4. 大数据挖掘出了数据的深层内涵和关系,为数据创造了新的价值。大数据与随之而来的新型数据处理技术能够深入挖掘已有数据的价值,也能提高以前低价值的数据的价值,还可通过发掘数据之间的内在联系赋予数据新的价值。

在征信系统建设中,征信机构通过对信贷信息和替代数据价值的挖掘,提供征信增值产品与服务,多维度评价客户信用状况,为缺少信用记录的客户提供信用评价,帮助其获得正规金融服务,增加贷款可获得性。征信机构对挖掘数据价值的模式主要有以下三种。

  • 一是横向采集关联数据。如通过广泛采集政府部门、公用事业单位所掌握的企业工商登记、纳税、财务报表、社保公积金缴纳、水电气缴费、知识产权等信息,分析研究其内在关联并提供征信服务。
  • 二是纵向垂直整合信息资源。如通过对供应链上下游企业之间应收应付信息的整合和确权,以供应链金融为载体,建立供应链上大型企业和中小微企业间的信用传导机制,开拓出征信业务新模式。
  • 三是深入挖掘数据内涵。如通过深入挖掘税务信息价值,与商业银行合作开发深度基于税务数据的征信产品,提供更具针对性的征信服务。

通过这三种征信业务模式,征信机构因地制宜开展征信服务,为银企双方牵线搭桥、增进互信,解决了小微企业跨越 “第一次” 申贷门槛问题,对化解小微企业融资难、融资贵有着积极的作用。

此外,通过大数据挖掘负面信息也能起到防范欺诈风险,降低信贷风险的作用。

大数据存在的问题

1. 个人隐私和商业秘密得不到有效保护。我国现有法律对于大数据行业并无明确定义,对使用大数据的机构没有明确的规范和管理方式,这既容易导致大数据行业由于缺乏监管而产生违法采集、过度采集、滥用个人信息和商业机密的问题,致使个人隐私和商业秘密无法得到有力保护,也不利于大数据行业的健康有序发展。

2. 数据安全问题频发,数据跨境监管难。当前,由于外部黑客入侵、内部员工监守自盗、机构信息管理不健全等原因,数据行业信息泄露事件频发,互联网公司 Face-book、征信机构 Equifax 的信息泄露事件都在全球造成了极大的负面影响。信息安全是国家安全战略的重要组成部分,信息技术的高速发展、互联网的快速普及和大数据的爆发式增长为个人提供极大便利的同时,信息安全的保护也面临严峻挑战,征信行业拥有大量敏感度高、私密性强的个人信用信息,是国家的关键数据资源,一旦发生信息泄露,即可造成非常严重的后果。

此外,大数据行业的快速发展也导致数据跨境监管难度上升,国家安全数据、个人隐私、商业秘密数据的跨境安全难以得到保障,欧盟的 GDPR、美国和欧盟之间的隐私盾(Privacy Shield)协议都对数据跨境做出了相应的规定,但我国对数据跨境流动暂未做出相关规定。

3. 数据来源难以做到清晰、准确、可控。当大数据应用于征信时,面临着数据来源良莠不齐,数据不完整、质量没保障等问题,数据准确性、及时性、完整性难以得到保证。数据量的庞杂和数据源单位安全管控限制,导致数据大多来源于网络爬取,没有固定的数据合作关系,数据呈碎片状态,没用使用规则,数据的准确性、完整性、系统性和稳定性差,标准化和格式化水平低,非格式化数据随机性大,所以大数据 “垃圾进、垃圾出” 的说法甚为流行,产品与服务的公正性也得不到保证。

4. 大数据行业的市场共享机制尚未成型。当前大数据行业没有形成统一的数据处理与分享规则,掌握数据的机构众多,各自有各自的数据来源,在缺乏统一标准化的专业术语、技术标准及行为规范的情况下,事实上形成了一个个信息孤岛,不利于实现信息全覆盖市场格局的形成,更不利于大数据市场统一秩序的形成。

下一步工作思考

大数据是一把优势和劣势都非常明显双刃剑,要一分为二地看待,既要发挥大数据的在促进经济金融活动更快更有效运转方面的优势,也要解决好大数据在个人隐私、信息安全等方面的劣势。 发展大数据产业,重点是将大数据产业纳入监管范畴,才能更好发挥大数据促进征信系统建设的作用。

尊重信息主体权益和信息安全是大数据自由流动的前提。要平衡好商业化应用所需的数据自由流动与信息主体权益保护之间的关系,协调好信息提供方、信息采集加工方(征信机构等)、信息使用方等各方的利益诉求,确保信息主体权益得到尊重和维护的同时,探索通过一种无差异自愿的合作机制,将各方有机联结起来,形成稳定的良性互动的路线图,建立健全信息共享的体制机制。

积极介入个人数据保护、数据跨境流动、数据网络安全等法律法规和国际标准的制定,加强征信体系建设中的信息保护制度建设,强化信息安全保护能力,提升信息安全管理水平,建立完善数据泄露通知制度和应急补救预案,实现数据来源的清晰、准确、可控,确保数据在安全、合规的前提下自由流动。

继续发挥大数据应用于征信体系建设中的优势,助力普惠金额,解决小微企业融资难、融资贵等问题。大数据具有 4V 特征,能够帮助解决传统征信无法解决的问题,渗透到传统征信无法渗透的地方。因此,发挥征信的作用,以征信机构作为数据传递的纽带,通过大数据拓宽信息的来源和征信产品的应用,多维度展示个人和小微企业的信用及风险状况,才能更好帮助缺少信用记录的个人和小微企业获取贷款,推动了普惠金融的发展,解决小微企业融资难、融资贵问题,实现信用信息的全生命周期全覆盖。

CPDA数据分析师课程海报