行业新闻

宜信张小沛:实时授信背后的金融云拆解

时间:2015-01-21 15:48来源:宏福圣速递 作者:宏福圣速递 点击:
导读 原来做用户画像时,画像之间是彼此独立的,但这并不符合现实生活中的场景:人并不是独立存在的,人与环境中的万物都是有关联的。因此,我们特别强调实体间的关系。如果说

导读

原来做用户画像时,画像之间是彼此独立的,但这并不符合现实生活中的场景:人并不是独立存在的,人与环境中的万物都是有关联的。因此,我们特别强调实体间的关系。如果说每个人是知识图谱中的节点,那么人与环境所形成的关系就是两点间的线。当把点和线综合起来分析时,我们对个人的性格特征、信用状况、财富属性都会有更深层、更全面的理解。

数据从哪里来,如何采集?采集之后怎么办、怎么用?这是大数据和普惠金融接轨时碰到的两个最基本问题。

进一步说,有了大数据之后,如何找到数据点之间的关联,做好用户画像和风控,满足用户的需求,则是摆在所有互联网金融企业面前的挑战。

作为国内知名的P2P公司,宜信在2013年成立了大数据创新中心,试图将客户的交易行为、金融活动和财务状况进行分析匹配,实现对客户“量身定制”金融产品和服务。

宜信公司高级副总裁、大数据创新中心总经理张小沛在接受21世纪经济报道记者采访时表示,大数据模型和分析的最终目的就是要对用户做画像,去做认知,而宜信在其金融云中还提出了一个比“用户画像”更前进一步的概念,叫做知识图谱。

四种数据来源

《21世纪》:宜信的数据来源有哪些?

张小沛:宜信有四大数据来源。一是宜信自己的数据。我们有将近9年的数据积累,不仅仅拥有那些申请贷款或做过理财的用户数据,只要用户通过营业部、网络或客服中心和我们有过任何接触,所留下的信息对我们来说都是非常重要的数据。第二,我们有自己的搜索引擎,叫做“姨搜”, 它会抓取用户在互联网上留下的发帖记录、社交关系等数据,以及大量散落在网上的其他公开数据。第三类数据源是来自合作伙伴的数据,这些合作伙伴既包括线上的,也包括线下的企业。第四类数据源是那些商户及个人客户当时授权宜信访问的数据。这4类数据将通过特定的算法模型转化为信用评估数据。

对于宜信来说,数据源越多越好,没有一个数据是无用的数据。打个比方,一个人在网上申请贷款或是做理财,他在填写信息的时候,是花了5分钟,还是一秒钟,或是10秒钟,这些数据统统会进入宜信的模型中。如果用户在线下营业部填写纸质申请表,那么他是涂涂画画的,还是龙飞凤舞地填写,这些信息特征都会被宜信放到模型中去解读。

从原始信息来看,宜信对单个用户可能会收集几百个数据维度。但机器学习中需要进行特征变换,还有许多组合维度,即把许多原始维度做各种各样的组合,扔到模型中,实际模型中可能会有几十万个变量,但是这些对宜信后台的分布式计算集群来说处理难度不大

《21世纪》:在信息采集过程中,你们如何把握线上和线下搜集的数据的比例?

张小沛:许多人都在问比例是多少,还有人问社交数据、网上搜索数据到底有没有用。我认为,单纯地讲某种数据有没有用没有多大意义。比如,我觉得交易数据非常有用,这是一个强特征数据。但一个人在淘宝6年,每年就买两次东西,另一个人在淘宝三个月,这三个月中他每天都买很多东西,那么对这个数据的重要程度的解读就是不一样的。

除了电商交易数据,社交数据也一样。一个人在新浪微博已经3年了,他天天都是在看,从来不发言。另一个人在新浪微博才一年,可是发言很多,互动很多,这虽然同样是社交数据,解读也是不一样的。所以我一般不会去讲社交数据的比重是百分之多少,交易数据的比重是百分之多少。机器学习的美妙之处就在于,它会在分析大量数据的基础上有自我学习的能力,在大量数据中找规律。

数据越多越好吗?

《21世纪》:很多人觉得,数据量并不是越多越好,因为不是每一个数据维度都是有用的。对此你怎么看?数据的“去噪”是一个很大的工程吗?

张小沛:数据是否越多越好,这句话要看怎么来解读。在理想状况下,我们肯定还是需要尽量多的数据维度。在现实生活中,如果我们想要解读一个人,那么也要了解他方方面面的信息,因为同事、家人、朋友对一个人的评价肯定都是片面的,所以理想状况是,你有了全方面全维度的数据,对他的认知才能做到比较完整。当然,这是非常难做到的。数据越多越好,不只是指数据维度多,很多时候是指数量多,还有频度多。

光谈维度也是没意义的,如果你有大量的数据维度,但你一年才跟进一次,那么这个数据就不是热数据,而是冷数据。所以“多”的含义是广义上的,指的是量多,频度多,维度多。

(责任编辑:admin)
----------------------------------