宜信张小沛：实时授信背后的金融云拆解_深圳市宏福圣速递有限公司-电商物流|国际快递|国际快递价格|国际小包|海外仓|液体粉末快递|国际化工快递

导读

原来做用户画像时，画像之间是彼此独立的，但这并不符合现实生活中的场景：人并不是独立存在的，人与环境中的万物都是有关联的。因此，我们特别强调实体间的关系。如果说每个人是知识图谱中的节点，那么人与环境所形成的关系就是两点间的线。当把点和线综合起来分析时，我们对个人的性格特征、信用状况、财富属性都会有更深层、更全面的理解。

数据从哪里来，如何采集？采集之后怎么办、怎么用？这是大数据和普惠金融接轨时碰到的两个最基本问题。

进一步说，有了大数据之后，如何找到数据点之间的关联，做好用户画像和风控，满足用户的需求，则是摆在所有互联网金融企业面前的挑战。

作为国内知名的P2P公司，宜信在2013年成立了大数据创新中心，试图将客户的交易行为、金融活动和财务状况进行分析匹配，实现对客户“量身定制”金融产品和服务。

宜信公司高级副总裁、大数据创新中心总经理张小沛在接受21世纪经济报道记者采访时表示，大数据模型和分析的最终目的就是要对用户做画像，去做认知，而宜信在其金融云中还提出了一个比“用户画像”更前进一步的概念，叫做知识图谱。

四种数据来源

《21世纪》：宜信的数据来源有哪些？

张小沛：宜信有四大数据来源。一是宜信自己的数据。我们有将近9年的数据积累，不仅仅拥有那些申请贷款或做过理财的用户数据，只要用户通过营业部、网络或客服中心和我们有过任何接触，所留下的信息对我们来说都是非常重要的数据。第二，我们有自己的搜索引擎，叫做“姨搜”，它会抓取用户在互联网上留下的发帖记录、社交关系等数据，以及大量散落在网上的其他公开数据。第三类数据源是来自合作伙伴的数据，这些合作伙伴既包括线上的，也包括线下的企业。第四类数据源是那些商户及个人客户当时授权宜信访问的数据。这4类数据将通过特定的算法模型转化为信用评估数据。

对于宜信来说，数据源越多越好，没有一个数据是无用的数据。打个比方，一个人在网上申请贷款或是做理财，他在填写信息的时候，是花了5分钟，还是一秒钟，或是10秒钟，这些数据统统会进入宜信的模型中。如果用户在线下营业部填写纸质申请表，那么他是涂涂画画的，还是龙飞凤舞地填写，这些信息特征都会被宜信放到模型中去解读。

从原始信息来看，宜信对单个用户可能会收集几百个数据维度。但机器学习中需要进行特征变换，还有许多组合维度，即把许多原始维度做各种各样的组合，扔到模型中，实际模型中可能会有几十万个变量，但是这些对宜信后台的分布式计算集群来说处理难度不大

《21世纪》：在信息采集过程中，你们如何把握线上和线下搜集的数据的比例？

张小沛：许多人都在问比例是多少，还有人问社交数据、网上搜索数据到底有没有用。我认为，单纯地讲某种数据有没有用没有多大意义。比如，我觉得交易数据非常有用，这是一个强特征数据。但一个人在淘宝6年，每年就买两次东西，另一个人在淘宝三个月，这三个月中他每天都买很多东西，那么对这个数据的重要程度的解读就是不一样的。

除了电商交易数据，社交数据也一样。一个人在新浪微博已经3年了，他天天都是在看，从来不发言。另一个人在新浪微博才一年，可是发言很多，互动很多，这虽然同样是社交数据，解读也是不一样的。所以我一般不会去讲社交数据的比重是百分之多少，交易数据的比重是百分之多少。机器学习的美妙之处就在于，它会在分析大量数据的基础上有自我学习的能力，在大量数据中找规律。

数据越多越好吗？

《21世纪》：很多人觉得，数据量并不是越多越好，因为不是每一个数据维度都是有用的。对此你怎么看？数据的“去噪”是一个很大的工程吗？

张小沛：数据是否越多越好，这句话要看怎么来解读。在理想状况下，我们肯定还是需要尽量多的数据维度。在现实生活中，如果我们想要解读一个人，那么也要了解他方方面面的信息，因为同事、家人、朋友对一个人的评价肯定都是片面的，所以理想状况是，你有了全方面全维度的数据，对他的认知才能做到比较完整。当然，这是非常难做到的。数据越多越好，不只是指数据维度多，很多时候是指数量多，还有频度多。

光谈维度也是没意义的，如果你有大量的数据维度，但你一年才跟进一次，那么这个数据就不是热数据，而是冷数据。所以“多”的含义是广义上的，指的是量多，频度多，维度多。

(责任编辑：admin)

国际快递

国际专线

增值服务

国际小包

E服务

帮助中心

行业新闻

宜信张小沛：实时授信背后的金融云拆解

帮助中心

E服务

关于我们

新闻中心

解决方案