关于外部数据源的介绍,这篇比较完整
数据市场概述
2020年3月24日,国际著名信息研究机构IDC Financial Insights发布了2020年全球“FinTech Fast 101”榜单。其中,中国企业有蚂蚁金服、平安科技、京东金融、微众新课在内的41家上榜。各大数据供应商均属于金融科技公司,可提供的产品服务包括数据、模型、风控流程搭建及优化咨询服务等,比如:①设备类:数美、猛犸、极光等②共享类:百行、互金协会、上海资信等③综合类:同盾、百融、鹏远等④评分类:冰鉴、可信、探知等⑤爬虫类(不合规不合法):曾经每家必选,当下无人敢碰⑥支付类:行业整顿后数据质量下降三方数据用于不全目标客户画像
选择三方数据是业务机构在审批决策时对风险感知诉求的衍生;不同场景、不同产品的设计,背后所面向的客群及其风险要素均有不同程度的差异,进件载体差异也是如此;已有客户画像:导流渠道、年龄、性别、地区、职业、性别、地址、消费...准入阶段缺失标签:ID真实性、设备真实性、收入、负债、家庭、社交关系、借款偏好、借款意愿等...近期数据市场的变化
合规化:2020年12月底鹏远被监管、2021年1月《征信业务挂你办法(征求意见稿)》发布多元化:入围头部玩家增加,BATJ及其子公司之外,国家电网、联洋国融等入池供应商选择标准建议
优质的股东背景,拥有国家对信息安全认证整数且达到较高级别合作伙伴拥有合法、合规的数据来源,能够提供数据授权文件合作伙伴对外提供服务时,秉承谨慎原则,对其合作的金融机构使用数据的场景和目的有充分的了解合作伙伴会结合金融机构的具体场景,对获取用户数据的息行为,对客户进行明确的告知,取得用户统一合作伙伴内部拥有全面的信息安全和安全机制授权链条清晰
合规合法是趋势
监管趋严:法规发布频繁,2020净网行动在继续授权是前提:明确写明授权机构、授权使用场景避免接触敏感信息:通过评分代替直接数据交互02 常见数据供应商
2.1 设备系(线上信贷产品的第一道风控防线)数美:设备风险SDK和营销反欺诈极光:欺诈风险识别、营销平台,大量底层标签,美国上市猛犸发欺诈:专注设备反欺诈友盟:网站统计、消息推送,大量底层标签,阿里旗下同盾科技:设备指纹,号称唯一获得公安三所认证的公司游族网络:网站统计、消息推送,大量底层标签,A股上市企业
2.2 共享系(权威机构)百行征信:国内八大风险数据公司组建的合资公司,注册资本大于500万,免费接入,需要上传用户逾期信息中国互联网金融协会:支付10万元,成为会员,免费调用上海资信:按照标签计费,根据上传信息量提供对应的调用价格折扣
2.3 大厂系(大厂入局,库大价低)腾讯:腾讯鲲鹏,黑名单蚂蚁金服:蚁盾分,又叫先享后付分,通过代理商提供度小满金融:百度黑名单、LBS位置信息京东数科:原zrobot公司,信用分、黑名单致诚阿福:宜信旗下子公司融360:淘金云分
2.4 其他系敬众科技:航旅数据,康旗股份子公司数据宝:铁路等交通数据华策数科:决策引擎,智能评分,联合建模,李嘉诚投资寰宇普惠:手机可信度、电商信用评分、消费行为标签睿智科技:大数据评分、反欺诈、用户画像2.5 准入阶段需求的数据维度身份核验:身份证、银行卡、活体地址核验:工作、家庭手机核验:三要素、在网时长/状态权威:法院、公安黑名单:内外部黑名单库多头:申请、共债手机:消费档次、APP使用偏好消费:线上/线下消费银行卡:储蓄卡流水、信用卡流水2.5 小结:合规、效果、价格缺一不可一手供应商:各家供应商数据库中你中有我、我中有你,和第一手数据源合作挑选合适产品:优势不仅相同,对风控阶段有价值的数据包括逾期指标(黑名单)、多头、信用维度多合作:不是每家供应商都是适用于同一客群,多测试、有备源03 部分数据供应商及其产品介绍
何为头部供应商
业内知名度:综合知名度、被客户认可程度合作机构数:基于合作机构评估市场覆盖面数据全面性:数据维度广泛程度,是否包括验证类、借贷类、信用类、收支类、地址类数据独特性:独占某一类数据源优势个人信贷不可获取的七类数据
身份核验类:活体、身份证、银行卡、工作真实性运营商类:运营商三要素、在网时长/状态、运营商标签多头黑名单类:多头、共债、黑名单、法院等信用数据类:收入、消费、社交关系、稳定性等评分产品类:营销、反欺诈、信用、B卡、C卡等联合建模类:逻辑评分、XGB/LGB、随机森林等3.1 身份核验产品(除运营商外)产品类型:人脸识别、身份证、银行卡、公安、法院后台资源:权威数据库更新频率:按周/月3.2 运营商产品产品类型:三要素核验、在网时长、在网状态、携号转网标签、手机偏好、地址、号码标签等后台资源:三大运营商更新频率:按周/月联洋金融产品示例
3.3 多头黑名单产品多头产品:借贷多头次数、设备多头次数、借款多头分位数、多头评分、共债情况、共债分等黑灰名单:黑名单、灰名单、团伙欺诈等后台资源:各供应商覆盖信贷机构数量更新频率:按天同盾黑名单产品示例
黑名单基本构成:法院、公安、信贷、车辆租赁、违章停车、欠税公司法人、归属地高风险地区、虚拟号码/通信小号等3.4 征信数据产品产品类型:消费、工作、收入、家庭、位置、社交、关系网络、稳定性、还款习惯等后台资源:供应商自生态积累数据更新频率:按天/周/月(各类数据产品均不相同)数据类型
个人偏好:基于用户消费、资产、职业等信息,对用户消费等级、消费偏好、收入稳定性、职业稳定性等信息进行品咕收入能力:基于资产、银行卡流水数据、公积金数据给出收入评估社会关系:配偶、家庭人数、亲密联系人的收入及风险情况负面信息:往期履约行为、共债情况、常在压力等判断客户还款能力以京东数科信用数据产品为例
产品类型:消费画像、投资画像、债务画像、履约画像、资产画像、信用消费等3.5 评分产品产品类型:不同客群营销分、反欺诈分、信用分核心价值:构建通用分的建模样本新鲜度、客群匹配属性、底层数据源更新频率:不定期更新供应商
大厂:BATJ、银联及其子公司多头系列:同盾、百融、白骑士等联合建模积累:FICO、冰鉴3.6 联合建模建模方式:自建、供应商驻场、联邦学习平台常见算法:逻辑评分、LGB等评价指标:基于供应商数据的子模型对机构自身主模型的提升度供应商
大厂:BATJ、银联及其子公司各类底层数据源:移动、百融、同盾、冰鉴、白骑士等人力外包型:氪信3.7 设备指纹产品供应商
数美:设备风险SDK和营销反欺诈极光:欺诈风险识别、营销平台,大量底层标签,美国上市猛犸发欺诈:专注设备反欺诈友盟:网站统计、消息推送,大量底层标签,阿里旗下同盾科技:设备指纹,号称唯一获得公安三所认证的公司游族网络:网站统计、消息推送,大量底层标签,A股上市企业3.8 小结:供应商的优势来源于底层积累、合作广度母公司非常关键:各家供应商发家各有故事,看母公司可知原始数据库积累合作广度决定匹配率:合作越多,调用越大,信贷全流程覆盖率越广,可议价空间越高头部客户背书:头部合作机构可展现机构合规性,合规性是甲方选择长期供应商的选择标准04 数据测试评估理论与案例4.1 数据测试评估理论数据评估的难点
成本较大,测试工作需要消费一定的人力、物力及时间,才可得到阶段性的评估结果缺乏标准的样本与y值,样本必须根据测试产品不同,差异筛选样本申请周期与y值比例须硬核实际生产环境比例数据具备的5个应用基础
数据真实:数据源真实可靠,数据内容未经篡改或加工信息准确:数据解析准确,不出现乱码、错位、错值、空值等数据错误持续稳定:数据共赢稳定、持续,不可出现可引起业务停滞的重要服务中断事故覆盖完善:所供数据覆盖范围完整,数据完整程度高,可制成业务决策更新及时:数据返回时间、数据更新时间复核金融机构业务需求,数据及时有效4.2 数据测试评估案例某一批次客户样本共4747条,同时测试百融、同盾、鹏远3家的黑名单、多头类型产品,具体测试情况如下图,参考规则的标准,不考虑价格情况下,请从三家的数据产品中选出效果最优的数据规则
(1)逻辑说明
(2)鹏元单产品分析
鹏元数据处理
1、多头申请总次数根据分箱结果,设定≥6为命中多头规则,<6为未命中规则;2、使用数据对“被机构查询”产品建立规则,规则效果较好;鹏元数据分析结果
1、信贷逾期标签、多头申请规则、被机构查询规则在对坏客户识别效果较高,可用于策略的建立;2、鹏元评分、羊毛党名单、欺诈风险名单、风险等级,在样本上效果不理想,本次不适用。(3)同盾单产品分析
同盾数据处理
1、对多头数据产品建立规则,规则效果较好;2、根据数据表现,对关联风险分取≥80和<80两个等级,效果较好;同盾数据分析结果
1、同盾多头规则及关联风险分效果较好,可用于后续策略的制定;2、同盾黑灰名单在样本上效果不理想,本次不适用。(4)百融单产品分析
百融数据分析结果
百融本次主要分析了偿债压力指数、团伙欺诈等级、高风险借贷意向验证、借贷意向验证、实名信息验证、特殊名单验证及法院被执行人7个数据产品,其中特殊名单验证在实际进件中已经使用了百融的数据产品,效果显示不完全;法院被执行人不能回溯测试,为事后变量,整体产品效果较好,均可用于制定策略。 4.3 小结:业务方对风险数据的选择直观的数据效果排除法下的风险覆盖多场景细分的选择这些方法选出来的数据,看似合理,上线后总会出现各种问题...风控少侠提出这样一种方法,挺有意思的
来源于番茄风控
微信