评分系统建设_消费金融真经：个人贷款业务全流程指南（原书第2版）（珍藏版）-QQ阅读男生科幻网

评分系统建设

虽然信用评分和行为评分系统明显有着非常不同的应用，但是相同的通用开发原则对两者都适用。作为示例，让我们来看看开发申请评分的四个步骤：

·规划。

·开发。

·实施。

·验证/监控。

评分系统规划

由于评分系统复杂且需要时间来开发，因此需要一个合格的内部团队来管理开发项目的各个环节，任务主要包括确定评分系统的目标，选择合适的开发团队，定义好坏客户，以及选取样本。

确定评分系统的目标。计划的第一步也是最重要的一步就是决定如何在业务中最有效地使用将要开发的评分系统：应用于哪些产品及信贷周期的哪一部分？当前的大多数贷款业务以各种方式使用评分，但改进的机会总是存在的。现有的自定义分数是否需要更新？是否应该开发一个新的评分来协助管理催收？市场上新的通用评分能更好地预测破产吗？房贷审批流程是否可以用评分来加速并改进？在开始开发之前，必须选择评分系统的目标——目标决定了需要分析的数据。同时，确保评分系统的目标与业务目标一致：你想预测盈利能力、损失还是逾期？

对于一个良好运营的业务需要多少数量和类型的评分，并没有“教科书”式的答案。由于评分具有多种用途，体量大的贷款机构通常需要多个评分系统。

下面介绍几个有用的常识或基本原则。首先，针对特定产品和目标市场的评分会更有效。但是如果细分导致样本量太小，评分会因在统计意义上不稳定而失去作用。一方面，如果为东南区域每个分公司都建一个申请评分，在风险排序上效果可以非常好，但是公司是否有能力开发和管理这么大量的评分系统？每个分公司的客户是否会非常不同，以至于需要使用单独的评分系统？另一方面，为新车买家和二手车买家分别开发一个评分系统可能是必需的，因为购买新车的人往往与购买二手车（特别是六七年车龄的二手车）的人有很多不同。

同时，必须考虑不同的人群可能需要不同的评分系统。例如，针对无信用记录的人群、信用记录很少的人群或真正的次级客户（有不良记录但可能又具备借款的能力）使用单独的评分系统可能会更合适。对这些人来说，你可以使用通用评分系统再加上一些有鉴别能力的因素。但要注意，这些申请人很少拥有自己的住宅，或在征信局有可靠的记录，如果你的评分系统主要依赖这些因素的话，他们是不可能通过的。很少有无信用记录的借款人或次贷借款人被为一般人群开发的评分系统接受。

现有的评分系统也可以用于新人群，在应用之前，你必须验证现有评分系统是否能按照预期鉴别新人群，即必须真正地测试现有评分系统是否在统计上是适用的（我们将在后面介绍细节）。如果只是为了节约成本而把旧的个人贷款系统应用于新的车贷产品、新的信贷产品或房屋净值贷款产品，那就有问题了。无效的评分系统可能会造成多种危害，它可能无法很好地区分好坏客户，导致放进来比事先预期多的坏客户，更糟糕的是还可能拒绝潜在的好客户。

选择合适的开发团队。在开发申请评分时，一个简单的单一评分系统通常要花费5万美元，一个复杂的评分系统大概需要30万美元。开发可能需要几个月的时间，时间长短往往取决于数据的可用性。行为评分系统可能需要更多的时间和资源来开发，取决于要开发的评分系统的数量和目的，以及数据的可用性。因为不必等待征信局的数据，行为评分系统的开发时间有可能更短。无论如何，首要问题是：应该自主开发评分系统还是应该外包给专业的评分系统开发公司？

有几个优秀且经验丰富的评分系统开发公司。最大和最知名的是FICO，现在总部设在明尼阿波利斯。自1948年以来，FICO为许多大型银行和金融机构开发评分系统。同时，通用风险、破产、收入、欺诈、损耗和催收模型美国三大征信局（Equifax，Experían，TransUnion）通常都有使用。此外，FICO还在世界各地开发评分系统。使用FICO的评分系统一般不错，但这不是唯一的选择。

2006年推出的VantageScore是基于美国三大征信局数据的通用模型，它在每个征信局使用相同的特征变量和相同的模型，因此三大征信局得出的评分几乎完全一致。今天美国大多数的主要贷款机构都使用VantageScore。

还有许多小型公司开发评分系统。纽约的投资管理协会（PMA）是最高水平的评分系统开发公司之一，它现在是Novantas有限公司的一个部门。PMA并不局限于一种特定的数学技术，其方法是与终端用户密切合作，培训终端用户并确保他们理解开发和实施的过程，并留下管理方法来跟踪评分系统，从而使终端用户彻底了解评分及其应用。

使用外部评分系统开发公司具有以下优点：

·最好的行业人才；

·可能更快地把握行业趋势，因为外部评分系统公司能在各个机构看到更多的情况；

·可能引进内部不熟悉的技术；

·无偏见的意见，即不会因为有一个内部部门可能有动机去维护或扩大其势力范围，而出现要保护的地盘或岗位；

·一次性成本支出，不需要持续固定的成本支出来维持；

·竞标过程可能降低成本。

使用外部评分系统开发公司可能有以下缺点：

·“黑箱”方法，意味着组织内没有人被许可或者有能力理解评分系统内在的数学原理；

·外部开发人员在评分系统开发后会离开，终端用户可能不愿意购买专业咨询服务来提高使用评分系统的效能；

·外部开发人员不知道内部员工才了解的业务及其数据的细节。例如，或许第三季度的业务结果看起来不一样，是因为有一个促销活动在那之后结束了。

选择自主开发或外包没有一个统一的答案。一个可能的解决方案是两种方案的一个平衡——依靠外部开发人员，同时由内部专家小组进行指导和建议并与各业务部门沟通协调。PMA的艾伦·席费尔斯建议同时使用内部和外部开发人员，用以“测试”是否能从这类资源中获得最好的结果。一些较大的贷款机构会综合进行内部和外部开发。

定义好坏客户。一旦选择了开发人员，终端用户必须根据存量客户账户的表现定义好结果、坏结果和不确定结果^[1]。对于一个风险评分系统，严重逾期、核销或者破产可以被定义为坏结果（你不希望他们成为客户）。对于一个客户流失预测评分系统，坏结果可以是流失的可盈利账户。最理想的定义应该通过盈利分析来设定。例如，可以通过比较过去6个月中有3次严重逾期的账户和只有少量余额的账户的盈利能力来确定谁好谁坏。这种类型的分析需要极其复杂的数据，并且并非所有贷款机构都能够做到这一点。

任何客户群里总会有一些不确定账户——基于盈利分析，盈亏平衡水平附近的账户就符合这一定义。在风险评分系统中，不确定账户可能在某些时候轻微地逾期，但又不会太频繁或太严重；这样，我们无法清晰地判定它们的好坏。这些账户的数量应该相对较少。不确定账户不应该用于评分系统的开发，但可以用于验证模型。

选取样本。开发申请评分的下一步是选取样本。选取合适的样本有以下关键步骤：

（1）最重要的一点是样本必须能代表评分卡^[2]要评估的人群。例如，车贷申请评分系统的样本必须基于过去在类似经销商处购买过类似型号汽车的买家。一个全新雷克萨斯的买家不同于一个二手起亚的买家，其考虑的特征可能不同，各方面的行为也可能不同。如果你使用新雷克萨斯买家的特征和行为作为指导，那么很难预测二手起亚的一个好买家应该是什么样子。

（2）样本必须具有与要评分的人群相同的特征（如相同的地理和人口统计特征）。例如，用于向学生群体发放信用卡的评分系统应该使用学生作为样本；针对东北地区房主的房产净值信用额度评分模型应该使用东北地区房主作为样本。

（3）某些群体应该在选取样本时剔除。例如，一个常规做法是剔除收入低于一定金额的人群，没有必要将这部分人群包括在样本里。

（4）样本中必须有足够多的好坏客户来为评分系统提供坚实的统计基础。开发人员需要知道要达到可接受的精度水平，需要多少好坏客户，以及可以使用什么样的抽样技术（如分层随机抽样）。通常来说，最少需要1000个坏客户才能有效开发模型。

（5）数据必须在所分析的时间段内可获得。对于申请评分，样本通常是1～2年前的借款人，因为其账户有充足的时间产生好的或坏的贷后表现。那么，建模需要的申请数据和在那一个时段的征信报告就必须可以获得。

（6）样本应包括之前被拒绝的客户——他们中的一些可能是好客户。贷款机构知道哪些申请人通过了审批，并且贷后表现是坏的。基于这种经验，开发人员可以在通过的申请人中识别出坏客户，使得他们在将来不会再通过审批。然而，这种做法缩小了贷款机构的潜在市场。为了扩大业务，贷款机构还必须弄清哪些被拒绝的客户是好客户，这样他们在将来可以通过审批。评估被拒绝的客户并通过统计建模确定其好坏的技术被称为拒绝推断。

拒绝推断通常有三种方法：

·实际经验：了解被拒绝客户潜在贷后表现的最佳方式是进行“测试”，即在被当前策略拒绝的客户中少量随机抽取部分通过审批。这种技术从评分系统设计角度来说最佳，但需要长期规划，因为这样的测试通常需要在评分系统开发前18～24个月进行才能起作用。

·统计拒绝推断：如果使用人工复审来评估过去的申请人，那么决策中很可能会出现不一致。具有相似特征的申请人往往会被一个审批人员拒绝而在另一个审批人员那里通过。一些开发人员运用统计技术来利用这种不一致性，通过匹配通过客户和被拒绝客户的特征，来推断被拒绝客户潜在的贷后表现。

·经验拒绝推断：如果有良好的征信局或其他第三方数据，开发人员可以根据潜在客户在其他贷款人那里的实际行为，推断被拒绝客户的可能贷后表现。

通过拒绝推断，每个被拒绝的客户可以被分为好坏客户。这是至关重要的，因为将来的评分系统有可能通过之前被拒绝的申请人，这样我们就大大扩大了潜在的好客户的数量。

到这一步，你已经确定了目标，选择了开发人员，定义了好坏客户，并选择了有完全代表性且准确的样本，可以进行评分系统开发了。

评分系统开发

我们将以信用评分的开发为例，说明评分系统开发的步骤。我们将在后面的章节中谈及用于行为和邮件获客评分系统的不同数据。

建设管理团队。第一步，要创建一个包括所有利益相关方并代表所有商业利益（市场、风险、财务、IT、运营、法务等）的项目团队。你一定不希望在开发评分系统后发现无法实现它，或者其中某些内容无法通过内部合规、法务或监管。

选取特征变量。开发人员的第一步工作，是根据可用的数据（数据通常来自申请表、征信局及人文资料）^[3]来了解样本中客户的特征变量。典型的特征变量如表3-1所示。

表3-1　特征变量

①年龄可用于确认合同有效性，在美国其他用途受限。

这一步分析的目的是识别出任何可以用于区分好坏客户的特征。在表3-2中，开发人员分析了样本历史表现和征信历史时长这个征信数据特征变量的关系。征信历史时长即申请人拥有征信局记录的时长。时间段可以以任意的方式划分（例如，12～15个月、12～20个月等）。在这个例子中，开发人员分析了6个类别的征信历史时长，从少于12个月到超过60个月。

表3-2　申请人特征分析

通过分析，开发人员会发现申请人征信历史时长和贷款表现的相关性。从数据中可以看出，具有较短征信记录的申请人的坏账率远远高于在征信局有长期征信记录的申请人。因此，征信历史时长是可以区分好坏客户的一个特征。

具体而言，如表3-2所示，征信记录较短（<12个月）的申请人的坏账率为25%，具有较长征信历史的申请人的坏账率相对较低，具有60个月以上征信历史的申请人的坏账率只有5%。这种线性的关系并不总是存在，通常客户表现和任何给定特征变量之间的关系是曲线式的或不规则的。与此相反，某一特定的特征变量可能在好坏客户之间没有任何区别，在这种情况下，这个特征就不会被用在评分系统中。

开发人员以这种方式测试数百个特征变量，以寻找相应的特征变量是否在好坏客户之间存在差异。开发人员总是试图寻找更强大的可识别特征变量，并选择其中最好的来区分好坏客户。因为太多的特征变量会发生重叠（如房主倾向于比租房者年龄大），所以下一步是通过统计方法估计潜在的特征变量之间的相关程度并消除其影响。法律对于可使用的特征变量有明确的限制——在美国，法律禁止贷款机构因种族、性别、宗教、国籍、婚姻状况或收入来源而拒绝贷款。此外，开发人员和终端用户必须对是否使用某一特征变量达成一致。对某些特征变量来说，即使可以合法地使用它们，但你如果用它们来拒绝客户的话，在逻辑上也很难向客户解释清楚。

例如，由于汽车购买是季节性的，购买车辆的月份可能在统计意义上是有用的判别依据。具体来说，8月买车的人可能比11月买车的人风险更高（得分较低）。这是有统计依据的，因为在11月新车型刚推出时购买的人要比在8月购买上一年车型的人支付更高的价格。但是这种解释可以让客户信服吗？想象一下，一封拒绝信里说“你的信贷申请被拒绝了，因为你通常在8月买车”，你会有什么样的反应。其实，我们可以找到更多符合逻辑的判定依据。不使用不合逻辑的特征变量可能降低评分系统的分辨能力，但是这样的评分系统更容易解释。开发人员可以通过在子群体上建立单独的模型来解决这个问题，例如，可以为8月的车辆买家建一个单独的模型。同时，这个例子也很好地说明，为什么建模要和业务紧密联系来确保开发出的评分系统是合理的。

给小型资产业务经理的建议

任何选择使用人工审批的人（例如，因为规模太小不足以支撑开发一个完整的评分系统）应该以表3-2中分析征信历史时长同样的方式审查尽可能多的特征变量，客户的任何特征变量（住宅所有权、职业、地址使用时间、信用额度等）都能以这样的方式分解，如果客户账户很少，可以允许业务经理补充一些信息来促进审批决策。也许，这样至少可以让贷款机构减少潜在的坏客户，或者接受更多潜在的好客户。虽然不会得到完美的结论，但是业务经理会对他们所做的决定有一个更好的理解。

选择和设置权重。从通过的申请人样本中，开发人员可以找到具有最好分辨能力的特征变量，同时考虑它们与实际表现之间的相关性，然后对选择的每个特征变量分配权重（具体细节可以向开发人员咨询）。最终结果就是一个评分系统，表3-3是一个样例。^[4]

特征变量主要源于申请表和征信局数据，取决于实际数据和表现，数量和内部的分段都有可能不同。终端用户可以通过累加各个特征变量（例如，根据这个评分卡，如果申请人与父母同住，她得到15分；如果她是23岁，她又能得到4分；等等）得到的分数给申请人打分。总点数或分数被转换成“赔率”，用来预测申请人的账户在预计时间段内将如何表现。

表3-3　简单信用评分卡

设置分数阈值。通过分数阈值，我们确定一个总分数，理论上高于该分数的所有账户都会通过，低于该分数的所有账户都会被拒绝。贷款机构可以选择否决根据分数阈值得到的自动审批结果（本章后续内容将讨论细节）。在决定是否接受某个账户时，最有用的是开发人员预设好的各个分数段的审批结果和坏账率，如表3-4所示。

表3-4　设置分数阈值

根据贷款机构的业务目标，有多种设置分数阈值的方法。我们通常可以基于以下几种标准来选择申请评分的阈值：

·保持给定的通过率（并且希望降低坏账率）；

·维持给定的坏账率/核销率（并希望提高通过率）；

·根据经验维持管理层可接受的通过率/坏账率的组合；

·提高利润。

如果你的业务暂时还没有数据来评估利润，前三个方案中的任何一个都是可以选择并立即应用的，但要注意它们并不是最优的方案。例如，根据上述表3-4，业务经理能够预测出在分数阈值为300时的通过率（62%）和累积核销率（3.9%）。然而，3.9%的核销率是不是合适的阈值？这取决于产品和该产品的盈利能力。

3.9%的累积核销率按现行标准对信用卡产品来说是较低的，但对车贷来说就很高了，对于房贷产品来说简直无法想象。此外，在决定分数阈值时应使用边际数值。在表3-4中，300的分数阈值的边际核销率是7.2%，意味着在该分数阈值上的人（得分为300分的人）有7.2%的预计核销率，累积核销率3.9%包括了所有得分在300分及以上的人。这里的关键是你是否愿意接受一群预计核销率为7.2%的人，同时你也必须考虑因环境变化产生的回报波动。在最终决策时，我们强烈建议高层管理者根据盈利能力选择分数阈值。确定分数阈值所需的关键是坏账户的成本（要考虑它们有更高的催收成本及核销金额）和预设的产品生命周期内好账户的利润。分数阈值可以通过账户或者总体资产组合的盈亏平衡点来设置。如果你根据利润来设定分数阈值，就必须根据风险调整后的利润来设定。我们将在第11章中更详细地讨论利润分析和风险定价。

针对其他预测模型（客户流失模型、盈利模型、催收模型、破产预测模型等）的不同得分，我们需要有不同的策略来应对。例如，催收模型对于低、中、高风险的客户分别需要一套策略，要记住收益率始终是关键标准，因此在使用催收评分时，你需要平衡催收成本和各种策略实际收回的资金。

使用破产预测模型为各个分数段建立一个固定的应对方案是非常困难的，因为潜在的破产者看起来非常像你最好的客户（而且经常表现成这样）。要记住的一点是，任何评分系统只是对你的客户账户进行排序，你需要最终确定对每个分数段的客户采取什么行动。关于破产预测模型，有一个值得关注的观点，即当前最有效的模型似乎是征信局依赖诸多贷款人反馈的数据建立的通用模型，而你自己的数据可能不足以进行准确预测，我们将在后续关于催收的章节中讨论这些内容。

[1] 不确定结果指表现结果对业务没有影响，或者无法确定表现结果是好还是坏。

[2] 评分卡是评分系统的一个组成部分。一个评分系统可以有一个或多个评分卡或子评分卡。评分卡是开发的结果。评分卡是基于一个特定样本的。评分卡使用所有可用的特征，如公司年限、房产类型等。评分卡根据特征的类别赋予其不同的权重（例如，租房：0点；自有房产：38点；住父母家：15点；等等），汇总后给出一个最终评分。

[3] 有些公司，如 VantageScore 和 CoreLogic，也使用一些如房租等非传统数据来为上千万没有传统征信的人群建立评分。这些人群主要包括：无信用记录的人群、不使用信用的人群和信用记录很少（少于3次信用交易）的人群。

[4] 评分系统有多种形式。评分卡是其中常用的一种。