
There’s a bug in the software of the U.S. credit economy, one that is possibly holding back people of color from building real wealth. The bug is an algorithm called BISG, or Bayesian Improved Surname Geocoding, which many banks and credit unions use in their fair lending analysis to estimate a borrower’s race based on their last name and location.

Ť这里是美国信用经济的软件,一个是可能阻碍颜色的人的错误,从构建真正的财富 。 该漏洞是一种称为BISG(贝叶斯改进的姓氏地理编码)的算法,许多银行和信用合作社在其公平借贷分析中使用该算法,根据其姓氏和位置来估算借款人的种族。

By law, lenders have to analyze their portfolios regularly to ensure they’re not discriminating based on race, gender, and a range of other protected classes. But only mortgage lenders are allowed to gather borrower race data. Everyone else has to rely on techniques like BISG that estimate race based on non-race data.

根据法律,贷方必须定期分析其投资组合,以确保它们不会因种族,性别和一系列其他受保护类别而有所区别。 但是,只有抵押贷款放贷人才可以收集借款人竞争数据。 其他所有人都必须依靠像BISG这样的技术,这些技术会根据非比赛数据估算比赛。

The problem with BISG is that it’s often wrong, which creates an untold impact on millions of Americans. Using a crooked yardstick to assess the racial disparity of loan approvals can provide lenders with a false confidence that their credit models are much fairer than they are. Not understanding where real disparity occurs makes it impossible for the lender to identify problematic lending policies and for the regulator to assess harm. As a person of color and a data scientist, I felt doubly compelled to do something about it and build a better algorithm.

BISG的问题在于它通常是错误的,这对数百万的美国人造成了不可估量的影响。 使用歪斜的标准来评估贷款批准的种族差异,可能会给贷方以虚假的信心,使他们相信自己的信贷模式比他们的公平得多。 如果不了解真正的差异发生在哪里,将使贷方无法确定有问题的贷款政策,也无法让监管机构评估损害。 作为有色人种和数据科学家,我倍感被迫去做一些事情并建立更好的算法。

I’m a perfect example of how BISG gets it wrong. I live in Glendale, California, one of the whitest cities in America. Only 0.3% of Glendale residents are Black. With a name like Kasey Matthews and a home in Glendale, guess who thinks I’m white? BISG. When I ran my name and zip code through BISG, it guessed that I had a 90% chance of being white. That means that all my good credit behavior, or that of anyone like me living anywhere else like Glendale, would get mischaracterized as that of a white person by a lot of fair lending analysis. This might not seem so problematic on its face, but because I’m counted as white, if my loan application gets declined, that decline is counted as a white decline, not a Black decline.

我是BISG如何弄错它的完美例子。 我住在加利福尼亚州格伦代尔市,这是美国最白的城市之一。 格伦代尔居民中只有0.3%是黑人。 像Kasey Matthews这样的名字和在Glendale的家,你猜谁认为我是白人? BISG。 当我通过BISG运行我的姓名和邮政编码时,它猜测我有90%的机会是白人。 这意味着我的所有良好信用行为,或者像我这样住在格兰岱尔(Glendale)等地的任何人的信用行为,都会通过大量公平贷款分析而被误认为白人。 从表面上看,这似乎没有那么大问题,但是由于我被视为白人,因此如果我的贷款申请被拒绝,则该减少将被视为白人拒绝,而不是黑人拒绝。

A 2014 Charles River Associates auto lending study, sponsored in part by some lending institutions, found that BISG correctly identified African American borrowers a mere 24% of the time at an 80% confidence threshold. Hispanic and Asian borrowers were correctly identified 77% and 60% of the time, respectively. At a 50% confidence threshold, BISG was no better than a coin flip for Black borrowers. (See page 55 in the report.) The Consumer Financial Protection Bureau (CFPB), using a different set of loans, found that BISG correctly identified only 39% of African Americans. “These differences highlight just how wide-ranging the error rates can be based on the populations,” said the CRA report’s authors. The report goes on to argue that because of the inaccuracy of the BISG analysis method, harm identified in fair lending analysis may be overstated. It is no surprise that one U.S. House lawmaker called BISG “junk science.”

2014年由一些贷款机构部分赞助的Charles River Associates汽车贷款研究发现,BISG仅在24%的时间里以80%的置信度阈值正确识别了非洲裔美国借款人。 西班牙裔和亚洲借款人的正确识别率分别为77%和60%。 在50%的置信度阈值下,BISG并不比Black借款人的抛硬币更好。 (请参阅报告第55页 。)消费者金融保护局(CFPB)使用一组不同的贷款,发现BISG仅正确识别了39%的非洲裔美国人。 CRA报告的作者说:“这些差异突显出基于总体的错误率范围有多大。” 报告继续指出,由于BISG分析方法的不准确性,公平贷款分析中确定的危害可能被夸大了。 毫不奇怪,一位美国众议院议员将 BISG 称为 “垃圾科学”。

To be fair, BISG wasn’t intended for use in fair lending analysis. It was developed by the Rand Corporation in 2000 to help determine whether minorities were receiving health care at the same rate as whites. In small geographic segments, especially in racially or ethnically homogenous areas, Rand believed BISG was right nine out of 10 times in identifying people as African American. Eventually, the CFPB adopted it for judging lender outcomes, and has levied millions of dollars of fines for racial bias, many of which were based on BISG.

公平地说,BISG并非旨在用于公平贷款分析。 它由兰德公司(Rand Corporation)于2000年开发,旨在帮助确定少数族裔是否获得与白人相同的医疗保健率。 兰德认为 ,在较小的地理区域中,尤其是在种族或民族同质的地区,BISG在将人们识别为非裔美国人的过程中,十分之九。 最终,CFPB采纳了它来判断贷款人的结果,并因种族偏见而开出了数百万美元的罚款,其中很多是基于BISG。

Statisticians have tried to improve BISG. A variant called BIFSG added first names to the mix. Another method predicts ethnicity based on a name’s character sequence. Neither moves the needle much on accuracy. Consumers deserve better, as do the lenders and regulators who make the decisions that affect the lives of millions of borrowers.

统计人员已尝试改善BISG。 名为BIFSG的变体在混音中添加了名字。 另一种方法是根据姓名的字符序列来预测种族。 两者都不会在精度上动太多针。 消费者应得到更好的回报,做出影响到数百万借款人生活的决策的贷方和监管机构也应得到更好的回报。

Earlier this year, the Zest data science team built a new neural network called Race Predictor that, in a test on Florida voter data, outperforms BISG by 60%, correctly identifying African Americans 74% of the time, compared with 47% for BISG. Race Predictor correctly identified Hispanics 87% of the time, compared to 77% for BISG. While there is plenty of work to be done to make it better, and we welcome help from partners, Race Predictor is showing promising results.

今年早些时候,Zest数据科学团队建立了一个名为Race Predictor的新神经网络,该数据在对佛罗里达州选民数据的测试中,胜过BISG了60%,可以在74%的时间内正确识别非裔美国人,而BISG的这一比例为47%。 Race Predictor可以在87%的时间内正确识别出西班牙裔,而BISG则是77%。 尽管有很多工作要做,以使其更好,但我们欢迎合作伙伴的帮助,但Race Predictor却显示出令人鼓舞的结果。

Race Predictor’s neural network correctly identified African Americans 74% of the time, compared with 47% for BISG.
Race Predictor的神经网络在74%的时间内正确地识别了非洲裔美国人,而BISG的这一比例为47%。

Race Predictor is also better than BISG at delivering true positives with high confidence that holds across more diverse groups (see chart below). By contrast, BISG is almost never certain about a person’s race unless they’re white.

Race Predictor也比BISG更好,它能以更高的信心传递真正的肯定,并在更多不同的群体中发挥作用(请参见下表)。 相比之下,BISG几乎永远不会确定一个人的种族,除非他们是白人。

Race Predictor is a natural extension of BISG; it uses name and address information and adds other race-correlated data such as the U.S. Department of Agriculture’s atlas of community food access and Environmental Protection Agency stats on neighborhood walkability. To make best use of the additional data, we’ve replaced the simple Bayesian statistical method used to create BISG with modern machine learning methods that Zest and sophisticated U.S. lenders employ for credit underwriting. These techniques are proven in credit underwriting where they help our customers become more profitable. With Race Predictor, we are applying these advanced methods to provide benefits to those who are underserved.

Race Predictor是BISG的自然扩展; 它使用姓名和地址信息,并添加其他与种族相关的数据,例如美国农业部的社区食物获取地图集和环境保护局有关邻里步行能力的统计数据。 为了充分利用附加数据,我们用Zest和成熟的美国贷方用于信用承销的现代机器学习方法代替了用于创建BISG的简单贝叶斯统计方法。 这些技术已在信用承销中得到证明,可以帮助我们的客户提高利润。 借助Race Predictor,我们将应用这些先进的方法为服务不足的人们带来好处。

Race Predictor was trained and validated on roughly a million people from several Florida counties via the Florida voter database, one of the largest publicly available sources of demographic data that includes name, address, and ethnicity. A model trained only on this subset may not generalize to a national population, but it’s a solid place to start. We’d love to use national race data, but the U.S. Census doesn’t make that data publicly available.

Race Predictor经过佛罗里达州选民数据库的训练和验证,涉及来自佛罗里达州多个县的大约一百万人,该数据库是可公开获得的最大人口统计数据来源之一,包括姓名,地址和种族。 仅针对此子集训练的模型可能不会推广到全国人口,但这是一个可靠的起点。 我们很乐意使用国家种族数据,但美国人口普查并未公开提供这些数据。

We plan to update Race Predictor later this year to improve its accuracy with more data sources, geographies, and new machine learning techniques.

我们计划在今年晚些时候更新Race Predictor,以通过更多数据源,地理位置和新的机器学习技术来提高其准确性。

If you would like to contribute to the project with data or engineering help, by all means drop us a line at abetterway@zest.ai. With better math and more data we can do better than we have in the past and address important issues of equity in access to financial services.

如果您想在数据或工程帮助下为项目做出贡献,请通过abetterway@zest.ai与我们联系 。 有了更好的数学和更多数据,我们可以做得比过去更好,并且可以解决获得金融服务时公平的重要问题。

Additional references:


Sood, Gaurav, 2017, “Florida Voter Registration Data,” https://doi.org/10.7910/DVN/UBIG3F, Harvard Dataverse, V1

Sood,Gaurav,2017年,“佛罗里达州选民登记数据”, https ://doi.org/10.7910/DVN/UBIG3F,Harvard Dataverse,V1

翻译自: https://medium.com/@kam_7586/a-few-changes-in-one-algorithm-can-make-lending-a-lot-less-racist-4afaafba2b01




  • 无监督模型 训练过程_监督使用训练模型
  • 端到端车道线检测_弱监督对象检测-端到端培训管道
  • feynman1999_AI Feynman 2.0:从数据中学习回归方程
  • canny edge_Canny Edge检测器简介
  • 迄今为止2020年AI的奋斗与成功
  • 机器学习算法应用_机器学习:定义,类型,算法,应用
  • 索尼爱立信k510驱动_未来人工智能驱动的电信网络:爱立信案例研究
  • ai驱动数据安全治理_利用AI驱动的自动协调器实时停止有毒信息
  • ai人工智能_古典AI的简要史前
  • 正确的特征点匹配对_了解如何正确选择特征
  • 在Covid-19期间测量社交距离
  • nlp gpt论文_GPT-3是未来。 但是NLP目前可以做什么?
  • ai人工智能软件_您应该了解的5家创新AI软件公司
  • 深度学习 个性化推荐_生产中的深度强化学习第2部分:个性化用户通知
  • opencv 识别火灾_使用深度学习和OpenCV早期火灾探测系统
  • 与Maggy统一单主机和分布式机器学习
  • 极速火箭网络助手怎么用_在检测火箭队方面,神经网络比灰烬更好吗? 如果是这样,如何?...
  • nlu 意图识别_在NLU中,您无视危险的意图
  • BERT-从业者的观点
  • 检测和语义分割_分割和对象检测-第4部分
  • 工业革命 书_工业革命以来最重大的变化
  • 实现无缝滑屏怎么实现_无缝扩展人工智能以实现分布式大数据
  • colab 数据集_Google Colab上的YOLOv4:轻松训练您的自定义数据集(交通标志)
  • 人工智能和机器学习的前五门课程
  • c语言儿童教学_五岁儿童的自然语言处理
  • 星球大战telnet_重制星球大战:第四集(1977)
  • ai人工智能的数据服务_建立AI系统的规则-来自数据科学家
  • 语音库构建_推动数据采用,以通过语音接口构建更好的产品
  • openai-gpt_GPT-3是“人类”吗?
  • 自动化运维--python_自动化-设计师的朋友还是敌人?


  1. 【Matlab】智能优化算法_蜻蜓优化算法DA

    [Matlab]智能优化算法_蜻蜓优化算法DA 1.背景介绍 2.灵感 3.公式推导 3.1 勘探和开发操作 4.算法流程图 5.文件结构 6.伪代码 7.详细代码及注释 7.1 DA.m 7.2 d ...

  2. 【Matlab】智能优化算法_蚁狮优化算法ALO

    [Matlab]智能优化算法_蚁狮优化算法ALO 1.背景介绍 2.基本思想 3.公式推导 3.1 ALO算法的运算符 3.2 蚂蚁的随机游动 3.3 困在蚂蚁坑里 3.4 修建陷阱 3.5 蚂蚁划向 ...

  3. 【Matlab】智能优化算法_灰狼优化算法GWO

    [Matlab]智能优化算法_灰狼优化算法GWO 1.背景介绍 2.基本思想 2.1 等级制度 2.2 狩猎方式 3.公式推导 3.1 社会等级制度 3.2 包围猎物 3.3 包围猎物 3.4 攻击猎 ...

  4. python波峰波谷算法_波动均分算法

    波动均分算法 by leeenx on 2018-01-11 「波动」和「均分」大部分读者朋友是知道的,但看到「波动均分」应该是一头雾水的.其实,这个名词是笔者拼凑出来的. 什么是「波动均分」? 把指 ...

  5. fastunfolding算法_社区发现算法综述—part1

    目前我能在arxiv上找到的最新的关于社区发现算法系列的综述文了. 正文从这里开始: 2.2 社区发现 现代网络在规模.多样性和复杂性上呈指数增长. 由于网络的变化,各种各样呈现出网络结构的不同类型的 ...

  6. 机器学习 线性回归算法_探索机器学习算法简单线性回归

    机器学习 线性回归算法 As we dive into the world of Machine Learning and Data Science, one of the easiest and f ...

  7. python实现洗牌算法_洗牌算法及 random 中 shuffle 方法和 sample 方法浅析

    对于算法书买了一本又一本却没一本读完超过 10%,Leetcode 刷题从来没坚持超过 3 天的我来说,算法能力真的是渣渣.但是,今天决定写一篇跟算法有关的文章.起因是读了吴师兄的文章 <扫雷与 ...

  8. 一致性hash算法_分布式寻址算法

    一.分布式寻址算法简介 分布式寻址算法是很重要的内容,不了解这些算法,也就不能透彻的了解各种分布式中间件的原理.简单说一下这些高大上的寻址到底是个啥意思,比如在elasticsearch中,采用的是多 ...

  9. 多边形之间相交求交点的算法_路径规划算法总结

    本文来自知乎网友@搬砖的旺财,地平线机器人算法工程师.作者根据自己本科和硕士阶段的学习经历,整理归纳了所接触过的规划算法. 1.自主机器人近距离操作运动规划体系 在研究自主运动规划问题之前,首先需建立 ...

  10. java 最少使用(lru)置换算法_缓存置换算法 - LRU算法

    LRU算法 1 原理 对于在内存中并且不被使用的数据块就是LRU,这类数据需要从内存中删除,以腾出空间来存储常用的数据. LRU算法(Least Recently Used,最近最少使用),是内存管理 ...


  1. 导入json数据到Elasticsearch(bulk方法)
  2. Linux grep不包含某些字符串的命令
  3. [BUUCTF-pwn]——jarvisoj_level302-21
  4. php检查 session是否存在,检查sessionid已知的PHP会话是否处于活动状态
  5. 闪退mac_幕布闪退怎么办?别着急看这里
  6. 33.4. Gearman
  7. android从本地服务器新浪云,GitHub - SinaCloudStorage/SinaStorage-SDK-Android: Android SDK For 新浪云存储...
  8. 如何恢复磁盘中被删除的数据
  9. DM 关键字、屏蔽关键字
  10. MATLAB 线性动态范围调整
  11. 软件测试需求频繁变更,软件测试人员如何测试需求频繁变动的项目
  12. 如何将EXCEL数据表里面的数据逆时针旋转90度
  13. 类似微信聊天 日期算法(转换)
  14. 汽车功能安全工程师必看!ISO 26262认证基本原理解析
  15. TeamViwer远程操作
  16. 用计算机计算告白密码,阿拉伯数字高级表白密码 很火的表白密码
  17. 数码管循环显示单个数字
  18. WinCE系统时间年份不准的问题(记录)
  19. Windows 8的Metro界面
  20. 小二读西游-法术学习哪家强,三星洞,须菩提


  1. 【软考10】计算机网络基础知识拾遗
  2. animate auto
  3. T400笔记本Fn+F3、Fn+F8失效
  4. unity投影和视频画面的调整
  5. Atitit 时间的展示格式与存储格式 目录 1.1. 赛事时间的格式起源 1 1.1.1. 六十[编辑] 1 1.2. 1h 12m 23s 模式 (可读性最好 2 1.3. 日常模式 1:45:
  6. Atitit 网关协议cgi wsgi fcgi fastcgi 目录 1.1. CGI(common gateway unterface) 1 1.2. 2.1 WSGI: 1 1.3. 2.3
  7. Atitit 各有所长原则 Thinker和Doer之争。 Doer Influencer relater thinker 目录 1. Doer Influencer relater thinke
  8. Atitit 利用前端cache indexdb localStorage 缓存提升性能优化attilax总结 1.1. indexdb 更加强大点,但是结果测试,api比较繁琐 使用叫麻烦些 1
  9. Atitit 怎么阅读一本书 消化 分析 检索 attilax总结 1. 读书的本质 是数据的处理,大量的数据,处理能力有限的大脑 2 2. ETL数据清洗转换 摘要,缩小数据规模 2 2.1
  10. atitit 高扩展性解决方案.docx