不平衡样本(过)欠采样后后验概率的修正
最近在项目当中遇到了不平衡样本,并且由于本身样本总量受取数的时间窗口限制的原因,样本已经不平衡到无法建模的地步,在扩大取样窗口的同时也瞄了一眼业务上线以来所有的标签为1的样本数量,也少到了不得不进行欠采样来进行平衡才能够愉快的建模的地步。而样本分布的改变(先验概率)比如对模型的预测概率(后验概率)有所影响,为了能够将模型结果能够准确地在新数据(假设与抽样前样本同分布)进行部署,需要根据抽样前后的先验概率对模型预测的后验概率进行修正。
最近在项目当中遇到了不平衡样本,并且由于本身样本总量受取数的时间窗口限制的原因,样本已经不平衡到无法建模的地步,在扩大取样窗口的同时也瞄了一眼业务上线以来所有的标签为1的样本数量,也少到了不得不进行欠采样来进行平衡才能够愉快的建模的地步。而样本分布的改变(先验概率)比如对模型的预测概率(后验概率)有所影响,为了能够将模型结果能够准确地在新数据(假设与抽样前样本同分布)进行部署,需要根据抽样前后的先验概率对模型预测的后验概率进行修正。
最近在公司做的一个项目,根据运营增加营收、提高平台上面各个三方合规贷款业务的通过率的需求,主要使用逻辑回来来预测每个用户在平台上面不同贷款业务的通过概率,然后向用户按照通过概率排序展示TOP N的产品,从而提高转化。项目实施后,在切部分流量进行 AB 测试以后,无论是整体的贷款申请通过率还是营收,均有较大幅度的提升,目前正在准备向全平台进行推广,这边主要分享下主要的思路和方法。
最近在使用matplotlib库进行画图的时候遇到中文显示的问题,谷歌了几番做个记录,最终解决我问题的关键一步还是官方文档给出的,以后有什么问题还是先直接看官方文档最直接,效率最高,走得弯路最少!~
没什么,最近刷了一遍Leetcode上面数据库的免费题目,将解决方法记录一下。
没什么,最近刷了一遍Leetcode上面数据库的免费题目,将解决方法记录一下。
没什么,最近刷了一遍Leetcode上面数据库的免费题目,将解决方法记录一下。
没什么,最近刷了一遍Leetcode上面数据库的免费题目,将解决方法记录一下。
没什么,最近刷了一遍Leetcode上面数据库的免费题目,将解决方法记录一下。
没什么,最近刷了一遍Leetcode上面数据库的免费题目,将解决方法记录一下。
没什么,最近刷了一遍Leetcode上面数据库的免费题目,将解决方法记录一下。