大家好,欢迎来到IT知识分享网。
一:电商风控中台核心流程剖析
1.1 风控领域相关技术及引擎构建能力
什么是风控系统
风险控制系统,是在传统互联网反作弊基础上更高级的一个领域
业务场景
1)ugc内容分库场景
2)电商欺诈场景
3)行为反作弊场景
4)信用等级场景
业务性质属性
1)对抗性
黑产/灰产
2)智能性
数据太多
1.1 风控系统核心手段
定义一套所有用户都必须遵守的规则,并不断的优化和改进
核心能力
规则引擎
流程引擎
1.2 风控系统设计
风控系统设计原则:持续迭代能力,灵活调整规则,始终考虑兜底策略
风控系统的特点
1)人工干预最简单管用
2)架构设计平衡机器和人工审核
3)技术作为效率工具不断迭代
4)释放人力
风控迭代核心指标
1)精准率
TP/(TP+FP)
2)召回率
TP/(TG+FN)
二:电商风控架构技术实践与演进
2.1 电商风控1.0
公司0-1阶段,为了应对运营活动的,设立反作弊模块用于提供基础的反作弊判断能力
风控1.0背景
1)需求场景简单
2)风控规则简单
3)实现方案多样
4)人力紧缺
2.2 项目从零怎么做?
1)实现功能第一
2)适度超前设计
需求:
1)对留言进行黑白名单检验
2)对留言文本的敏感词进行校验
3)对留言频率的校验
技术超前设计
规则模块化/可插拔设计
1)按模块化设计反作弊逻辑
2)使用list进行策略组合,通过写死循环执行
基于配置可调整设计
1)本地配置
2)协议定义
3)协议解析
配置化的优缺点:配置生效,协议规范化,可读性
2.2.1 风控1.0的痛点
1)修改频繁
文件配置太复杂,不利于修改
2)业务代码繁多
重复代码变得更多,可插拔难用
3)上线次数变多
出错概率越来越大
2.2.2 风控1.0plus
配置能力优化,配置的核心是对于规则的定义,重构的目标是用业务思维改为规则思维
规则思维
规则是可以明确定义的
明确定义后可以机器自动执行,规模化的
规则定义
特征+操作逻辑+阈值
特征:留言行为3分钟留言次数
操作逻辑:比阈值大(大于)
阈值:10
策略是规则的叠加
完整的策略包含规则和动作
基于规则的架构
1)数据接入
上下文context设计
数据共享,入参传递or threadlocal
减少特征的重复初始化
数据的统一维护
2)策略引擎
数据协议的存储
3)结果处理
每条策略会有一个处理结果
对外触发 & 对内设计
结果分类
结果优先级
2.3风控的关键技术
规则引擎是风控的灵魂,构建灵活、高效的规则引擎
技术路线
1)自研
2)开源
2.3.1 开源规则引擎
1)drools
活跃的社区支持
java生态
快速执行速度
2)drools是业务逻辑集成平台
业务规则管理系统
规则引擎,drools的核心部分
工作流引擎
事件处理
优点
将业务规则则转化成执行树
缺点
对规则定义处理一般
2.3.2 自研规则引擎
1)反射
规则核心明确
目标是释放rd人力
2)aviactor
一个高性能,轻量级的java语言实现的表达式请求值引擎
直接将表达式编译成java字节码,交给jvm去执行
3)选型依据
升级更平滑
效率更高,代码可控性高
2.2 风控的整体架构演进
架构是对技术的包装,将不同的能力组合成高效系统的过程
1)迭代之路
1.1)all in one
优点:块,简单
缺点:不适合业务发展1-10阶段,业务范围越来越大,多人的并发开发
1.2)微服务
微服务化
1)根据优先级拆分
核心模块优先级不一样
2)通用逻辑
数据接入层:分库分表、newsql
3)核心划分
在线模块
离线模块
管理模块
4)微服务拆分实践
功能迁移
代码迁移
灰度迁移
历史代码删除
异步拆分方案
异步rpc
mq
2.3 holad住一个方向
技术的精进,不断迭代的意识,对效果的评估
1)风控的行业总结
三个阶段
二个指标
一个核心
欺诈模型的迭代过程
三:电商风控中台关键算法剖析
3.1 ugc反作弊杀器
文本匹配
1)jdk自带的contains方法
2)kmp算法
3)多个目标匹配呢更快嘛
trie树+kmp算法
{ash,shex,bcd,sha}
4)失败指针
指向他父亲节点fail指向的那个节点具有相同的字母的字节点
否则指向根节点
3.2 ugc场景敏感词识别
用户自发内容避免涉黄涉政等敏感信息,需要对作弊信息进行拦截
需求分析:
1)识别敏感词能力
2)支持词库配置
3)支持词库白名单
4)支持单词和多词组合识别能力
业务分析
1)高qps
2)词库数据量ok
3)高扩展能力
3.3 敏感词匹配架构设计
服务分析实践
1)高性能
算法设计
缓存设计
2)高扩张
数据存储协议设计
词库匹配业务设计
核心流程
(1)构建ac自动机
(2)算法匹配
(3)多词反查数据库
进一步缓存
3.4 敏感词匹配高扩展
数据协议设计
1)按场景构建op_type
2)多词分类设计cate_id
3)不同等级类别type
对应不同的处罚
3.5 敏感词匹配高性能
缓存设计
1)进程内缓存
2)存在问题?
数据量级别
一致性问题
3.6 敏感词匹配实践
1)ac自动匹配逻辑处理
2)多词匹配
3.7 行为反作弊场景频率计数
通过机器或者人为产生的恶意异常行为,通常在频率上区别与正常人
需求分析
统计某个用户某段时间某种行为的次数
业务分析
灵活定义时间窗口
灵活定义行为
1)计数逻辑
方案设计
1)维度灵活性
策略引擎
2)存储选型
redis zset实现滑动窗口
redis数据过大性能衰减
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/25394.html