笔记:内容业务风控的业务模型
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了笔记:内容业务风控的业务模型相关的知识,希望对你有一定的参考价值。
参考技术A 一、背景● 内容平台,无论是自媒体、社交博客、视频直播类,在流量充足后面临更多的问题监管审查,头条、微博、知乎等UGC平台均被约谈乃至整顿过,严重的诸如内涵段子等责备关停。
● 繁荣的UGC下面深藏危机乱象丛生,受利益驱使,黑产自然不会放过内容平台这块肥肉,平台成了间接作恶工具,自然给企业带来源源不断的麻烦、损失。
二、来自内容的风险主要有两类
2.1监管风险
2.2用户体验损害
● UGC平台充斥大量广告导流、欺诈广告,导致用户体验变差、用户流失、平台受损。
三、内容风控的四个发展阶段
● 对于内容风控的进化阶段
A、无人监管,面临极大的监管风险
B、全部人工审核,人工成本高,难以应对数据大幅增长、响应速度慢
C、机器审核+人工审核,人工成本稍高,数据处理量大,响应较快、机审准确率低。
D、AI审核,响应快、准确率高
● 由于AI还在发展阶段,大规模应用不成熟,所以现阶段大多公司推行机器审核+人工审核的形式。本文也威少机审+人审的模型进行产品说明。
四、风控的原则
轻管控:在出现风险,需要阻断用户操作时,阻断动作宜轻不宜重。能仅自己可见就不要阻止用户发布内容。同时被阻断后文案,下一步出口都需要照顾用户感受。看似简单,其实背后涉及到对用户风控行为以及对用户风控阻断动作的分层管理。
重检测:通过尽可能多的获取用户信息(包括静态及动态数据),由规则引擎进行实时或离线计算,来动态分析每个用户及采取行为的风险程度。这里需要尽量全的数据来源,以及非常强大的规则引擎,才可以实现良好的检测效果。
快响应:是指在检测出用户存在的风险后,如何快速的进行阻挡。这里的重点是快,则意味着对业务的理解要细,提前在关键动作进行布局,才可以做到尽可能减少损失。
● 业务风控的业务模型主要分为六层,分别为数据输入层,数据计算层,数据输出层,运营管控层,业务接入层以及用户触达层。
● 上面三层,是偏向于数据,研发的;下面三层,是偏向于业务,运营,产品的。做风控其实就是做数据,因此数据的接入、技术、处理是其中最核心的模块;但现阶段,由于算法模型的限制,还需要有人为的因素进行规则模型的校正,以及特殊样本的审理,因此会有运营层的存在;最上面的触达层,是拿结果的一层,产品的部分工作也在于对此进行良好的设计。
一、数据输入层
● 通过主动采集、业务方送审的原始数据
1.1内容主体:
● 内容审核业务起始层,梳理审核系统需要的全部数据局,以及可以通过业务端采集的数据,数据越详细对后期数据计算越有利。
注意点:1、不同送审内容之间存在群组关联,如帖子下可能包含:名称文本、内容文本、图片、视频、投票文本。2、不同内容间存在映射关联,如商品与评论的关系。3、不同内容间存在组合关联,内容单独出现无违规、组合起来违规的情况。
1.2内容环境:
● 审核方在审核平台为每一个业务(区分文字、图片、视频)生成唯一识别码,用于区分各送审业务,业务方在业务唯一识别码的基础上随机生成唯一的送审码,用于区分送审内容。除送审内容外,审核方需要采集包括且不限于送审类型(用于区分图文)、用户类型、用户ID、城市、IP、设备号、时间戳、业务ID、内容ID、客户端区分等。历史批量数据送审应与日增数据分开低优先级送审,确保日常数据正常处理。对送审的qps进行限制,避免造成服务器压力。
● 除送审数据外,其他获取包括用户信息、关联内容信息、发布者违规历史、前端操作事件(文字粘贴、截图上传),结合送审数据进行综合判别。
1.3离线数据
● 用户风险评级:根据用户历史行为,对独立用户进行风险系数评级。0-100之间的分数,分数越高表示用户在相应业务场景下越为可信。分数将用户划分为多个等级,在使用中可以根据业务场景选择不同等级的用户或不同分数区间的用户进行针对性策略放过或打击,实现策略的精细化运营。通过有效搜索浏览路径、可信内容发布历史、内容违规历史等维度进行违规(考虑细分维度,比如涉黄分值)计算,充分考虑时间衰减与权重比例、设置扣分门槛与限制。并需要防止对新用户、沉睡用户的误伤。
● 账号、设备、IP、地域近期行为等风险评级:根据账号、设备、近期行为,对时间段内账号行为进行风险评级,分属越高代表分享程度越低。由于账号被盗、黑产账号(刷评论)、推广账号、养号等违规账号类型,对内容本身较大具有威胁。风险评级基于多渠道、多场景数据,以及时间段内关键行为,并关联分析手机、设备、IP、紧急联系人等实体数据,锁定欺诈风险并进行对账号、设备、IP的风险识别。采用聚类分析、GBM、设备相似性识别,等构建设备识别模型,有效识别虚拟机和设备农场等高风险设备。基于机器操作、异常操作识别等技术,识别机器注册、机器养号、撞库攻击、账号盗用等风险行为。基于手机、设备、IP等实体数据关联分析,锁定欺诈风险并进行风险识别。
二、数据计算层
通过机器或者人工进行过滤的环节
2.1机器审核
● 规则引擎:提供规则集、决策表、交叉决策表(决策矩阵)、决策树、评分卡、复杂评分卡、规则流等八种类型的业务规则设计工具
● 打击规则:分类型对打击策略进行分类与分级,类目明确清晰。前期应该考虑到业务使用范围场景复杂度与误伤场景,细分粒度。比如在按摩休娱下,涉及的性感的图片可能有性暗示、性交易的企图,但是在泳装类目下,性感存在即是合理的。有比如,在管弦乐器业务下,图片容易受到枪支策略的误伤,需要在此业务下对枪支策略进行个性化调整。
● 离线任务:由于打击存在频繁更新,以及其他不可力抗的修改。未避免业务多次送审,离线任务主要记录存储业务已经送审数据,进行二次审核,再次返回结果。业务方需要支持接收多次结果,并以最新一次为准。
● 机器学习:深度学习图片识别技术 + 数亿级实时更新的图像样本库极速智能解决平台四大问题
文字类型,过滤垃圾广告、导流信息、恶意营销、违法欺诈广告等内容与变体内容。识别淫秽、辱骂等色情低俗内容,基于深度模型同步客户审核标准,进行程度分级。基于海量文本特征库,识别涉政、恐、暴、毒、违禁品等存在监管风险的违规内容。检测内容语义环境,拦截无意义垃圾内容。
图片类型,采用OCR识别等技术,对图像中文本提取识别。基于NLP自然语言处理技术与深度模型,识别色情内容并进行程度分级。基于深度学习技术与海量样本机器学习,对色情、违法违规内容进行鉴别与评级。基于人脸识别技术与机器学习,对漫画、恶搞、负面涉政人物的违规信息识别。文本语义环境检测,高效拦截水贴刷屏无意义内容恶意灌水等行为。
其他视频与语音均于ai技术,转换成
2.2人工审核
● 人工审核平台用户运营部门对内容进行日常的审核,并可实时处理违法违规内容。平台应满足审核区、回收站、历史审核、黑名单管理、信息清理、业务数据查询等常用能力。可对内容按照内容形式(如图片、评价)、按照机审处理规则(如色情)等维度分类,帮助运营部门快速审核。可提供相应的用户、商户等辅助信息数据,协助运营部门对内容进行快速决断。
三、数据输出
● 通过结果返回业务方本次送审内容本身最终审核(通过/驳回)结果与原因,以及因其他原因诸如行为异常等参考信息;随着业务场景的不断壮大、业务需求也会越来越细分,随着策略层面打击结果随之越来越细分。诸如,增加新策略、老策略拆分、违规程度、危险分级等。前期做好调研,在接口设计上保留充足的拓展性十分重要。毕竟作为服务方,推业务方迁移成本比较高。
四、运营管控层
● 运营部门对审核对接、审核过程、审核结果的协助操作;对各环节数据监控等
4.1业务运营
● 接入管理:对已经接入的业务进行增删改查等才做
● 回扫管理:由于审核的标准处于不断更新的状态,新的策略上线后对已经审核过的内容不能进行覆盖。就需要进行自动或者手动的回扫行为
● 处罚处置:未防止违规内容的不断滋生,相对应的处罚行为可以震慑不良用户,对危险用户从账号层面直接处理。
● 风险大盘:策略在审核过程中依赖业务方的送审信息,除了内容主体外其他辅助信息对风险等级的判定也极为重要、送审频率的异常波动也作为策略审核的重要依据,为确保送审时间保质保量稳定的送审,对数据层面进行校验,监测数据完整、稳定程度,对异常送审及时发出警告。
● 名单与标签管理,对以用户、设备等维度的黑白名单、标签进行管理
4.2人审运营
● 包含对人工审核的质量、工单流水、审核员管理、审核结果抽样等职能
4.3策略管理
● 打标平台:对样本内容进行打标,用以训练模型精准度
● 策略管理:用来配置打击策略的系统
● 特征管理: 模型管理、即管理特征与模型的系统
● 词库管理:对策略中黑词、白词、灰词进行集中管理
4.4用户运营
● 反作弊调查:对漏过、误杀的案例进行回访,收集用户需求
● 案件中心:对漏过、误杀的案例进行归类,引导策略优化模型再训练
五、接入层
● 主要面向接入业务方,让业务方知晓接入进度、拦截与误杀情况,引导业务优化前端交互
5.1业务管理
● 自助接入:业务方自助提交接入需求信息,形成审批工单状态流转
● 服务配置:对已有业务进行需求变更
● 统计报表:针对各自业务进行报表统计,反向推动业务方优化交互形式
● case查询:由于业务方是对接case第一人,提供case查询工具,让业务明确case产生原因与结果
● 个性词库:各业务场景不一,除统一词库外,还应对各自场景下的特殊违规词进行处理
● 申诉通道:对漏过误杀case的申诉通道
六、触达层,面向普通c/b用户
6.1风控动作,即内容通过审核最终的结果反馈,需要与业务方共同完成。
● 从审核方以及业务方的角度,为了对违规评价提供最合理的处理方式(删除、下线、正常显示、隐藏、置地等),降低对用户伤害;对评价违规类型分级,并根据其级别进行对应分级处理。包括评价对用户等级、前端展示以及评价权益等。根据违规程度、用户主观恶意程度,对内容发布者进行分级处理。显示分级:全网可见、仅自己可见、全网不可见。内容产品赠送的积分、星级等进行逐步减少与扣罚。其他严重处罚诸如禁言、禁访、注销账号等。并发出提醒(审核结果与处罚、申诉、举报结果的反馈),明确用户发布状态与惩罚因果。
6.2风控补救,即举报、申诉。
● 由于风控不可能100%准确,对于误伤、漏过的case,需要提供用户直接申诉的渠道
6.3教育
● 事前宣传,对用户/商户进行宣传,告知拦击基本规则,减少商户及用户的尝试作弊行为,并提供更优的用户体验,引导用户避免发布与规则冲突的内容。 事后引导,对进行拦截打击的内容,引导用户修改,确保内容既合规,又不影响用户体验
笔记 《风控要略:互联网业务反欺诈之路》 马传磊 等
备注
表示自己的话或者是分段标题
表示书中片段
开始
我们可以只依赖第三方风控吗?昂贵的金额只是一方面
业务安全真正力量是内生的,专业的安全风控公司可以提供工具、平台和策略建议,但是只有业务方真正理解风险了防控思路,才能在与黑产的对抗中设计好业务规则、运营好安全策略,取得较好的效果
在业务安全领域中和黑产的对抗,很大程度上是技术和资源的对抗。
了解业务安全的前世今生
从互联网诞生至2014年,互联网安全行业关注的热点基本都聚焦在网络安全、系统安全和应用安全这三大基础安全领域上。
2014年前后,随着互联网业务的爆炸式发展,黑产团伙开始从“攻击系统获利”的传统套路进化到“利用有任务风控缺失进行大规模牟利”的模式,并且逐渐形成规模庞大、分工明确的黑色产业链。一批新兴的乙方风控企业,则选择惠及更多的企业,将技术算法赋能给其他风控能力薄弱的互联网公司,共享黑产对抗成果。
在2014之后的几年时间里,互联网风控反欺诈阵营和黑产集团展开了波澜壮阔的鏖战,双方各有胜负。
公安部在2019年的“净网行动”对黑产生态进行了系统性的打击,黑色产业链在经历了5年多的野蛮发展之后,终于得到了有效的遏制。
联合风控会是业务安全的趋势吗?
据统计,国内黑产成员超过50万人,黑产团伙之间已经形成了相互分工、紧密合作的产业生态。由于企业之间信息和数据的割裂,欺诈分子往往能顺利游走于不同平台之间。
注册登录风控
从不同业务场景来看,注册登录场景中的风险占比是最高的,可以高达40%,因为对于绝大部分的业务流程来说,注册登录是所有后续业务的门槛。如果能在注册登录场景中做好风控,把绝大部分的黑产拒之门外,在后续的其他环节中,风险就会降低很多。
验证码
一般的短信验证码,通过猫池和管理软件配合就能自动读取出来,实现注册登录的自动化操作。为了对抗猫池,很多平台逐渐演变出了新型的验证码形式,例如语音验证码,或要求用户向指定号码发送一条验证码短信。
虚假号码:丧心病狂的“老人机团伙”
在虚假号码产业链中,有一些高技术的团伙在用一种特殊的方式提供手机接码的能力,当我们厘清他们的运作体系时,也对这些团伙的创造力和执行力感到惊叹,只是遗憾他们没有用到正途上。
“老人机团伙”拥有自己开发的手机rom系统,预植入了后门逻辑,然后与很多公司合作生产各种品牌的“老人机”。当手机插卡之后,rom中的后门就会通过短信的方式上报手机号,黑产用这些手机号注册各类网络平台账号,当验证码发到老人手机上时会被后门再次转发到黑产手中,使用者自己根本看不到这些短信,所以也无法觉察自己的手机被黑产使用了,只能从运营商的短信详单里发现端倪。
这种规模的黑产手机号一度超过1000万的量级,互联网厂商也无法验证这些手机号为黑号,因为即使打电话过去,不仅不是空号,并且有人接听。
情报
精易论坛是软件破解者和黑产工具的集中营,它具有各种封装好的破解库和现成工具线上担保交易。
群控
2017年,一批持有大量设备的群控中心推出了“云手机”服务。至此,群控进入SaaS时代,黑产不需要自建群控系统,就可以租到大量真实设备。
风险防控体系
终端风控层主要由设备指纹、生物探针和智能验证码构成、其中最重要的一环是设备指纹。唯一性与稳定性需要权衡。
生物探针和智能验证码虽然功能大体一致,但是使用场景有所区别,前者适用于全业务场景监测是否机器,后者适用于特定场景对抗机器批量行为。生物探针能够在应用后台自动识别人机,不影响用户交互,而只能验证码是一款有悖于用户交互体验的产品。
风险态势感知系统侧重于宏观的系统分析。其核心功能是感知、展示和预测整个业务体系的风险事件变化趋势。当风险决策结果发生非预期的波动时,运营人员就必须人工分析策略漏杀、误杀的情况。
数据画像层包括黑产攻击事件、黑手机号名单、IP画像、设备画像、黑产使用的手机号、IP、手机设备等资源是相对有限的,会重复用于针对各个不同互联网平台的攻击活动。在为多个客户提供SaaS防控的过程中,沉淀黑产风险数据形成画像体系是一个非常有效的“联防联控”技术手段。
欺诈情报体系作为贯彻整个流程的重要子系统,为整体的防控效果提供了“攻击者视角”的能力补充和评估。通过对黑产社区的监控、黑产动态的追踪和自动化分析研判,欺诈情报体系能够快速感知到防护体系中的弱点,驱动风控运营人员进行针对性的优化。黑产的攻击方式是不断变化的,防控策略也需要不断升级。
设备指纹
风控行业对设备的定义是指用户和业务系统交互的载体,可以是一个浏览器、一步手机,也可以是一个微信小程序。
在互联网反欺诈对抗中,设备ID类规则是防刷单、防薅羊毛、虚假设备识别、反爬虫、账号安全等场景的核心规则。
根据国家法律要求,设备指纹在生成设备ID的过程中,不能使用用户的个人隐私信息,如通讯录、短信、手机号和通话记录都是不可触碰的数据。尽管这些数据有非常强的唯一性,可以有效地提高设备指纹的准确性。
生物探针
人和人,人和机器的行为都是不一样的,所以生物探针可以用来判断当前是机器还是人类,以及是不是本人
生物探针通过采集用户使用智能终端时的传感器数据(加速度计、陀螺仪、重力加速度计、磁场传感器)和屏幕轨迹数据,为每一位用户建立多维度的生物行为特征模型,生成用户专属画像进行人机识别、本人识别。
生物探针相较其他用户认证方式,主要优势如下:
- 用户无感知
- 可持续在线验证
- 用户行为习惯不易窃取和仿冒
- 安全合规
生物探针的缺点是采集上报的数据包比较大,容易受网络波动影响,未来可以通过终端智能计算、5G边缘计算解决网络传输带来的问题。
智能验证码
CAPTCHA(Completely Automated Public Turing Test to Tell Computers And Human Apart)全自动区分计算机和人类的图灵测试。
打码平台聚集了大量想在网上赚钱的劳工。攻击者拿到验证码图片后,上传给打码平台、打码平台会把图片下发给这些劳工,由他们来解答,然后把正确答案返回。
由于打码平台的存在,验证码的图片到底是什么类型,已经变得不再重要了。因为我们对抗的不是机器,而是真实的人类。这样的话,图灵测试就完全失去了它的意义。
google的reCaptcha是一种方案,用户界面非常友好,它可以被认为是当前比较先进的验证码,它拥有强大的人机识别算法。
在攻击者获取验证图片的这个步骤前,我们也增加了门槛。每张图片从后端传输到前段的过程中都是经过切割打乱处理的,所以攻击者无法通过抓包的方式直接拿到最终展示给用户的图片。
海量数据的实时指标计算
在对业务事件的实时风险决策判断中,无论是基于专家规则还是风控模型,都需要依赖对一定时间范围数据进行回溯加工的变量,这些变量称为指标。
在风控反欺诈业务中,为了实时进行业务事件的风险判断,要求指标计算延迟非常低,一般在毫秒或者几十毫秒级别。这里低延迟包含两个维度:一个维度是最新的事件被指标统计在内的延迟,另一个维度是计算结果的响应时间延迟。
- 基于数据库SQL的计算方案
- 基于事件驱动的计算方案
- 基于实时计算框架的计算方案
风险态势感知
发现漏杀和误杀
- 专家水平有差异,可能给黑产留下可乘之机
- 黑产攻击手法多变
- 运营人员操作风险
- 产品和系统Bug
从上面的综述可以看出反欺诈体系建设中的风险预警的重要性:如何快速发现现有风控系统的防御盲区,预警随着线上已经逐渐失效的风控策略
- 基于统计分析
– 核心风控指标数据:调用量,拒绝率啥的
– 核心业务数据:交易金额同比环比,退货率,地域分布,类目分布,营销优惠券使用情况- 基于无监督学习
- 基于欺诈情报
– 当业务系统发生业务漏洞,无法防控黑产,被黑产利用时,黑产往往会通过论坛、社交网站、社交软件等方式进行讨论和分享。
名单体系
业内曾经有这样一个观点:第一代风控系统基于名单数据,第二代风控系统基于规则,第三代风控系统基于机器学习。姑且不论这种观点的准确性,至少说明了风险数据名单确实是一种有效的风险控制手段。它不能100%解决业务风险,但相比其他风控技术手段而言,它的性价比比较高。
注意名单投毒导致的客诉
欺诈情报体系
我们把欺诈情报分为三大类:技术情报、数据情报和事件情报
- 技术情报: 学习黑产技术和工具
- 数据情报:名单,订单找商户
- 事件情报:已经发生,正在发生或者即将发生的信息
以上是关于笔记:内容业务风控的业务模型的主要内容,如果未能解决你的问题,请参考以下文章