风控审核不通过 内容审核的困境与未来——探讨人审、机审的优缺点及应用前景
#你了解内容审核工作吗#
01 “紧”与“松”不是对抗,而是共生
“紧”与“松”的问题,其实是对内容监管趋势以及内容平台生态建设的一个总结。
“紧”可以分为两个方向,一是监管要求,另一个是监管力度。在监管上,从2019年开始,随着数字经济蓬勃发展,以及疫情加速的线上娱乐迅猛攀升,涉黄、涉政、涉嫌违禁的内容日益受到监管重视,并且也细分出隐晦**整治、电信诈骗内容整治、包括对未成年人的保护等具体要求。这些要求正在逐步弥补各类平台“野蛮生长”时期的规范空缺,对各类风险内容以及过往忽视的新发风险予以关注,实际上也在树立内容生态发展的相关规范。
另一方面,监管力度是监管要求有效性的强力保障,监管要求、监管力度、监管处罚是对应匹配的。所以我们能够看到一些平台因为违规被处罚的新闻,这种监管力度的信号其实就传递出对监管要求执行的坚决度。这两点构成了广义上的“紧”。
从内容平台的角度出发,其实渴求的是“松”。绝大多数的APP其实都在想方设法提高自己平台的内容活性,无论是打造出社区/直播/评论/聊天等等功能,本质目的是创造活跃的UGC生态,让用户在平台创造内容、产生联系、持续活跃,获得畅所欲言的快感或是满足天然的社交需求,这是内容平台渴求的“松”。
“松”看似是一个逆监管要求的想法,但它并不是说触犯红线或逾越红线的松,比如放任用户随意发送**内容。平台在打造用户体验的同时,同样抱有着最大程度满足合规要求的诉求。在风控上也对红线的基础问题十分明确,希望能及时发现和处置真正有风险的信息。
因此“紧”和“松”并不是剑拔弩张的对立关系,实际上是一种共生关系。
02 纯人审符合直觉,但低效的审核方案
最早出现的审核模式就是人审,但人工审核有三个明显的缺点。
一. 监管理解有难度数美在为大量客户提供服务的过程中发现,大量腰部的中小型企业往往团队规模比较小,成立年限比较短而且集中投入在产品上,没有精力投入到合规研究中。
合规研究主要有两方面门槛,一是舆情关注,要持续地关注最新的监管动向,关注信息渠道是一定会占用、且会持久占用人力的工作。因此中小型企业往往不会投入成本来设置专门人员关注舆情。二是对新规的理解,也就是每一条描述对应了什么样的案例。当面对一条抽象描述时,如何判断平台数十亿信息哪些需要拦截和清洗,这需要一个经验丰富的人来理解,想组建一个团队集结这样的人,难度是非常大的。
二. 高成本问题内容审核问题是一分为二的,除了要不断监控新发送的内容,也要对历史发送的内容进行重审,总数据量是非常庞大的。以数美为例,文本、图片的日均量都是亿计,音视频时长日均超70万个小时。
人工审核在处理音视频的时候只能简单粗暴地听一遍或看一遍,如果有不清楚的可能需要重复2-3遍才能判定风险。这就意味着内容有多长,审核就要多久,甚至更久。这就会产生更多的衍生问题,比如固定的单人审核能效必将导致更加庞大的审核团队,又或是等待审核时长过长导致的用户流失。因此这既是效率问题,也是用户体验问题,但最终都会回到成本问题。
三. 时效性差俗话说金钱买不到时间,如果说前两点通过投入大量的人力预算勉强称得上可以解决,时效性差的缺点是绝对无法用金钱来cover的。比如,如果APP上设计了实时私聊的im功能,人审是无法实时介入的,任何一条发送的信息是不可能等到审核完才允许发送的。同理,在发布音视频文件的审核中,时效性差的缺点也同样明显。
时效性还有第二个问题就是应对舆情的能力,比如说发现某种严格管控的风险内容,不仅要处理当下的新发信息,也要同时检查所有的数千万甚至数亿条历史存量信息。想要短时间内完成历史存量的筛查,这是人审绝不可能完成的。
03 机审+人审除了效率,也解决更多问题
目前市面上的机审还普遍认为是在辅助人审,事实上曾经激进地采用过全机审的几家公司也先后放弃了这种单纯方案。目前市面上人审和机审结合的方案主要有两种,也就是先发后审和先审后发。
一. 先发后审
先发后审指的是某一条内容发出来之后,先小范围可见或仅自己可见,然后进入机审和人工复审,审核完之后再进行全量展示。这种方案保证了用户的即时体验,用户能够感受到自身内容得到发布,因此先发后审一般是用在实时性要求较高的场景,比如im、动态评论等等。
二. 先审后发
相对应的,先审后发指的是用户提交内容后先进行审核再进行发布的方案,这种方案就适用于一些实时性要求不高的场景,比如在网站发布长视频、长图文、连载小说等等,用户对于内容需要审核以及审核时长已经有了心理预期,因此可以接受先发送、再审核、再收到发布结果的异步形式。
那为什么说机审是人审的辅助呢?实际上机审现在其实有几个无法逾越的鸿沟,比如目前的模型没有办法取代人,它不具备人的深度思考能力、联想能力、联系上下文能力等等。再比如机器在某些审核标准上很难把控,因为机器不具备主观性,像是无法理解软**/**/暧昧**的定义和区别,这就需要人的介入。
但这样的问题并不代表机审就没有优化的空间,譬如数美首先是采用了三级标签体系,在机审上训练出了非常多的细分标签,然后通过新增、组合来实现新的识别功能。然后另外一个非常重要的点就是纠错机制。机审之后进入到人审,人审的结果如果与机审相悖,就会形成一个case回流到策略、模型团队,引导机器进行校正。
04 机审+人审前路是人性化
前面我们其实讨论了三个大问题,为什么要做审核?为什么不做纯人审?怎么做人机结合?在第三个问题上也讨论了一下机审的优化问题。实际上机审的优化提升更像是一个后端问题,