平台风控审核 产品经理视角看内容审查与风控策略
一个内容社区的用户角色,大致可分为内容生产者(创作型用户)和内容消费者(浏览型用户),既有内容的生产创作,又有观众能够消化掉创作产能,形成良好的社区内容生态。
如何保证内容平台和内容社区里的“内容”,有良好的文化导向,形成良好的内容氛围,就需要平台介入到内容创作中,引导内容生产者创作符合平台价值观的内容,以及引导创作平台提倡的内容。在平台介入内容创作的各种方式中,内容风控就是其中一种。
除内容文化导向外,内容平台的监管责任,也是内容风控的关键原因。2020年3月,国家网信办针对互联网内容乱象,出台实行了《网络信息内容生态治理规定》,明确了网络信息内容服务平台的责任,这意味着,对于内容平台的信息安全,不仅仅信息的发布者要承担责任,平台也同样需要对内容风控负责。
对于很多内容平台来说,既然内容审查成为逃避不掉的责任,那么如何利用机器审核和人工相配合,如何权衡效率和成本,就成为各大平台亟需想明白的问题。
01
内容风控策略的核心要点是什么?
对于一款产品来说,其基本业务框架的抽象模型可以总结为“业务”、辅助业务的“增长”、保障业务的“风控”和支撑以上三点的“数据”。
“业务”自然是产品最关键的地方,“增长”“风控”和“数据”都是辅助业务良态运行。对内容平台的业务来说,协调内容生产者和内容消费者,形成良好的内容生态是关键的核心,辅以用户增长(包括用户增长和创作者增长两个方面),并且对社区进行风控。
通过业务的发展和增长、风控的积累,形成用户基础数据、注册信息、浏览行为、视觉偏好、用户标签等数据,然后通过这些数据,再反向支撑业务发展,形成产品内的数据打通。
本文所要着重分析的,就是风控这一环节。金融产品、信贷产品有风控非常好理解,但其实,所有类型的产品都需要有风控。电商产品要防薅羊毛,社交产品要防欺诈,而内容产品,则是要对平台内容的质量和合规性进行风险控制。
对于内容社区等UGC产品来说,风控线就是生死线。内容和社区产品的风控压力来源于监管侧,风控对象是用户在平台发布的内容。
02
内容风控要“控”什么?
来自内容侧的风险主要有三类。
其一是政策层面的内容合规,要符合监管的要求。监管要求的内容可参考最新实行的《网络信息内容生态治理规定》,对于各项违规内容都做了详细规定,大致概括可分为涉政、违禁、暴恐、**等四类,这部分是政策红线,一旦触及,轻则约谈,重则下架、封禁。
其二是社区氛围的良性导向,如谩骂、隐私等。这一类型的内容虽然不会触及监管红线,但倘若内容社区充斥各种负能量,对于社区氛围是非常严重的损害,伤及用户体验,导致用户流失,影响产品商业利益。这一类型内容风控还包括对于产品运营主体的保护,例如对吐槽公司工作人员的内容进行限流处理、对平台和产品的诅咒进行删除等,属于商誉和公关层面的维护,同时也是对产品官方公信力的维护。
其三是社区用户安全的保证。对于内容和社区产品而言,平台内一定会存在导流、灰产、诈骗等不法手段,如何保护平台内用户的财产安全和产品体验,是非常关键的,互联网发展至今,导流、诈骗等行为往往是成熟的灰黑产产业链所为,他们拥有丰富的反监查和防过滤经验,揪出他们并进行处理,需要平台与其斗智斗勇。
03
内容风控的方法和手段
在最早期的阶段,对内容进行风险控制,只能通过编辑人工进行审核。这种方式需要大量的人力物力,而且稿件审核需要时间长,时效性也被大大削弱。一般的公司,很难负担起庞大的内容审核团队。
之后,诞生了关键词过滤等手段,成为成本较低,并且使用最为广泛的内容风控措施。对于命中预设的违禁关键词的内容,直接阻止发出或者转交人工审核。这种方式性价比极高,耗费成本小,但基本可以过滤掉大多数的违规内容。
关键词过滤存在的问题也很明显,准确率较低,经常出现误伤和漏网的情况,对于内容和社区平台来说,这是不能容忍的,前文已经讲过,哪怕一篇违规内容被放出来,产品都有可能被封禁。再加上网络的普及,越来越多的人学会了通过拼音、乱码、谐音等方式绕开关键词,关键词过滤逐渐不再能胜任内容风控的工作任务。
以上基本还属于规则的范畴,之后内容风控的发展,就进入了AI+策略的时代。
AI方面,其实叫机器学习更加准确,这是一套组合拳。举个例子,对于一个视频稿件的审核,就需要对整个视频进行逐一拆帧,然后通过OCR文字识别检查字幕,此时对于字幕的检查和文字内容的检查基本一致,文字识别涉及到NLP分词、语义理解等AI技术;对于画面,则是图片识别,识别图片中可能出现的违禁内容,这里涉及到一个准确率的问题,暴恐视频不能够通过,但游戏视频也存在战斗画面,如何保证不误伤;对于音频,则需要两个方面的审查,一方面是视频当中的语句,将语音转文本,再通过文字的审核策略来审核,另一方面是音调识别,例如识别音频当中的娇喘等无语句的声音。
机器学习还是就稿件论稿件,而一个优秀的内容风控平台,是需要配合策略的。风控策略产品经理是近几年一个特别火的岗位,提供更精细化的、动态的、效率的产品风控解决方案。对于策略来说,内容的风控不能只在单个内容上,还需要结合更高的维度,给予更加精细化的识别判断。策略要从单个内容出发,延伸到发布该内容的用户基础信息、关系链、过往内容、实名可信度等等诸多维度进行调参和计算,以判断这名用户的这条内容是否需要更细致的识别。
这里要特别强调一点,即使平台的机器算法再先进,所有的内容还都需要过人审核。所有内容过人,所有内容过人,所有内容过人,重要的事情说三遍,至于原因,还是上面那一条,内容和社区平台不容有半点闪失。
不过机器平台越先进,能够为人工审核提供的辅助也就越全面准确,人工审核的效率自然也就变高,审核人员的压力也相应减弱。
另外,对于内容风控,又会有前置风控(先审后发)和后置风控(先发后审)等不同的方式,关于这一点,以后有机会再详细分析优劣和适用场景。
对于各大内容平台来说,随着内容量越来越大,单纯的对审核人工进行扩容,恐难以解决问题。相对来说,字节跳动旗下的抖音、今日头条、西瓜视频等,背靠百度AI的爱奇艺、好看视频、百家号,腾讯旗下的微信公众号、视频号、腾讯视频等,成立时间久,技术储备强,内容风控团队完善,就大规模进入机器审核系统,在利用机器算法进行内容审查方面,有更多的经验和技术储备。
而新兴的内容平台,比如B站、小红书崛起晚、资源少、技术储备弱,在机器辅助审核上还比较弱势,今后加强内容风控技术,优化内容审核策略,改善审核后台的体验,不失为一个好方法,毕竟工欲善其事,必先利其器。
无论如何,内容风控的核心意义,是保障业务平稳安全运行,并且在反对“真正的恶”上发挥自己的力量。对于暴力、**等违法犯罪内容,必须严惩不贷,但对于呼声正常表达的内容,则应当用更多元的视角去评析论证,而不能直接采用机器算法一刀切。
技术是中立的,但技术背后的人必须有立场