赤子城、FunPlus等出海头部企业取得成绩的背后,如何解决「多语言内容风险」?
回顾过去的几年,国内企业出海披荆斩棘,取得瞩目的成绩。展望2022,依旧虎虎生威。
在线上社交逐渐成为主流的今天,我们清楚地看到,全球互联网不仅增加了陌生个体之间的交流频率,也拉近了不同语言用户之间的距离,跨语言交流变得频繁。即使是同一种语言,我们也需要“懂”用户用这种语言表达了什么。而且,随着音视频社交普及,用户表达的内容不只限于文字。
如果忽略上述现实,我们的品牌和产品可能会暴露于敏感内容风险当中,一些令人不适的内容会降低用户的交流体验,无法为用户提供干净、高质量的线上社交体验。从而影响用户留存。
除了用户体验和留存,各国家和地区的网络监管政策也在关注网络应用出现的敏感内容。
通过谷歌在审核系统的投入,我们可以看见内容审核的重要性,谷歌旗下视频网站拥有机器审核系统以及1万人以上的人工审核团队,仅审核团队薪水一项,每年要支出至少4亿美元。
内容风险知多少
带社交属性的应用,大抵会遇到如下内容风险:
涉毒、涉赌、涉黄、涉暴、儿童安全
人性的灰暗是客观存在的事实。而对于未成年人,其个人隐私与权益保护能力薄弱,安全问题自不必说。
根据谷歌透明度报告,2021年Q3,旗下视频网站623万个视频被移除,与这些类别直接相关的达到80%以上;11亿条评论被移除,涉及儿童安全的达到1.7亿以上。
涉政、极端主义、歧视
线上社交应用出现的涉政、极端主义或者歧视内容,是各国网络监管部门重点关注的对象。
今年1月,月活达到5亿的某知名国外社交应用,因为极端分子可以不受阻碍地传播仇恨言论与策划攻击,被德国内政部长点名警告,不排除在德国禁用该应用的可能性。
即使政府机构不直接点名,应用商店也会因为监管政策的影响,下架有内容风险的应用。
2021年初,美国某新锐社交应用,涉嫌被用来策划和组织2021年美国国会山事件,在苹果要求其更新内容审核政策未果后,应用被App Store下架3个月之久,前任CEO因此被董事会解雇。新任CEO上任的第一件事就是将人工智能审核技术提上日程。
拉人广告
应用内拉人广告是行业普遍痛点。即使我们对应用的口碑与人气有信心,但仍然需重视应用内的拉人广告。花费高成本获得的优质新用户尚未具备粘性,竞品却能花费极低代价引流。在出海场景,拉人广告经常使用WhatsApp作为联系方式,包括各种“WhatsApp”的变体文本。类比国内的微信,其变体如“vx”、火星文“咖莪嶶信”等等。
出海场景,结合“陌生”的语言和当地文化,敏感内容风险变得更加复杂,出海应用的全球化推广和本地化运营都面临不小的挑战。
内容风险如何解决
人工审核曾是唯一的解决方案,通过建立敏感词库作为初级机器审核系统也曾流行。但如今,包括图片与音视频在内海量的内容以及层出不穷的文本变体,使得机器审核成为高效解决方案的核心。而且机器审核能够降低这些劣质与敏感内容对人工审核的身心侵害。
自研机器审核系统未尝不可,但自研意味着从0到1的“踩坑”。内容审核服务商应运而生。相比自研,于成本与效果而言,审核服务商更值得优先考虑。这样企业可更专注于产品推广或核心功能的打磨。
如何选择服务商?在出海场景,陌生又复杂的语言和当地文化,又给内容审核提出新的挑战。大部分审核服务商的经验与解决方案来自于国内互联网,并不能很好地满足包括音频在内的多语言内容审核痛点需求。
何处觅知音?
国内第一家支持24种语言的内容审核服务商——云上曲率,走进出海开发者的视野。
揭开神秘面纱,我们可以看到云上曲率给出海互联网企业带来的“惊喜”:
自主研发的实时数据传输服务,支持每日千亿级、每秒千万级的数据吞吐量,全球范围内数据传输时延平均低于100毫秒;
比肩微软Azure的多语言实时语音互动Demo近期发布,支持中、英、日语三种语音内容互译;
实时翻译,根据BLEU、NIST测评,在泛娱乐场景性能超越谷歌;
多语言内容审核能力领先,支持包括中文,英语,日语,韩语,泰语,印尼,越南,马来语,阿拉伯语,西班牙语,德语,法语等24种语言,实时检测涉黄,涉暴,谩骂,种族歧视,仇恨言论,儿童安全等违规内容。
事实上,云上曲率已和多家行业Top级客户展开深度合作,包括赤子城、Holla、LiveU、TT语音、绿洲游戏、FunPlus、紫龙游戏、中手游、盖娅互娱等等。
通过自研算法模型,云上曲率多语言智能内容审核已覆盖文本、图片、音频、视频四种内容形式,满足全场景需求。还具备专业的语言工程师团队,帮助机器审核更有效地屏蔽隐晦敏感内容。
文本审核
文本变体与隐晦表达企图绕过传统的机器审核,但在智能文本审核和语言工程师的角度,它们是重点跟踪的对象。
智能文本审核支持的变体类型与示例如下:
- 字母、单词替换(用0代替o,a$$代替ass)
- 重复字母(F**kking)
- 符号插入(F$$uc$$k)
- 字母缩写与省略(milf,wtf,whatapp)
- 字母变体(fǚçⓀ)
- 隐晦表达(concha de la lora ,西班牙语,直译鹦鹉贝壳,真正含义为motherf**ker)
- 中文形近字、同音字
此外文本审核重点关注国内外主流社交账号、链接与URL检测、隐私信息的检测。
某个主流社交账号高频率异常出现,值得平台运营特别关注。这对于防止拉人广告、非法交易、网络诈骗等问题有直接帮助。
隐私信息检测减少了未成年人泄露家庭住址、重要账号密码等个人信息的可能。
图片审核
基于深度学习的图片检测技术,融合多个前沿的算法模型。对违规图片内容进行多模型判断,识别更精准,避免漏检与误伤。
图片审核除了在常规图片、未成年人、二维码、OCR识别等场景表现卓越,画中画、马赛克、头像小图、角度偏移、敏感部位边缘露出、多肤色、广告法等复杂场景同样具备精准识别能力。
音频审核
语音消息、语音房、线上KTV、娱乐直播、深夜电台、听书、语音个性签名……声音在互联网世界随时可见。
音频审核,分为发声类型检测与说话内容审核。声音类型检测,通过融合端到端与帧级别声纹识别模型进行综合判断,主要关注敏感声纹以及未成年人发声检测;说话内容审核,支持24种语言,覆盖95%以上出海客户的需求。
视频审核
视频审核融合了自动抽帧技术、图片与音频审核能力,覆盖视频通话、短视频社交、直播、点播视频等常见场景。
未成年保护专题解决方案
针对各国家和地区监管政策比较关注的未成年人问题,云上曲率还提出多语言未成年人保护方案。
在内容侧,通过多语言内容审核阻断未成年人接触劣质与敏感内容;在用户侧,解决方案结合人脸识别、音色识别、多语言内容检测来识别未成年人。
双管齐下,保护未成年人隐私,帮助平台建立未成年人专属的智能内容推荐方案,也极大程度避免了包含未成年形象的低俗内容给平台用户带来的负面体验。
丰富的二级内容标签
多语言内容审核体系在经典敏感内容类别基础上划分至50余种二级标签。运营者可根据内容是否适合在自己的应用内展示,来决定这些二级标签的开启或关闭。二级标签体系还支持新增定制,运营者可根据当地的风俗与禁忌制定个性化审核策略。
结语
正是多语言内容审核的出现,让志在出海的互联网企业披坚执锐,使自身的稳健增长免受敏感内容风险侵袭。通过高质量的内容环境构建一个负责任的品牌形象,这对于平台的长期商业利益大有裨益。
未来,云上曲率将继续扩展多语言能力边界,深耕出海泛娱乐领域,继续助力出海互联网企业成功,为全球线上交流技术的发展做出应有的贡献。
点击“阅读原文”前往云上曲率官网了解更多