AI 这么优秀，连我鉴黄师的饭碗都抢了

2018/09/18 by summer 已阅读 9550 次

色情行业，或许是对信息渠道敏锐、利用各类信息渠道进行传播“充分”的“行业”。这些年，社交 App、直播、短视频等新的互联网应用方式，都难逃色情内容的“骚扰”。哪里人多，色情内容就能立刻扑过去，在海量内容的浪潮中输出色情图片、视频等不法内容，严重影响网站、App 的运营安全。高效并准确地鉴别、剔除色情信息成为一项艰巨的任务。

早期对于此类信息，都是通过“鉴黄师”对图片等信息“人工”一张张“智能“识别方式进行审核筛选。人员投入大，效率低下，长期接触此类信息会对审核人员的身心健康造成不良影响。

随着近年来 AI 技术迅猛发展， AI 结合大数据，通过机器学习的分类器算法，取代“人工”，“智能”地对图片、视频等信息审核方式，把“鉴黄师”从职业变成一种“算法”和“模型”。解放人力，并且大大提升处理效率，帮助企业减少投入成本。

人工智能鉴黄——数据、模型、计算

从计算机的角度看，本质上是一个分类问题：给定一张图片，让计算机判断是不是“色情图片”。

preview

△ 图片区分标准

色情：裸露敏感部位，包含露骨镜头，描述性行为和色情场景的图片。

性感：衣着暴露但没有裸露敏感部位。

正常：非色情，非性感图片。

我们要做的就是研发一个“分类器”，它能根据输入的图片计算出该图片属于那种类别的概率，然后再根据这个概率值输出一个“是”或者“否”的结果。众所周知，计算机擅长的是数学运算，所以我们要把这个“分类器”先抽象成某种数学模型，这样才有可能用它来计算，然后通过大数据。利用成千上万的图片样本去“训练”它，根据性别、肤色、姿态、场景、人体比例、身体裸露程度等信息，提取图片中的特征并不断记忆。

利用大数据样本，在学习的过程中不断提高识别精度。得益于近年来计算机性能的提升、大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现，耗时数月的训练过程可缩短为数天甚至数小时，机器学习可以被广泛运用，大大提升鉴黄效率。

人工神经网络，让鉴黄师自愧不如

机器学习算法有多种，常见的有朴素贝叶斯分类、SVM 算法、K - 近邻算法和人工神经网络算法，其中又拍云内容识别用的就是人工神经网络算法。下面先来简单介绍下这个算法：

人工神经网络，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。

preview

△ 人工神经网络

preview

△ 反向传播

反向传播通过梯度下降的算法，运用梯度下降的算法可以找出一组 W 和 B，使得函数 C 最小，在样本上找到最优或者近似最优的 W 和 B ，之后使用 W 和 B 进行预测。

人工神经网络的特性，使之在语音、图片、视频、游戏等各类应用场景展现出了优异的性能，但需要大量的数据进行训练来提高准确性的问题。由于目前所处的互联网时代，数据积累相对比较容易，非常适合机器深度学习。

又拍云内容识别：机器学习与人工审核相结合

preview

内容识别是又拍云基于人工智能、大数据而研发的新型安全解决方案，能实时对多媒体内容（直播、视频、图片等）内容进行鉴别。色情识别的完整过程是将它拿到鉴黄中心鉴别，再把结果发送至图片审核平台进行最终确认。这部分将会随着训练次数的增加而不断减少，帮助企业大幅度节省安全成本，和提高安全处理效率。

preview

△ 内容识别管理后台

又拍云内容识别 VS 鉴黄师

我们以 1 个月 100 万张图片为例，横向比较一下又拍云内容识别 VS 鉴黄师的效率和成本。

效率：又拍云内容识别目前的识别速度可达每秒 1 万张，所以审核 100 万张图片，开足马力的话只需要 100 秒，不到 2 分钟。公开报道显示，一个满负荷的鉴黄师每天看图5万张，那么组建一个 10 人规模的鉴黄师团队，审核完 100 万张图片需要 2 天。

费用：同样鉴别 100 万张图片，我们来看下又拍云内容识别“支持版”套餐，5000 元，可以在一年内识别 400 万张图片，折合到 100 万张也仅是 1250元的成本。如果是 10 人的鉴黄师团队……这个人力成本各地有异，我就不算了，但肯定远远高于 1250 元。

其他：又拍云内容识别，开通迅速，配置简单，稳定高效；鉴黄师属于高负荷工作，人员流失率高，一个鉴黄师里还包含了不菲的招聘成本和培训成本。

综合来看，又拍云内容识别服务依托于人工智能，在效率、费用、稳定性上，都领先于鉴黄师团队，实在是社交、直播、短视频等服务安全运营的必备利器。

相关主题

推荐阅读