故宫抓盗版、新零售抓小偷:人工智能“保安”在高对抗中进化
颜色采集自六款国宝文物的口红、纹样仿照畅音阁天花板的睡衣……近来故宫文创屡成焦点,众多从紫禁城中走出的时尚元素令网友感叹老祖宗“真会玩”。然而,网络既给了文化创意产业一夜走红的平台,也给了盗版商家轻松抄袭的机会。
阿里安全图灵实验室高级算法专家何源告诉澎湃新闻,数字经济时代的知识产权保护主要面临三大挑战。一是相比起传统的实物作品,数字化作品复制、抄袭、融合都更为容易,反之判别难度和成本却大大增加;二是信息爆炸带来了海量的分析样本;第三是信息快速传播,侵权的时间周期越来越短。
谁可以大海捞针,从茫茫样本中准确而快速地判断作品的原创性?人工智能或许能够大显身手。
何源回忆道,“故宫睡衣”去年年底借电视节目《上新了·故宫》造势,由网友投票海选出中央美院学生的设计,再登陆淘宝众筹平台。“初心本来是以故带新,用商业化的模式传播文化。但商品一旦众筹上线,每一个人都能看到,就会有各种商家抢先一步,你还在众筹,他已经把商品设计出来卖了。”
传统的专利保护法规难以对这种新现象作出快速反应。为了在黄金销售生命周期内保护原创商品,接到故宫的投诉后,阿里原创保护平台迅速帮助他们完成了原创认定和电子备案,再全网排查,对抄袭商品进行下架甚至线下打击。有时一些算法难以鉴别的情况,则邀请大众评审进行人工判定。
随着深度学习技术的发展,AI开始“读懂”图像、视频、语音、文本,有能力在数字经济时代为知识产权护航。“目前十亿、百亿级的索引库都可以胜任。从时效性来说,配合GPU和大规模分布式计算,十亿级的图像检索系统可以在几秒内反馈结果。”何源说道。
具体来说,AI技术主要可以应用下如下一些场景:LOGO识别,精准找出品牌或者台标,从而检测内容源头;盗图检索,商家申请商品图片的原创认定后,其他商家盗图时会自动拦截并处罚;视频指纹,给每一段视频打上独一无二的标识,其他人擅自对视频进行修改、剪切、模糊、加片头片尾后,依然能追溯到原始来源。
AI鉴黄、AI抓小偷
在内容安全方面,除了找到侵权信息,人工智能的另一大重要用途是鉴别色情低俗,并正在逐渐取代鉴黄师这个看似“高福利”、其实压力很大的职业。
目前阿里AI鉴黄师每日可鉴别数亿张图片,识别准确率高于99.5%。在实际应用中,如人工一天鉴别1万张图片的话,4亿图片就需要4万人。而AI鉴黄只需将其中20万张可疑的图片筛出来,由人工再审一道,这需要20人即可。
AI还可鉴别语音、视频内容,掌握中文、日文、英文等多国语言,支持东北、四川、广东等地方言。无语义的呻吟声也能识别出来。
无人商店 视觉中国 资料图
在线上进行内容把关之余,AI甚至还能进军线下,抓捕现实生活中的窃贼。阿里安全图灵实验室高级算法专家王炎介绍道,在全世界范围内,卖场的盗损率大概在0.5%至1.5%之间,每年造成452亿美元损失,占商场总损耗30%至50%。新零售为用户提供了更自由、更放松的购物环境,但也更可能出现偷盗、商品损坏等多种风险,对安全技术提出更高的要求。
AI视觉技术在新零售的多家门店进行落地后,其预警小偷的准确率接近100%,抓捕率达到90%,“我们归类了18项高风险人物特征,运用深度学习技术实现视频信息结构化,结合算法和规则计算风险概率,根据中期长期记忆增强识别能力,对风险行为进行识别。”
“道高一尺、魔高一丈”
不过,盗版商、色情信息发布者和小偷们总会源源不断地想出新的花招,来对抗AI“保安”们。而AI技术,在现阶段也有自身的局限性。
“以色情低俗内容为例,很多人认为通过“信息+开源模型”就能简单粗暴去做过滤,但实际上从我们实践的经验来看,AI算法与业务需求之前存在鸿沟。”阿里安全图灵实验室高级算法专家张荣认为原因包涵:正常样本与违规样本的比例极度不均衡,图像、音频等面临高度的对抗性,以及不断增加的新风险深度学习可参考的样本几乎没有。
AI识别出的“色情图片” 阿里安全图灵实验室 供图
一个简单的例子是,一些发布者发布的低俗图片只截取部分身体,没有暴露关键部位,人类很容易就能联想出画面以外的内容,AI却不擅长“脑补”。“而且一旦训练AI脑补之后,它又会过度联想。”张荣说道。
此外,把常规照片用美图软件转化成素描画和蜡笔画、在图片里写字、用手机翻拍画面都是常见的考验算法的花招。甚至,一部分低俗信息发布者本身就掌握了AI技术,以算法欺骗AI。
被AI“误伤”的猪八戒 微博 截图 对相似的设计元素,何源和他的同事们会继续在“致敬”与“抄袭”这两道难题之间走钢丝,并且是争分夺秒地竞走。
AI视觉保安的研发团队对各个卖场经过了充分调研,与安保人员乃至公安人员聊过很多细节的偷窃手段,才归纳出可以识别的风险特征。不过,王炎认为目前AI还是在模仿人类保安,为了超越人工,必须解决监控镜头遮挡、偷窃证据链呈现不完整的问题,实现从单点到全局的透视。
总结来看,无论是保护知识产权、鉴别不良信息还是抓捕小偷,AI在安全领域普遍面临着“道高一尺、魔高一丈”的对手,以及“见招拆招”的攻防变化。另一方面,相关领域可以用作训练样本的打标签数据相对有限。
鉴于这些挑战,阿里安全研究员陆全认为,“安全AI”的概念应该超出“守护AI安全”和“AI助力安全”这两个传统涵义。
“AI会在不同领域各自发展,由于安全领域高对抗性、高变化、小样本等特质,可以进化出一种新的AI,就是安全AI。”他说道,安全AI应具备在低质量、小样本等极限数据条件下学习的能力,在不同业态和场景下具备更好的泛化和迁移能力,安全AI的模型应当是可信赖、可解释的。
新闻推荐
在政协四川省十二届二次会议上,四川省政协委员、成都市第三人民医院院长徐俊波提交提案,建议将健康体检纳入医保报销范围。...
四川新闻,新鲜有料。可以走尽是天涯,难以品尽是故乡。距离四川再远也不是问题。世界很大,期待在此相遇。