主页 > L生活台 >Tumblr 夺老司机「珍爱」,AI 除黄计画难度高 >

小编推荐

Tumblr 夺老司机「珍爱」,AI 除黄计画难度高


2020-06-09


Tumblr 夺老司机「珍爱」,AI 除黄计画难度高

12 月 5 日是各位老司机、福利姬的末日,因美国名社交分享网站 Tumblr 当天突然推出新的政策──Tumblr 将全面禁止任何成人内容,新规定于 17 日正式施行。

这不是天经地义的事吗,有何大惊小怪?

和多数人心中的「和谐社群」定义不同,新规定发表之前,Tumblr 这个以年轻人为中心的社群网路平台以收容大量色情内容(主要为文章、静态图和 gif 图)闻名全球。

Tumblr 夺老司机「珍爱」,AI 除黄计画难度高

 Tumblr 截图。

Tumblr 创始人 David Carp 曾表示,色情相关内容占网站流量 2~4 个百分点。2012 年,一份当月刊发的义大利研究报告显示,这数字迅速增长,甚至有近半网友遇过避无可避的成人内容,对此评论 Tumblr 没有回应。

时至今日,雅虎旗下这家社交网站,儘管只有超出 0.1% 帐号出产色情内容,但却有 22% 甚至更多用户关注、点讚、转寄上述帐号的发文。有研究指出,正是这种「分享」行为,导致另外 28.5% 的 Tumblr 用户无意中接触到色情内容。

Tumblr 夺老司机「珍爱」,AI 除黄计画难度高

俗话说得好,常在河边走,哪有不湿鞋?

就在两週前,苹果将 Tumblr App 从 App Store 移除,原因是侦测和移除儿童色情的自动化系统故障。从类别来看,儘管 Tumblr 也能看到类似天文地理历史科学的各种「小清新」内容,但相比前者来说只是冰山一角罢了。

至此,Tumblr 启动 AI 除黄计画,并郑重表示要将成人内容「赶尽杀绝」。

AI 除黄靠谱吗?

Tumblr CEO Jeff D’Onofrio 声明表示,Tumblr 的 AI 除黄计画并不是禁止裸体政治抗议或大卫雕像。这要求 AI 具备极强的成人内容辨识能力,同时也依靠人类帮助训练和控制系统。

简单来说,Tumblr 希望打造可辨识裸体但又不会将裸体雕像误认为成人内容的人工智慧系统。儘管这对人来说是一件再简单不过的事,但对 AI 来说可是难度达到「鸡蛋里挑骨头」等级。

Tumblr 夺老司机「珍爱」,AI 除黄计画难度高

 换做你是 AI,看到这种场景有没有想骂人的冲动?

说到这里,想必会有人问:「Why?」

实际上,AI 辨识影像的过程分为资讯抓取、前处理、特徵抽取;选择、分类器设计;分类决策三大块。第一部分,AI 将图片特徵点取出来,并透过符合资料库获得属性,并最终生成判定。

也就是说,除了成人内容相关的敏感辞彙、特徵点抓取,想让 AI 区分真人与雕塑就需要在此基础上再符合特徵点的材质等特性。难点在于,初期 AI 只能按照指定几个「标籤」分析图片类别,对图片物体是肉体还是大理石、是塑胶还是泡沫……这种问题无法精确分析。

简单的智慧系统更无法像人立刻在随机图片找到哪些标籤应该衡量,哪些不值得衡量。将这问题对应 Tumblr 的除黄计画,解决问题的唯一办法就是尽可能全面地抓取图片、文字的特徵,这对系统而言必将承受巨大负荷。

Tumblr 夺老司机「珍爱」,AI 除黄计画难度高

 特徵点辨识。

如何避免这样的恶性循环?Tumblr CEO Jeff D’Onofrio 表示,公司不断增加投资推动此政策,包括符合产业标準的机器监控、不断壮大的人类仲裁团队及便于举报滥用行为的用户工具。透过让更多用户及相关人员参与,Tumblr 希望人工智慧的学习能力能逐步培养成 AI 除黄系统,获得精準的筛选能力。

除了人工合作,针对以上问题雷锋网曾在《世界最大黄网要用 AI 「鉴黄」,还号称要让鉴黄师下岗》文章向图普科技营运总监姜泽荣提出疑问,他的回答是:「如果是一支 1.5 小时的影片,一秒一张截图,上述数量影片的基础上足以训练出效果尚可的模型。」

由此来看,儘管 Tumblr 辨识物件是图片和文字,但对此量级的社交网站(也不只这家在做类似的事)来说,训练出「可用」的 AI 除黄系统自然不在话下。

对 Tumblr 来说任重而道远

既然不在话下,为啥还任重道远?

从目前效果来看,儘管声明 Tumblr 明确提出会着重训练 AI 在性取向言论和色情内容方面的筛选能力,以便避免前者被认为是不当内容萤幕蔽掉。但有回馈称被错误禁止的内容甚至包括加菲猫的图片、蝙蝠侠吃法兰克福的图片和英国名厨戈登‧拉姆齐拿着一块米糕并称之为「隆胸」的图片。

Tumblr 夺老司机「珍爱」,AI 除黄计画难度高

 AI:嗯,这只喵长得灰常儿童不宜,屏蔽!

纽约自由摄影师罗拉‧汤普森表示,不得不手动申诉团队解锁这些图片,虽然他贴的标籤确实是「色情」(如「食品色情」),但显然和色情无关。

从成本方面看,Tumblr 的社交网站属性让内容量源源不断,这就需要 AI 除黄系统具备强大的 GPU 运算能力,高速端对端影像处理速度及较高频宽标準。雷锋网文章曾提到:「算力方面,原本千万等级的样本在 GPU 为单机单卡情况下训练时间要接近一个月,仅 1 万张图片常只有一张色情图,为了辨识这张图片,AI 扫描的成本即为 1 万次。」由此可见,AI 除黄确是费钱费力的大工程。

从风险係数看,AI 除黄计画执行同时也伴随各种其他风险。首先,针对用户属性的 AI 除黄师必须要尽量全面抓取用户在平台的各类资料,谁都无法担保这些资料最终会流向何处(儘管每家都说「我们绝对安全」)。

3 月 16 日,Facebook 被曝在 2014 年有超过 5 千万用户资料遭「剑桥分析」公司非法传送政治广告,此次事件曝光后,Facebook 一天内市值蒸发 60 亿美元。儘管直到目前 Facebook 仍因此事深陷动荡中,但 CEO 马克祖克柏却在多次听证会否定公司有意侵犯用户隐私并参与相关交易。

Tumblr 夺老司机「珍爱」,AI 除黄计画难度高

真相浮出水面之前我们不知道真相究竟是什幺,但这足以证明──当你尝试开始收集并利用用户资料达成某些目的时,一旦出事,即使你浑身都是嘴巴也难洗白。

短期效果、长期成本及风险係数,对 Tumblr 来说,AI 除黄系统不同于某成人影片网站,除了有效筛选成人向内容,还要从中将正常性谈论筛选出来建议给大家,如果为做这件事的难度打分数,我给五颗星!

可见,Tumblr 的 AI 除黄计画的确任重而道远,现在我们看到的仅是一条规定,一切将在 12 月 17 日分晓。



上一篇:
下一篇:
申博太阳城_申博sunbet亚洲|提供交流宣传|网站地图 申博官网备用网址_亚游真人第一游戏 申博官网备用网址_大满贯3注册送27