

点击
蓝字关注更多To B大事

本文经AI新媒体量子位(ID:QbitAI)授权转载
这一次谷歌AI凌乱了。
下面这张图,画的是鸭子还是兔子?

自从1892年首次出现在一本德国杂志上之后,这张图就一直持续引发争议。有些人只能看到一只兔子,有些人只能看到一只鸭子,有些人两个都能看出来。
心理学家用这张图证明了一件事,视觉感知不仅仅是人们看到了什么,也是一种心理活动。但是,这张图到底应该是什么?
上周四,有位学者决定让没有心理活动的第三方看一下。然后就把这张图片给了谷歌AI,结果AI认为78%的概率是一只鸟,68%的概率是一只鸭子。

百年争论可以歇了?鸭子派胜出?不不不,新的争论刚刚开始。
上面那个结论刚出,就有人跳出来“抬杠”。
只要把这张图竖起来给AI看,它认为是一只兔子,压根就没有鸭子的事儿。

咦?谷歌AI反水了?
为了搞清楚这件事,供职于BuzzFeed的数据科学家Max Woolf设计了一个更复杂的实验,他干脆让这张图旋转起来,倒是要看看,谷歌AI什么表现。
就是这么一转,成了推特上的热门。
咱们以鸭子嘴(兔子耳朵)为参考,说下这个实验的结果。过程如下所示。红色代表兔子,蓝色代表鸭子。

图片顺时针旋转。谷歌AI最初认为是鸭子,鸭子嘴指向9点方向。随着鸭子嘴向上转到10点方向,很快谷歌AI就认为画里面是兔子了,直到鸭子嘴转到2点方向之后。此后一段时间,谷歌AI认为既不是鸭子也不是兔子。一直到7点方向,谷歌AI再次肯定是一只鸭子。
有人说此刻谷歌AI的内心,可能就像迪士尼动画兔八哥里的这个场景。

还有人给了更多类似的挑战图片,想考验一下谷歌AI的水平。比如这种:

以及这种:

等等等等……据说能看出来鸭子,又能看出来兔子,说明一个人的想象力更好。
大家如果有兴趣,可以自己去尝试。
这里用到的谷歌AI,实际上是谷歌的Cloud Vision。这个服务提供了预训练的机器学习模型,可以用来理解图片内容。地址在此:
https://cloud.google.com/vision/
页面上提供了Try the API,直接传图就行。

“鸭兔同图”问题让不少网友犯了难,这是一个比“鸡兔同笼”更玄幻更有意思的问题。还有一大波人类,正常尝试判断AI的心理状态……
网友sangnoir认为,纠结图中到底是什么完全没有意义,图像本身中既包含了兔子又包含了鸭子,人类尚且觉得两者都在,何必非得让AI去做“二选一”的定性呢?
下面这个数字大家都认识,但是旋转起来,到底是几呢?

谈到旋转,更进一步,之前有个“旋转舞者”的问题更困难,下面这个小人到底是顺时针还是逆时针旋转,人类的看法也兵分两路↓↓↓

实际上,当你视线以从左往右的方向扫过这张图时,你看到的是逆时针转圈,反之,当你先看到的是右边时,你眼中的她是顺时针的。在计算机视觉上,还有一个专门的名词解释这个现象,即多稳态/双稳态感知。
也有网友表示,这件事恰恰反映了AI识别物体的能力已经高于人类了。
他认为,之所以Google Cloud Vision会连续给出不同答案,是因为AI系统每隔一段时间就会基于旋转的图像重新判断并实时更新。
而人类的大脑往往就卡在第一印象了,所以才会咬定一个物种不放松。
也有人表示,这件事也启发了视觉从业者反思AI识别物体时的方向问题。
比如网友Sharlin就认为,人类在判断物体时对于空间的认识具有先验性,用这样的标注数据训练出的模型,在不知不觉中也将空间和方向等因素考虑在内了。
但是,现在大多数视觉算法都想努力实现某种程度的旋转不变性,还提出了“尺度不变特征转化(SIFT)”等概念。“不变性”可能也反映了人类的局限性,输入方向也是一个重要考虑因素。
— END —
本文系授权转载,不代表企服行业头条立场。转载/投稿/内容合作/寻求报道请联系微信:qifutoutiaozhushou3W
热文精选




推荐阅读
点击文字即可阅读
▼
