2018年7月19日 星期四

谷歌“猜畫小歌”背後的5000萬組數據,都去了哪兒?





自從退出中國搜索引擎市場後,谷歌大概無時不刻都想“捲土重來”。 昨天,這家以搜索引擎著稱的巨頭,用一款微信小程序“猜畫小歌”佔領了朋友圈“C位”,刷足存在感的同時,還順便激發了身邊一票“靈魂畫手 ”。


比如這樣的蒙娜麗莎:



或者這樣的美人魚:



“猜畫小歌”這款小程序基於Google AI來開發,也是谷歌第一款微信小程序。 據谷歌官方博文介紹,用戶可以和谷歌的AI組隊,在有限的時間內進行速寫。 在每一輪體驗中,用戶需要在規定時間內勾勒出一幅日常用品的圖畫,AI“小歌”則需要在時間結束前猜出圖畫中的物體。



當 AI 猜出你圖畫中的物體時,你就會進入下一輪,你的猜畫連勝次數也會相應增加。 你還可以分享有趣的素描圖,並在體驗過程中不斷收集新的題目和圖畫。


據谷歌介紹,“猜畫小歌”背後的技術主要是計算機視覺和神經網絡,由來自Google AI的神經網絡驅動。


當然,在畫得停不下來的同時,不少人也充滿遺憾,谷歌的這個微信小程序,只是為了在中國刷刷久違的存在感嗎?


事情當然沒有這麼簡單。


其實,這個小程序並非在中國首發。 早在去年11月,谷歌就上線了一款叫“Quick,Draw!”的線上游戲,也就是“猜畫小歌”的網頁原版。 這款遊戲中,玩家也需要在一定時間畫出要求的圖案,比如駱駝或洗衣機之類的。


這款網頁版遊戲目前仍然開放體驗,如果在中國大陸的你懂得科學上網,可以去感受一下用鼠標畫圖的難度,絕對比手指畫要艱難許多。


當然,谷歌后來表示,發布這個遊戲的目的遠不止讓用戶開心,初衷是利用這些草圖,讓計算機學習如何像人類那樣繪畫。


大方的谷歌並沒有私吞這些網友的智慧結晶。 截止今年五月,這款遊戲的網頁版已經從全球各地收集了5000萬份不同的繪畫,並且在谷歌上開源了數據庫。 這些簡筆劃不僅整理清晰,還被貼心地做好了標註。 感興趣的同學可以去github或者谷歌自取數據集哦。



這一數據集包含了來自全球100多個國家和地區人們的繪畫數據,據谷歌的說法,這些數據也被用來優化了本次微信小遊戲“猜畫小歌”的開發。 但是基於谷歌網站在中國的境況,中國大陸的畫作數據遺憾缺失。


但本次微信小程序上線後,中國大陸的數據終於可以補充進來啦,感興趣的同學也可以坐等數據集的更新了。


那麼,這些數據能用來做什麼呢? 文摘菌深夜諮詢了一些科技咖們,得到了很多有趣的猜測:


比如,剛剛從日本回來的Andy同學就認為,可以用來收集abstract reasoning的數據,讓機器了解什麼是貓;又比如,來自斯坦福的Q同學覺得,這是可以被作為輪廓識別的寶貴數據。


除了這些在人工智能領域中的運用外,以數據新聞著稱的海外科技媒體Quartz和兩位記者,從更人文的角度,給出了一些不太一樣的研究思路:他們希望通過比較世界各地人們繪製 基本圖形的方式,了解文化對繪畫的影響。


這要得益於谷歌完備的數據庫,這一數據庫不僅包含了來自148個國家和地區的人所畫的11.9萬個不同的圓,也記錄了每個玩家的手指經過路線的坐標。


通過對其中從66個不同國家收集的100多個圓進行一些簡單的幾何分析,他們發現,不同國家的人習慣於不同的畫圓方向:美國人喜歡逆時針畫圓,在近5萬個美國 人所畫的圓中有86%是逆時針畫的。 日本人則恰恰相反,更慣於順時針畫圓,800個日本人所畫的圓中,有80%是順時針畫的。


下圖是100個來自不同國家和地區的人所畫的圓的隨機抽樣。



英國人、捷克人、澳大利亞人、芬蘭人跟美國人有大致相同的比例,都是逆時針畫圓。


法國人、德國人、菲律賓人甚至有更高的比例,大致90%是逆時針畫圓。 在越南,95%的人逆時針畫圓。



Quartz分析的數據庫顯示,大部分國家和地區的人更傾向於逆時針畫圓,唯獨兩個例外:台灣和日本。


這一研究成果一年前已經發佈在 Quartz 上。 如何解釋這種差異呢? 他們也做出了自己的猜測。


一個顯而易見的原因是不同國家的不同語言。 人們書寫文字的不同方式,從上到下,從左到右,從右到左,是否能夠解答他們繪畫方式的不同呢? 美國、西歐和拉丁美洲人的口語雖有差別,但書寫方式大致相同。 然而亞洲和中東卻有著與上述國家截然不同的書面文字。


下面幾幅圖展示了一些代表性文字的書寫方式:



比如,先來看看日語中的文字。 這裡展示了日語中三種文字符號:平假名、片假名和萬葉假名。 萬葉假名基於漢字的表意文字,而平假名和片假名是表音文字。 其中,平假名最接近於英文字母,也有最多的圓形筆劃,其中大部分圓形筆劃都是順時針方向。


文字あ像英文字母a,是這樣書寫的:



日語和中文的文字都遵循嚴格的筆劃順序。 整體來看,一個字是從左上到右下的方向書寫的。 美國羅格斯大學數學教授書法家黃一知這樣解釋道:



“如果你畫一條水平線再畫一條垂直線,就像數字7一樣,那麼日文和漢字的書寫規則就是把這兩條線當做一個筆劃,中間也沒有停頓。”



因此我們的手在落筆的時候會採用順時針方向,就像漢字“了”,代表著一個動作的完成。



基於中文的文字書寫規則,在小孩子剛剛拿起鉛筆的時候就深深印在他們腦子裡了,這也奠定了台灣人和日本人畫圓基於相同的書寫方式。


當然,限於當時谷歌在中國大陸的狀況,這一研究沒有參考中國大陸的數據,但Quartz研究了過往的研究,發現調查結果也印證了這些觀點。


在1985年對中國人畫圓方式的調查中發現,151位參與者中有72%的人順時針畫圓。 研究者指出,這也許是因為在行書中筆劃多為順時針。


有興趣的同學也可以坐等谷歌更新帶有大陸數據的數據集,然後繼續這個研究。


三角形繪畫方式的相似度,在基於中文的語言中更加顯著。 97%台灣人、90%日本人和韓國人都是逆時針畫三角形。 對比來看,美國人一筆劃出的三角形,只有一半多一點的比例是逆時針的。



基於漢字的筆劃順序規定對角線的格式,就像一個三角形,是先從右向左再從左向右的。 從“人”這個字,就不難發現這種規律。


另外一組國家的例子也可以讓人們更好地理解畫圓方式的不同。 阿聯酋、科威特、阿爾及利亞、約旦、沙特阿拉伯、以色列、伊拉克和埃及,這些國家的人在下面畫圓方式的分佈圖中聚集在一起,幾乎互相挨著。



阿拉伯文和希伯來文包含很多曲線,讀和寫都是從右向左的順序。 在阿拉伯語中,文字的曲線跟隨著手的方向,通常是順時針,這也更好地控製字與字的間隔。


下面是字母“b”和“n”在阿拉伯語中的書寫方式:



如果對剩餘國家畫圓方式觀察更仔細一些,就可以發現其他一些規律。 舉個例子,韓語的書寫系統中有大量的圓形。 1500個韓國人所畫的圓有72%是逆時針畫的。


你也許以為韓國會跟台灣和日本的結果相似,但韓語的書寫規則其實是與中文和日語恰恰相反的:圓形都是逆時針書寫的。 這就直接導致韓國畫圓方式的結果更趨近於其他國家。


在泰國的結果中,有64%的圓是逆時針的,而其文字書寫同樣也包含著大量的圓形筆劃。 在42個輔音中,幾乎所有都是從一個小圓圈開始寫。 開頭的這個圓圈可以順時針也可以逆時針,但逆時針的圓是順時針的兩倍多。


下面是發音“m”的泰文:



你也許會問另兩種充滿圓形的文字,緬甸語和格魯吉亞語的結果如何。


緬甸同日本和台灣結果相近,僅22%的圓形是逆時針的。 這支持了我們所得出的結論,但由於樣本只有9個,我們不能這樣輕易下結論。 相似的,格魯吉亞只有72個數據,所以不具代表性。


剩餘的50個國家傾向逆時針畫圓。 這些國家幾乎所有都在使用運筆從左至右且沒有過多圓形筆劃的拉丁字母。 英語也有筆順,不過沒有那麼死板:可能是因為在孩提時期,像大多數使用拉丁字母的國家那樣,一遍一遍地逆時針寫“c”和“g”。


當然,儘管有許多證據表明文字能夠影響人們畫圖形的方式,但是這一理論也不能解釋一切。 越南也像美國一樣使用拉丁字母,並且有95%的人逆時針畫圓,可是使用中文筆劃的香港也有82%的人逆時針畫圓。


另一種可能的解釋是有人是左利手。 也許右利手自然地傾向於逆時針畫圓,除非書寫系統教他們反向。 來自“Quick,Draw!”的數據並沒有表明用戶是左利手還是右利手,慣用手的不同可能顯著地影響到他們畫圖的方式。 不同國家的左利手並沒有太大的不同,這可能並不能解釋台灣地區、日本和其它國家之間的巨大區別。


那麼,究竟什麼才是正確的做法呢?


Quaritz在文章中也做出了分析,在20世紀70年代,美國為兒童開發的一項名為“torque test”的常見心理學練習,孩子們會得到一張紙,上面有這個:



為了幫助研究人員辨明孩子是左利手還是右利手,孩子們被告知要先後用兩隻手畫圓把X圈起來。 如果孩子逆時針畫所有的圓則被認為是“非標準”。 如果孩子順時針畫了一個圓則被認為是“標準”。


美國心理協會主席、扭矩測試的創造者Theodore Blau在1977年發表的論文中認為,順時針畫圓是學習與行為變異的標誌。 他警告說,標準畫圓的孩子們,可能有得精神分裂症的危險。


心理學家們後來反駁了上述觀點,並且一些人特別關注文化和教育對兒童繪畫習慣的影響。 在1997年一項跨文化研究中,調查了不同年齡段的學生——在美國生活的美國學生、在日本生活的日本學生和在美國生活的日本學生,調查結果顯示:62名日本一年級學生 中,約有半數同學順時針畫圓;三分之一的學生逆時針畫圓;五分之一的學生兩種方式都用。


但是,幾乎全部的六年級學生都是順時針畫圓,這暗示著孩子們寫字越多,他們順時針畫圓變得更加明顯。 相比之下,有64%的美國學生逆時針畫圓,這個比例在六年級學生中也只有些許變化。


但是,並不只有日本是這樣。 在1973年的跨文化研究中,還調查了不同年齡段的美國和以色列兒童是如何畫圓的,結果表明也有大量的兒童逆時針畫圓。


研究人員指出,對以色列來說結果正好相反,他們用到的最接近圓的字母“ס”,是順時針寫的。 隨著時間的推移,美國人在畫圓的方向上更趨一致,100%的成年測試者逆時針畫圓。 在以色列,各個年齡段的測試者中有70%順時針畫圓。


這些研究表明,不僅文化和寫字方式塑造了人們繪製抽象形狀的方式,而且也表明這種趨勢隨著時間的推移越來越明顯。 寫得越多,習慣越根深蒂固。 出於同樣的研究目的,我們在全世界範圍內收集了90,000個圓,構造了一個規模更加龐大、數據更加一致的數據集,用以支撐過去在小規模數據研究中得到的結果。


現代漢語筆順系統是從漢代盛行的隸書系統演變而來的。 隸書書寫時間太長,而人們想要寫的更快,因此隸書演變成行書,一種半草書風格,最終演變成今天的筆劃。 根據書法家黃一知的說法,使用軟毛筆書寫能夠了解更多的現代中文筆順規則。


日本人同中國人一樣講究筆順。 在1958年,日本教育部製定了國家級的筆順準則,建立了統一的標準,避免出現混亂。


“我認為我運筆的方式很有效並且寫出的字很漂亮。”日本協會語言中心主任TomoyoKamimura說道,“一些成年人書寫筆劃順序完全錯誤,我們認為他們沒有接受教育。”


如今,美國的小孩都在學習印刷體和手寫體的方法,這種方法叫做“快樂書寫”。 該方法提倡使用“魔法C”,一種逆時針曲線,用在“c、g、q、o”等字母中。 因此,美國的學校會鼓勵小孩子們逆時針畫圓,來幫助他們養成以後第一次書寫字母時所需的基本運動技巧。


為了測試我們的理論,我們請了一些母語使用日語、阿拉伯語、希伯來語、漢語、泰語和越南語的同事、朋友和家人來畫圓圈,雖然這樣感覺有點不太好。 但他們仍然很高興地加入了,因為他們除了好奇自己到底是怎麼畫圓的以外,也渴望了解一個嶄新的領域。


誠然,這世界上還有很多我們不懂的事情,但對繪製形狀的研究在心理學領域好像已經過時了,除了一個例外,我們發現所有與文化相關的圖形繪製研究以及“扭矩測試”,都 是在1997年之前開始的。


我們可以合理推斷一下,全世界的人越來越多地通過鍵盤打字來交流。 未來某一天書法藝術會被遺忘,但到了那個時候,我們或許還會形成文化差異,只是這個差異與書法藝術無關,與鍵盤打字有關。




*文章為作者獨立觀點,不代表虎嗅網立場

本文由 大數據文摘 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文請於文首標明作者姓名,保持文章完整性(包括虎嗅注及其餘作者身份信息),並請附上出處(虎嗅網)及本頁鏈接。 原文鏈接:https://www.huxiu.com/article/253292.html

未按照規範轉載者,虎嗅保留追究相應責任的權利


未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!





http://www.buzzfunnews.com/20180725252.html

心情煩悶需要新鮮事刺激一下嗎?請上:http://www.buzzfunnews.com

沒有留言:

張貼留言