在線服務(wù)要求內(nèi)容可以簡易分類。
原作者 David Auerbach
原出處 Medium
“你們既然張口結(jié)舌,不愿讜言,且用無聲的符號(hào)來表示心愿吧?!?/p>
——莎士比亞,選自《亨利六世》上篇
“我對千禧一代的感覺很不好。天啊,他們要用標(biāo)簽來定義交到他們手中的世界。”
——Ottessa Moshfegh
在線服務(wù)所鼓勵(lì)的初級層次的用戶反饋是一個(gè)特點(diǎn),而不是漏洞。對一臺(tái)電腦而言,解讀“喜歡”或“五星好評”的意義比解析原始文本的意思可容易多了。
Yelp的用戶評論是吸引美食愛好者的必要組成部分,但如果沒有星級評級,Yelp就不可能存在,星級評論可以方便消費(fèi)者查看迄今為止的所有排序,過濾和歷史分析(例如,追蹤餐館的評價(jià)是否變差了)。這恰好引出了我想要談的。
互聯(lián)網(wǎng)數(shù)據(jù)第一定律
在任何計(jì)算機(jī)情境下,“明確結(jié)構(gòu)化的數(shù)據(jù)”流動(dòng)至頂層。
“明確結(jié)構(gòu)化”數(shù)據(jù)是指任何附帶分類、量化或排序的數(shù)據(jù)。這種數(shù)據(jù)是獨(dú)立的,使用起來不需要借助任何更廣泛的情境。
相較于存在于人類語言、影像和視頻中的非結(jié)構(gòu)化數(shù)據(jù),存在于結(jié)構(gòu)化且可量化的情境中的數(shù)據(jù)——無論是DSM、信用記錄、龍與地下城(Dungeons & Dragons)、金融交易、Amazon產(chǎn)品類別還是Facebook個(gè)人資料——對于算法以及使用這些算法的人和公司來說將變得更加有用和重要。
在互聯(lián)網(wǎng)時(shí)代的早期,這個(gè)定律還略顯模糊,因?yàn)榭擅鞔_量化的數(shù)據(jù)很少。明確量化的元數(shù)據(jù)強(qiáng)調(diào)了算法傾向于明確量化的數(shù)據(jù)。換言之,互聯(lián)網(wǎng)早期是一個(gè)失常年代。
回看起來,早期的互聯(lián)網(wǎng)是一個(gè)明確量化過程的非典型開端,這個(gè)過程隨著Facebook、Snapchat、Instagram和Twitter等社交媒體平臺(tái)的出現(xiàn)而開始,這些社交平臺(tái)都是新規(guī)范的一部分。這也包括了Amazon、eBay和其他使用明確量化數(shù)據(jù)的公司。
網(wǎng)絡(luò)2.0并非關(guān)于社交媒體本身,而是關(guān)于社交媒體的分類。更廣泛地說,是生活的分類。對于非結(jié)構(gòu)化數(shù)據(jù),Google可謂物盡其用,挖掘了數(shù)據(jù)一切可利用的價(jià)值。而互聯(lián)網(wǎng)的不斷成熟也要求內(nèi)容組織更加明確,以便于計(jì)算機(jī)進(jìn)行分析。而大規(guī)模挖掘非結(jié)構(gòu)化數(shù)據(jù)的最佳辦法是雇傭使用者來產(chǎn)生這種數(shù)據(jù)。
明確量化的數(shù)據(jù)要求先對數(shù)據(jù)進(jìn)行標(biāo)記和分類,然后再分類和排序。像國會(huì)圖書館(Library of Congress)這樣的檔案館項(xiàng)目并不是對書籍本身進(jìn)行整理,而是開發(fā)總體分類,以確定書籍合適的排序。不先分類,就無法分類揀選。即使是在機(jī)器學(xué)習(xí)中,“無監(jiān)管”時(shí)的表現(xiàn)也會(huì)較差——“無監(jiān)管”是指機(jī)器沒有預(yù)先存在的分類框架。
互聯(lián)網(wǎng)數(shù)據(jù)第二定律
對于任何數(shù)據(jù)集,分類這個(gè)過程比分類對象更重要。
數(shù)據(jù)分析的結(jié)論和影響更常來自于分類,而非數(shù)據(jù)本身。Facebook將人分成多個(gè)組別時(shí),例如“啤酒愛好者”或“時(shí)尚狂魔”,并沒有什么重要特性將該組的人聯(lián)系在一起。就像Google的秘密武器,F(xiàn)acebook的分類并沒有什么大秘密。它只是所有個(gè)體因素的混合,當(dāng)總結(jié)到一起時(shí),碰巧讓類別檢測器出錯(cuò)了。
無論是什么導(dǎo)致 Facebook 判定我有非洲裔美國人的“種族相似性”(是因?yàn)槲覟g覽記錄里有Sun Ra嗎?),在人類的角度看來,這并不是什么能讓人明確地認(rèn)為我有這種相似性的判斷依據(jù)。
相反,重要的是,這樣一個(gè)類別決定了我將來會(huì)被如何對待。該類別的名稱——無論是“非裔美國人”、“少數(shù)民族”、“非洲人后裔”還是“黑人”——比該類別的評判標(biāo)準(zhǔn)更重要。Facebook 學(xué)到的關(guān)于這些類別的標(biāo)準(zhǔn)將在很大程度上發(fā)生重疊,但最終的分類在不同情況下都具有明顯不同的含義。
但標(biāo)準(zhǔn)之間的差異是模糊的。我們從未見過這個(gè)標(biāo)準(zhǔn),且大多情況下,這個(gè)標(biāo)準(zhǔn)是隨意的或完全錯(cuò)誤的。對分類的選擇比分類的實(shí)施更重要。
在這里,F(xiàn)acebook 和其他計(jì)算分類器加劇了現(xiàn)有的臨時(shí)分類法的問題。DSM的類別更多地影響如何看待患者群體而不是每個(gè)人的潛在特征,因?yàn)樗沁M(jìn)入數(shù)據(jù)綜合的類別標(biāo)記。
一個(gè)人對經(jīng)濟(jì)的看法更多地取決于失業(yè)的定義(是否包括那些不再尋找工作的人、兼職工人、臨時(shí)工等),而不是公民的原始經(jīng)驗(yàn)和意見。您對自己健康的看法更多地取決于您的體重、飲食和生活方式是否被歸類為“健康”或“不健康”的分類,而不是原始統(tǒng)計(jì)數(shù)據(jù)本身。甚至一個(gè)類別的名稱——“胖”、“超重”與“肥胖”——都帶有關(guān)聯(lián)性,會(huì)被用于解讀這個(gè)分類。
有些分類相對于其他分類更成功和受歡迎。
互聯(lián)網(wǎng)數(shù)據(jù)第三定律
更簡單的分類會(huì)擊敗更精細(xì)的分類。
反饋機(jī)制(點(diǎn)贊、星級等等)的簡單性是刻意的?;ヂ?lián)網(wǎng)服務(wù)可以在需要時(shí)處理復(fù)雜的本體,但業(yè)務(wù)和技術(shù)慣性會(huì)優(yōu)選更簡單的本體。Facebook過了10年才增加了“點(diǎn)贊”之外的反應(yīng),并長期抵制增加“不喜歡”按鈕的要求,導(dǎo)致用戶對死亡公告和政治丑聞也被迫只能選“點(diǎn)贊”。
Facebook更喜歡簡單的感興趣/不感興趣雙選指標(biāo)。Facebook最終決定安撫其用戶,在原有的基礎(chǔ)上增加了五種情緒:愛、大笑、驚嘆、悲傷和憤怒。后兩個(gè)負(fù)面情緒的加入并非巧合:“悲傷”和“憤怒”比其他情緒更模糊。當(dāng)我對某事表達(dá)了積極反應(yīng)時(shí),意味著我感興趣。如果對某事感到難過或氣憤,我可能仍感興趣,也可能我想避開此事。這些反應(yīng)對 Facebook沒多少用處。
Facebook的六種反應(yīng)類似于表情符號(hào),因?yàn)樗鼈冊试S用戶以非語言方式表達(dá)情感,但對 Facebook更有用。因?yàn)楸绕饠?shù)千個(gè)表情符號(hào),這六種反應(yīng)包含的分類更簡單。BuzzFeed采用了一種類似的、稍微簡潔的方案,允許用戶發(fā)布對文章的反應(yīng)。BuzzFeed的計(jì)劃是為市場研究量身定制的:內(nèi)容可能令人驚訝、可愛、令人震驚和有趣等。
Bloomberg 的Sarah Frier解釋了Facebook制定新的反應(yīng)的方式:
Facebook 研究人員通過編制人們就帖子最常發(fā)布的回應(yīng)來啟動(dòng)該項(xiàng)目:比如說,“哈哈(haha),”“放聲大笑(LOL)”和“天啊,好有趣(omg so funny)”都進(jìn)入了笑聲類別……然后他們將這些類別最終歸為六種常見的反應(yīng),F(xiàn)acebook稱之為反應(yīng):憤怒、悲傷、驚嘆、哈哈、“耶”和愛…… Facebook 發(fā)言人表示,“耶”最后被拒絕是因?yàn)椤八鼪]有被普遍理解”。
具有諷刺意味的是,相較復(fù)雜的體系,這些原始情緒更能實(shí)現(xiàn)較復(fù)雜的分析——這是簡單分類往往能擊敗更復(fù)雜分類的一個(gè)重要原因。對文章的書面評論并沒有給 Facebook 帶來更多數(shù)據(jù),畢竟從模棱兩可的書面文字中琢磨情緒太難了,除非文本簡單得只有“放聲大笑”或“太棒了”這樣的話。
但六重分類具有多種優(yōu)勢。Facebook、BuzzFeed和他們的同類平臺(tái)都在尋求通用和明確的情緒。不同國家、不同語言和文化背景中的人對這些情緒反應(yīng)的選擇應(yīng)該是基本一致的。
情緒也使得用量化的方式對比各類帖子更加容易。用戶自己將文章分類成“有趣”、“開心”、“悲傷”、“暖心”和“惱火”。光是通過查看文本回復(fù),很難判斷“加拿大在貿(mào)易協(xié)定議題上停滯不前”和“流行歌手退場”之間有什么共同之處。但如果當(dāng)他們都激怒了用戶,而用戶點(diǎn)擊了“憤怒”圖標(biāo)后,那么Facebook就可以檢測到二者的共性了。
這些分類可以讓Facebook將用戶的情緒與類似的分類文章相匹配,或者在他們感到悲傷或憤怒的時(shí)候嘗試讓他們振作起來。如果用戶對一篇文章的反應(yīng)不一,F(xiàn)acebook可以建立子分類,例如“有趣-暖心”和“暖心-震驚”。它可以跟蹤哪些用戶做出的更多的反應(yīng)是憤怒或笑聲,然后預(yù)測他們將來會(huì)對哪些內(nèi)容做出反應(yīng)。
Facebook可以隔離脾氣特別暴躁的人并減少他們在其他用戶面前的曝光,以防止他們拉低用戶的人數(shù)。它通過訓(xùn)練算法來就用戶尚未做出反應(yīng)的文章進(jìn)行猜測。
最重要的是,即使這特定的六種反應(yīng)不是默認(rèn)和通用設(shè)置,F(xiàn)acebook的選擇將強(qiáng)化它們作為默認(rèn)設(shè)置,通過反饋循環(huán)使它們更具有普遍性。我們越多地按照六種表情對我們的反應(yīng)進(jìn)行分類,就越會(huì)在更大程度上用這些術(shù)語來衡量自己的情緒。
默認(rèn)的六個(gè)表情可以消除Facebook在使用更大的情緒集進(jìn)行測試時(shí)觀察到的差異性。這個(gè)更大的情緒集都出自Disney-Pixar的Matt Jones之手,包括從欽佩和肯定到生氣、憤怒和恐怖的所有情緒。
與這個(gè)面面俱到的清單想比,簡單的分類勝出。它既易于使用又更具普遍性——以犧牲文化和個(gè)人差異為代價(jià)。此外,按研究人員Dacher Keltner對Radiolab的Andrew Zolli的說法,就是“犧牲了幸福感”。
表達(dá)“快樂”最多的國家實(shí)際上并不是現(xiàn)實(shí)生活中最快樂的國家。相反,正是這些國家使用了最廣泛的標(biāo)簽,在社會(huì)健康、福祉、甚至長壽的各種衡量標(biāo)準(zhǔn)方面都做得更好。凱爾特鈉告訴我:“這無關(guān)于最幸福,而是關(guān)于情感最多樣化”。
如果這種有限的六種反應(yīng)集會(huì)縮小情感的多樣性,社交媒體和廣告公司則將這種權(quán)衡視為更好地收集用戶數(shù)據(jù)的必要成本。Facebook使用的有限的情緒語言是計(jì)算機(jī)可以大規(guī)模理解和操縱的語言。
這組核心情緒反應(yīng)的簡化語言彌合了計(jì)算與人類之間的鴻溝——比DSM過于復(fù)雜的特殊分類更為成功。相反,這些反應(yīng)集讓人想起更簡單的民間分類法Myers-Briggs、OCEAN和HEXACO,它們也將復(fù)雜現(xiàn)象分解為少數(shù)幾個(gè)軸。Facebook的情緒反應(yīng)甚至可以大致映射出五大人格:
喜歡:宜人性
愛:外向性
驚嘆:開放性
悲傷:神經(jīng)質(zhì)
憤怒:盡責(zé)性
出局的是“哈哈”。盡管大笑是最普遍和毫無疑問的表達(dá)方式,但一如既往地未被歸入簡單的分類。而對于其他五個(gè),也不可避免地磨平了文化差異。盡管Facebook的實(shí)證研究概括了六種情緒,但公司并沒有真正在不同文化中捕捉到同樣的情緒——相反,它發(fā)現(xiàn)了多種文化可辨識(shí)的若干情緒。
如果數(shù)據(jù)挖掘者和用戶剖析師能夠摸索到門路,那么我們很快就會(huì)步調(diào)一致地表達(dá)愛意、驚嘆、悲傷和憤怒。
“反應(yīng)”的語言是一種原始的情感詞匯,比我們的人類語言簡單得多,更適用于計(jì)算機(jī)和計(jì)算分析。1999年,當(dāng)我將圖形情緒引入到Messenger客戶端時(shí),還完全沒有預(yù)見到這些改變。
2015年左右,我開始注意到我的Facebook留言墻上的一個(gè)變化:討論更少了。我認(rèn)識(shí)的人更傾向以帶有“yeah”或“ugh”等單音節(jié)詞、簡單的表情符號(hào)或 Facebook 的六種反應(yīng)去回復(fù)帖子。令我沮喪的是,我自己也是這么做的。
我重新查閱了2009 年和 2010 年的帖子。那時(shí)候我寫的還是完整的句子和論證。這種轉(zhuǎn)變明顯而巨大。多樣性、微妙的差異和模棱兩可的部分減少了。如果我強(qiáng)烈反對“yeahs”或“ughs”這類的人云亦云,其他用戶更有可能會(huì)抨擊我。
任何異見者也可能遭遇同樣的對待。這個(gè)世界怎么了?這些人可是我的朋友啊。可他們已判若兩人。我們已經(jīng)被標(biāo)準(zhǔn)化了,我們?nèi)慷荚谥v一種全然不同的語言:即Facebook語——計(jì)算機(jī)的語言。
聯(lián)系客服