此为历史版本和 IPFS 入口查阅区,回到作品页
Morven
IPFS 指纹 这是什么

作品指纹

【書】Everybody lies《數據、謊言與真相》

Morven
·
·

研究大數據,並藉其研究去探討人們真正的行為跟模式。

本書的原名叫做 Everybody Lies,可以道盡本書想要探討的議題。這本書內容主要探討三個主題:

  • 人們普遍不誠實
  • 現今的大數據有什麼用途
  • 大數據可能帶來的影響

我們普遍不誠實

其中一個原因是因為社會上有個共同的理想形象,也可以用目前很流行的用語來描述:「政治正確」。政治正確多見於國籍、種族、宗教以及兩性之間的議題,其核心概念通常是平等。而在主流媒體或是公開場合上只要討論到相關議題,便比較難出現第二種不同的聲音。但是我們真的打從心底沒有種族歧視嗎?

而另一種原因也是要符合那共同的理想形象,也就是性生活美滿、有健身的習慣、擁有良好的社交生活和一個美滿的家庭。在社交場合上,我們經常過度美化自己,就像是將自己包裝成那種形象以符合社會期待,或是受到他人的讚美。但是我們真的過得這麼美好嗎?


由於上述原因,我們在接受調查或是填問卷時,不自覺的會將這共同的理想形象投射到自己身上,希望讓他人認為我們是個符合主流價值的人,讓我們總是帶上一層面具,說著言不由衷的話

但是在兩個地方能夠真正認識到人們真正的想法:

搜尋引擎以及色情網站。

在這兩處我們不用面對他人的眼光,好像也不會有任何人知道你搜尋了什麼內容,所以這種匿名性能夠真正了解到我們遇到的困難、想法和偏好


首先是種族歧視,專家們曾認為美國的種族歧視在歐巴馬當選後已經消失,所以對當初川普參選時一律認為他會落選,但是從 Google 搜尋的統計中可以發現人們搜尋「黑鬼」、以及種族歧視的字眼比想像中多,而在 Google 搜尋中搜尋黑鬼的次數愈多的州,川普的得票率也愈高

所以我們檯面上說著反種族歧視、檯面上說著不支持川普,但是我們說的都是違心之論:嘴巴說不要,但是身體卻是很誠實的把票投給川普。


而藉由搜尋引擎也可發現無性婚姻比想像中的還要普遍,由於主流媒體像是電影或是影劇,通常主角們的性生活都很美滿,各個都很風流有許多豔遇等等,所以讓我們不自覺的認為這樣才是正常的,或是將其視為理想的形象。

所以當自己的婚姻與電視上不同時,就會認為自己可能是有問題的,進而誇大自己的性生活美滿程度。過去曾經調查在進行性行為時、是否有使用保護措施,依據人們回覆的性行為次數,接著去比對保險套公司的總出貨量,可以發現不論男女,都誇大了自己的性行為次數、比如性行為共十億次、但是保險套之總出貨量卻僅七億只。藉由大數據的研究,可以發現我們若過著無性生活,其實我們真的不孤單。


而上述提到最誠實的平台是搜尋引擎以及色情網站,那麼最不誠實的平台是什麼呢?

社群媒體

作者認為臉書是最不誠實的平台,在臉書上人們非常明顯的將自己最好的一面放上去,或是將符合主流價值觀的形象建立於其上,過度放大自己美好的社交生活、健身習慣、旅遊體驗以及其他美好形象,如喜歡看有深度的雜誌而不愛看八卦雜誌;不同意種族歧視但是回去搜尋黑鬼笑話;強調自己經常跟朋友聚會但是常常在家看網飛;自認有健身習慣而且性生活活躍但是其實不然。目的就是吸引更多目光並且行銷自己。

而過度比較自己與他人的臉書狀態,不免就帶來比較感和失落感,讓現代人受生活在焦慮中。但是在比較時我們可能忘記了一件事情:

我們是在拿自己的 Google 搜尋去比較他人的臉書狀態。就如同將自己的內在去比較他人的外在一樣。

當你知道基準點完全不同時,這種比較就顯得毫無意義,接著就能夠從這比較的困境中脫離,也能夠用更健康的眼光去審視自己的價值,第一個部分總結而言,不要相信他人說什麼,而是去觀察他做了什麼


大數據有什麼用

再來提到大數據的價值不在於數據的多寡,而是要如何從其萃取出有用的資訊。對於我們的祖父母輩,其人生經驗也算是大數據的一種,祖父母透過自己的所見所聞給出建議和想法。就如同我們我們研究他人的統計資料以及經驗,藉此改善自己的決策和想法一樣。

但是人會過度放大自己的經驗、並且加重戲劇化事件的權重。比如說婚姻雙方有共同的朋友圈,這種想法在大數據研究中證明是不理想的;或是龍捲風致死率比氣喘還要嚴重等等。人類的思考充滿了各種謬誤,像是定錨效應、可得性謬誤、嫌惡損失以及忽略沉沒成本等等,都影響了我們決策的正確性。

而現在的大數據有四大優勢:

  • 有更多的管道來源
  • 可以做局部的區域限縮
  • 真正誠實的數據
  • 可以允許做因果關係的研究。

舉書中提到的三個例子:

NBA球員的出身

一般認為貧民區的黑人會比中產階級的黑人更容易當上 NBA 球員,原因可能是這種事件會有一種跳脫階級的激勵感,讓人有鯉魚躍龍門的戲劇性感受。但是作者從姓名、出生區域還有其父母的婚姻去研究這個議題,發現三種面向皆顯示中產階級的人反而更有機會上 NBA 。

如何判斷賽馬中的千里馬

一般人認為馬的血統非常重要,但是有人實際上透過各種不同的數據收集,比方說鼻屎的氣味,腳的長短比例以及心肺功能等等,用大數據的方式去比較哪些項目才是是否成為千里馬的關鍵,最後讓他找到左心室的大小以及肺的比例就是關鍵千里馬的關鍵因素。

球團如何對球員做出取捨

大聯盟中對於所有球員的表現做出完整的統計,從年齡、打擊率、身體狀況、偏好以及血統等等。在某球員步入中年時,其表現開始變得不盡人意,但是當球隊管理者透過大數據去分析該球員的特質,比照過去所有大聯盟的球員,發現有部分球員的相似性很高,而這些球員在經過一段時間後又開始表現優異,因此而將該球員留任,最後該球員還真的恢復過去的亮麗表現。


大數據能夠幫助我們找到事物之間的關聯,但是目前它還無法為什麼呈現原因,雖然如此,但是只要找到這種事物間的關聯就已經非常足夠。

就如同我只要知道方法管用就好,其背後的原理不是我們必須了解的議題。就像是解釋為什麼左心室的大小會影響賽馬的表現,這個工作就交給專業的生物學家即可,我們只要將賭注押在那匹千里馬就夠了。


大數據可能帶來的影響

我們的生活中充斥著各種網路服務、從搜尋引擎、入口網站到電子信箱等等,在我們使用這些免費服務時,可能不知道自己正在成為網路公司做實驗的對象

各大網路服務提供者無時不刻都在進行 A/B 實驗

所謂的 A/B 實驗類似實驗組以及對照組。根據書中所述、臉書每天會進行一千次的 A/B 實驗。

假設今天臉書想要研究什麼樣的版面會讓使用者點擊更多的廣告連結。他便設計兩種版型、然後隨機提供給兩群使用者使用,使用者在操作時會以為大家所使用的頁面是相同的,然後藉由實際結果去判斷哪種版型更符合網路公司的需求。然後再將優良表現的版型提供給所有使用者。


我們可能會想說這兩群使用者的性質可能不一樣,其研究結果便不精確。但這就是現代大數據的優勢、網路服務可以跨越現實地理的限制,當兩群使用者的人數到達一定的規模,群組間的差異彼此就能在群組內消除,使得兩個群組間幾無差異。

網路服務提供者就是透過不斷的 A/B 實驗,才使得我們為什麼愈來愈離不開如社群媒體網路服務。因為其不斷的優化自己、並且不斷的從錯誤中學習

但是這種 A/B 實驗如果擴大到更高的層次,比如銀行利用你在網路上的發言去判斷要不要貸款給你;或是政府透過你在網路上的搜索行為判斷你可能會犯罪、進而進行預防性羈押。這種行為似乎就跨過了那條界線。


小結

根據書中所述,經常說「上帝」「感謝」「會還錢」「承諾」等字詞的人,期還款機率比普遍來說還低。那麼銀行是否能透過這種理由去收集你在網路上的發言,藉此來判斷要不要借錢給你?

假設那天真的到來,那麼我們在網路上是否就要去學習「良民」以及「優良還款人」的用字遣詞,回到過去帶上一層面具,說著言不由衷的話,以讓自己符合社會以及主流價值的期待呢?這部分的確值得我們好好思考。

書中的結論也善用了大數據的力量,根據亞馬遜所收集的數據,大約 90 % 的人會看完小說《金翅雀》,但只有 7 % 的人看完《快思慢想》,可以發現大多數的人並不會將經濟學家的著作看完,作者粗估會購買本書的人大約只有 3 % 的人看完這本書,或許我們能夠從這結果有些不同的啟發。

像是我預估大約只有一成的人會閱讀完這篇文章,不知道那個人會不會是你😂

CC BY-NC-ND 2.0 授权