‧
9 分鐘閱讀
在資料工作中,最常見的 6 種偏見
Metabase 團隊
‧ 9 分鐘閱讀
分享這篇文章
您正嘗試做出好的決策,並決定查看您的資料,以協助您做出判斷。您已掌握一切所需,感到自信,並在無往不利的感覺中向前邁進——畢竟,您的資料支持您。但是,事情並未如您預期的那樣發展。突然間,您手忙腳亂,並試圖找出哪裡出錯了。
如果這聽起來很熟悉,您可能正在處理認知偏誤,這些偏誤會影響並扭曲您感知周圍世界的方式。這些偏誤是普遍存在的——本質上是每個人處理資訊方式的一部分——但在使用資料和從資料中學習時,它們會變得更加複雜。
等等,我以為資料應該幫助我保持客觀?
確實,使用資料可幫助您做出更好的決策,這些決策以現實而非意見為基礎。但是,僅僅因為您正在使用資料,並不意味著您的偏誤不會扭曲您看待世界的方式。
認知偏誤是思考中的系統性錯誤,通常由文化和個人經驗繼承而來,這些錯誤會在做出決策時導致感知扭曲。雖然資料可能看起來是客觀的,但資料是由人類收集和分析的,因此可能存在偏誤。
當人們習慣於訓練機器學習模型時,這些影響只會增長。這些模型繼承了建立它們的人的偏誤,並產生了意想不到的有害結果,例如以下這些
那麼,我該如何處理資料偏誤?
克服決策中偏誤的第一步是讓自己熟悉最常見的資料偏誤類型。為了幫助您入門,我們收集了六種最常見的資料偏誤類型,以及一些建議的減輕策略。
1. 確證偏誤
您可能在生活中的每一天都遇到過這種潛在的偏誤。我們都喜歡正確,所以我們的大腦不斷尋找支持我們先前信念的證據。即使我們盡力對其他想法持開放態度,我們的心靈也會向後推,回到我們自己最初想法的安全和舒適之中。這可能會在潛意識中發生,透過我們搜尋、解釋或回憶資訊的方式中的偏誤,或有意識地發生,當我們決定選擇性擷取時,透過專注於支持我們論點的資訊。
確證偏誤範例:社群媒體同溫層
「我在 Facebook 上看到的,是 John 分享的」——聽起來熟悉嗎?社群媒體演算法利用人們天生的確證偏誤。透過宣傳和放大證實訪客已相信內容的內容,社群媒體平台加強了訪客先前的信念,讓他們持續與平台互動。使用者看到他們已經相信的內容,並在離開時更加確信他們的觀點在現實中得到支持。
如何避免確證偏誤
- 在開始分析之前,記錄您的信念和假設。這將幫助您在檢閱結果時主動辨識您的偏誤。
- 瀏覽所有呈現的資料和證據,但不要立即跳到結論。抵制產生假設或收集其他資訊以證實您信念的誘惑。
- 在分析結束時重新檢視您記錄的信念和假設,並評估它們是否影響了您的發現。
2. 選擇偏誤
當查看不具人口代表性的樣本時,會發生選擇偏誤。當使用小資料集工作時,或當抽樣方法並非真正隨機時,可能會自然發生這種情況。
選擇偏誤範例:A/B 測試定價
一家新創公司想知道降低其產品價格是否會導致更高的總收入。他們決定測試他們的新定價一週,但僅針對來自美國的訪客進行測試。當他們將定價推廣到世界其他地區時,他們驚訝地發現更廣泛的受眾的行為與他們的樣本不同。
如何避免選擇偏誤
- 使用隨機化以確保您擁有具代表性的樣本,而不是方便的樣本。
- 確保樣本在您想要控制的變數中具人口代表性(例如,地理區域均勻分佈)
3. 歷史偏誤
當社會文化偏見和信仰反映在系統性流程中時,就會發生歷史資料偏誤。當來自歷史偏誤來源的資料用於訓練機器學習模型時,這會變得特別具有挑戰性——例如,如果手動系統給予某些群體的人較差的信用評等,並且您正在使用該資料來訓練自動系統,則自動系統將複製並可能放大原始系統的偏誤。
歷史偏誤範例:詞嵌入
2013 年,神經網路模型改變了機器理解書寫文字的方式。這項技術允許電腦透過從大量的書寫文字集(例如 Wikipedia、Google 新聞或 Reddit)中學習,來編碼單字的語意含義。但是,我們已經看到幾個範例,其中來自現有資料集的文字產生了模型,這些模型反映並放大了這些資料集中包含的現有偏誤。例如,在 Wikipedia 上訓練的機器學習模型產生了性別偏見的類比,例如:男人:醫生 :: 女人:護士,或男人:指揮官 :: 女人:小學老師。該模型透過從大量的文字語料庫中學習,繼承了社會的歷史偏誤,並產生了進一步加強這些偏誤的工作。
如何避免歷史偏誤
- 承認並識別歷史和當代資料來源中的偏誤。
- 為弱勢群體建立和培養包容性框架。
4. 倖存者偏誤
更容易關注贏家而不是亞軍。如果您回想起 2016 年奧運會您最喜歡的比賽,可能很難回憶起誰獲得了銀牌和銅牌。倖存者偏誤影響我們關注贏家的特徵,因為缺乏其他樣本的可見性——混淆了我們辨別相關性和因果關係的能力。
倖存者偏誤範例:過度索引成功企業家的建議
在聽取了成功企業家等人士的商業故事後,人們很容易嘗試毫不懷疑地遵循他們的建議。為什麼?他們成功了。您甚至可能認為,成為成功企業家的關鍵是永遠不要完成大學學業。
他們確實取得了令人印象深刻的成果,但有多少其他人遵循了相同的道路並失敗了?我們對失敗企業家的沉默人數的關注要少得多,但他們的人數要多得多。這並不意味著我們不應該研究成功領導者的策略,但我們需要記住,還有更多變數在決定哪些組織會成功。
如何避免倖存者偏誤
- 不要過度索引倖存下來的東西。退後一步,考慮成功和不成功參與者所採取的路徑。
- 尋找更多關於故事另一面的資料。
5. 可用性偏誤
資料的可用性對我們看待世界的方式有很大的影響——但並非所有資料都受到同等的調查和權衡。您是否曾經發現自己想知道您所在社區的犯罪率是否增加了,因為您看到了破損的汽車車窗?您已經看到了可能正在發生的事情的生動線索,但由於您可能沒有繼續調查犯罪統計數據,因此您的看法很可能根據立即取得的資訊而轉變。
可用性偏誤範例:創新狂熱
一項突破性的新技術正在風靡全球。您在每個廣告牌、新聞報導中都看到了它,並且不斷從您的同事那裡聽到關於它的消息。當您遇到這項技術可以幫助您解決的問題時,它是您腦海中的第一件事,您會立即跳進並在您的新專案中實作它。幾週後,您的專案進展不如您預期的那麼順利,並且您意識到一種更舊、更成熟的技術可能是更好的解決方案。但是,由於突破性技術很容易在您的記憶中取得,因此您沒有充分調查,最終需要重新思考您的工作。
如何避免可用性偏誤
- 專注於更大的趨勢和模式,而不是生動的軼事異常值。您擁有的生動記憶可能是例外而不是規則,只有透過進一步調查才能確定。
- 尋找不同的觀點!新聞、媒體,以及您的團隊、家人和朋友,在塑造這種自然的捷徑中發揮著巨大的作用,因為他們更頻繁地向您展示他們認為對您來說重要且需要注意的事情。您可以透過培養好奇心並主動挖掘可用的資訊(即使更難取得)來了解特定情況,從而抵消可用性偏誤。
6. 離群值偏誤
平均值是隱藏令人不安真相的好地方。有些資料方便以平均值視覺化,但這種簡單的操作會隱藏離群值和異常值的影響,並扭曲我們的觀察結果。
離群值偏誤範例:查看 KPI 的平均值
一家新創公司希望確保他們的行銷網站感覺快速且反應靈敏。他們決定追蹤他們的平均延遲時間,以確保他們的網站繼續快速載入。在經過幾個月大致一致的平均延遲值後,他們開始看到一些最重要的頁面上的參與度下降。當他們進一步調查時,他們意識到這些頁面上的延遲時間已急劇上升。他們的整個網站範圍內的平均延遲時間繼續描繪出一片樂觀的景象,因為這些頁面在許多其他表現良好的頁面中是離群值。
如何避免離群值偏誤
- 當平均值告訴您情況看起來不錯時,就該深入挖掘了。
- 查看整個分佈範圍
- 使用中位數而不是平均值
- 尋找並調查離群值
最後想法:資料偏誤
克服我們的認知偏誤是使用資料和從資料中學習的重要組成部分。儘管資料幫助我們以前所未有的方式看待世界——意識到資料偏誤並採取預防措施是利用資料做出更好決策的重要一步。
乾杯,
Metabase 團隊