2019-03-10 | 作者:CSRone 蔡容慈、劉宥妊、桂筠茜

【婦女節專題】AI加深性別偏見:自主學習讓歧視不斷被複製

人類期待透過人工智慧(AI)的投入及應用,在擴大社會和經濟價值的同時,也創造更加包容且多元化的社會。然而,根據世界經濟論壇(World Economic Forum,WEF)日前發布的「2017第四次工業革命加速性別平等」白皮書指出,具備人工智慧領域能力的人才庫中,男性占比為78%,而女性則僅有22%。而該現象可能於未來AI技術大量應用時,透過機器學習不斷擴大性別差距。

2014年亞馬遜嘗試使用機器學習建造人才招聘模型,並透過該工具給予申請者1至5分的評分量表,藉以挑選出最合適的人才。然而該模型卻於2015年被發現評分結果具性別偏誤,應用於軟體開發及其他技術類型的職位偏好男性求職者,並給予女性較低的分數,造成此現象的原因便是訓練模型的資料來自於公司內部10年來的選才經驗,而男性工作者則正好占了該產業的多數比例。

現實社會性別不平等、人類語言對AI的影響

除訓練AI的數據資料造成的性別不平等之外,人類語言的使用也是造成結果偏誤的原因之一。根據Leavy的論文指出,機器學習所使用的人類語言資料,與人工智慧產生性別偏誤的原因有關。文體學專家也表示,這些具有性別意識形態的詞彙被放入AI機器學習的演算法中,使得訓練模型對性別產生刻板的結果判斷,進而造成性別偏見。

另一方面,20世紀末研究女性主義的學者針對語言和性別意識形態進行研究時發現,詞彙的選擇及應用能夠影響人們對女性的想法,並加深性別刻板印象。例如,人們會習慣在律師及法官的稱謂前特別加上「女」字;根據女性的外觀而稱呼其「小姐」而非女士;填寫資料表順序多數為「先男後女」、報章雜誌的商業文章提及男性稱謂的次數平均比女性高10次等。

機器學習後所造成的偏誤我們可透過探究Google翻譯的模式來討論。該工具藉由過去人們輸入的語句彙整為參考數據,並透過自主學習提高翻譯準確率。然而在資料未經篩選、演算法未重新設計的情況下,Google翻譯便會提供使用者「具有性別偏見」的陽性詞。例如,該系統在偵測到「強壯」、「醫師」等詞語時,翻譯結果就會偏向男性:土耳其文「o bir doktor」轉譯為英文時,僅會出現「he is a doctor.」。

令人欣喜的是,Google近日已透過提供兩種性別翻譯結果的方式,解決原本翻譯中存在的性別偏見,雖目前尚未包含非二元性別(non-binary gender)的譯法,但已體現其追求性別平等的理念。

加強AI本身的性別教育

AI的性別歧視跟現實社會所體現的性別歧視十分相似,AI就如同一個天真的幼童,深受父母、教育、及社會環境所影響。而AI長大之後,又會持續形塑這些觀念,造成歧視不斷複製、加深歧視。 

根據全球資訊網基金會(World Wide Web Foundation)在2018年二十國集團女性會議(Women 20, W20)中強調,研發AI之際應避免帶有性別意識。此外,他們更提出下列兩項運作AI時應注意問題。

1. AI需要被餵養更平等的訓練資料

訓練資料的收集不應該只注重在數量的龐大與否,同時也要兼顧資料的質量,且必須注意資料樣本的性別意識(語言的性別)、男/女性資料數量是否平均、是否涵蓋邊緣與少數族群。若在訓練時缺乏某種樣本群,出現「數據匱乏(data desert)」的情況,則可能為導向錯誤的判斷結果或導致真正解答的選項消失。

政府也須在資料公正性上多做努力,除了監督資料內容之外,也需要藉由政府力量來獲得難以獲得的少數族群資料。

2. 找出系統性的性別偏誤,利用開放資料與邏輯運算修正

以AI招募篩選為例,若一味使用過去的履歷與就業資料,可能會造成對女性不利的篩選結果,而這個錯誤判斷是現實社會累積的偏見所造成的。因此,W20認為,政府應呼籲提供AI服務的企業提升其資訊透明度,並訂定相關準則進行監督,且政府須更進一步建立公正的兩性平等開放資料庫(open data),以提供AI系統做測試。

 

註冊會員並免費訂閱《CSRone電子報》,建立個人永續書單、獲取更多永續新知!

資料來源:
Google Translate’s gender bias pairs “he” with “hardworking” and “she” with lazy, and other examples
全球資訊網基金會W20聲明
圖片來源:Alex Knight


延伸閱讀:
【婦女節專題】世界經濟論壇:增值女力 = 增值科技創新
永續關鍵鑰匙!賦權女性可讓1.5億人免於飢餓

GRI Software And Tools Partner