人人書

雜誌

保存到桌面 | 簡體人人書 | 手機版
傳記回憶文學理論偵探推理驚悚懸疑詩歌戲曲雜文隨筆小故事書評雜誌
人人書 > 雜誌 > 學壞的人工智能

學壞的人工智能

時間:2024-11-06 06:14:33

2016年3月微軟推出Tay時,非常看好這款人工智能聊天機器人。Tay不僅能回答事實性問題,還可以進行更複雜的交流——Tay能表現出幽默感,像朋友一樣跟用戶說笑。宣傳材料中提到:你跟Tay聊得越多,她就越聰明,體驗也會更個人化。但當人們發現Tay會學習模仿交流對象的言語後,一些心懷惡意的人與Tay聊天時故意說一些具有侮辱和攻擊性的話。幾個小時後,Tay已是髒話連篇。上線不到24小時,微軟就宣布下線産品并公開道歉。

Tay項目失敗之後,微軟人工智能項目總監艾瑞克·霍維茨迅速讓技術團隊研究“自然語言處理”項目,尋找問題根源。團隊成員很快發現,與聊天程序相關的最佳基本行為遭到忽視。在Tay之前的基礎版軟件裡,經常有屏蔽不良表述的協議,但此次并沒有保護措施限制Tay可能學習的數據。

如今,微軟在全球推出了更加成熟的聊天機器人,包括印度的Ruuh、日本和印度尼西亞的Rinna。在美國市場,微軟推出了Tay的姐妹聊天機器人Zo。中國市場的聊天機器人叫小冰,已經開始主持電視節目,給便利店顧客提供購物建議。

然而,這次微軟明顯謹慎許多。霍維茨說,現在機器人推出得比較慢,而且公司會認真觀察軟件發展過程中與大衆互動的情況。不過微軟也清醒地意識到,即使人工智能技術在兩年裡能獲得長足發展,管理機器人行為的工作也永無止境。微軟員工一直在監視導緻聊天機器人行為變化的對話。

從聊天機器人的上述缺陷能看出,哪怕隻是部分應用人工智能,潛在的禍患也會被放大。雖然商業世界已經準備好更廣泛地應用人工智能,但該技術存在的問題,讓技術人員寝食難安。

所有人都相信,我們正處在企業人工智能大爆發的前夜。研究公司IDC預計,到2021年,企業每年将在人工智能相關産品上花費522億美元。經濟學家和分析師都認為,相關投資屆時可以實現數十億美元的成本節約和收益。其中一些收益将來自崗位壓縮,更多則來自産品與客戶、藥品與病人、解決方案與問題等之間的高效匹配。

人工智能技術之所以流行,主要因為深度學習系統的不斷發展。利用深度學習,企業可以在電腦中輸入大量信息,讓深度學習系統梳理、分析數據。不久的将來,各種規模的公司都能通過應用深度學習系統挖掘數據,尋找人僅憑經驗很難發現的最佳商機、決策核心等。在科技主義者的設想中,公司可以用人工智能整合過去多年的數據,更好地預測下一次大賣的機會,藥業巨頭可以削減研發暢銷藥的時間,而汽車保險公司也能通過錄入數萬億字節的事故報告,實現自動理賠。

盡管人工智能系統潛力巨大,但它也有黑暗的一面。首先,系統的決策水平受到人類提供數據的限制。用來培訓深度學習系統的數據雖在不斷完善,卻并不中立。成熟的算法掃描曆史數據庫後可能得出結論:白人男性最有可能當上首席執行官。無視偏見是人工智能系統的一項根本缺陷。當前應用的強大算法“沒有為所謂公平進行數據優化,”加州大學伯克利分校技術倫理學教授迪爾德麗·穆裡根表示,“隻存在為完成某項任務進行的優化”。人工智能以前所未有的速度将數據轉化為決策,但穆裡根表示,科學家和倫理學家發現很多情況下“數據并不公平”。

讓問題更加複雜的是,人工智能系統比之前應用的傳統算法更加複雜,即便讓經驗最豐富的程序員理解人工智能系統做出某項決策的邏輯都十分困難。再者,由于系統的開發者們都在拼命保護數據和算法,擔心專利技術洩露導緻利益受損,外部監測機構很難發現系統裡存在什麼問題。

近年來最典型的一次人工智能失控案例是,2016年美國大選前期,臉書的新聞推送中出現了假新聞。

社交媒體巨頭臉書并非故意散布假新聞,而是因為新聞信息流的推送機制并不會區分“真”和“假”,隻會根據用戶個人興趣推送個性化内容。臉書沒有公開算法的具體信息(涉及專利問題),但承認計算時會參考其他興趣相近用戶閱讀和分享的内容。結果是,假新聞一出現就吸引了網友們的注意,由此一傳十、十傳百,數百萬人的新聞信息流裡都出現了假新聞。

臉書的例子正是個人選擇與人工智能發生惡性互動的實例,但研究者更擔心人工智能誤讀整體數據。提米特·葛布魯曾在微軟等公司研究算法倫理,她對人工智能影響保險市場的方式很擔心,因為在保險市場上人工智能與數據結合後可能導緻少數群體受到不公正待遇。假設有一組汽車事故索賠數據顯示市中心交通事故發生率比較高,而市中心居住的少數族裔人數比較多。如果人工智能系統獲取了相關數據,可能認為少數族裔與車禍之間存在聯系,還可能給少數族裔司機貼上某種标簽。簡單來說,人工智能可能出現種族偏見。如果進一步回顧市中心附近車禍現場的照片和視頻,人工智能系統更有可能認為,在涉及多名司機的事故中,少數族裔司機肇事的可能性更大。系統還可能建議向少數族裔司機收取更高保費,不管他之前的駕駛記錄如何。

随着科技巨頭們準備将人工智能系統嵌入其客戶商業軟件,上述問題便從學術界所讨論的“假如”命題變成急需考慮的事情。這一挑戰的關鍵之處在于,科技公司所面臨的兩難境地并不在于創建算法或聘請員工來監視整個過程,而是在于人性本身。真正的問題并不在于技術或管理,而是關乎哲學。

技術倫理學教授迪爾德麗·穆裡根指出,計算機科學家很難将“公平”編入程序,因為公平的意義會因人群的不同而發生變化。穆裡根還指出,社會對于公平的認知會随着時間的變化而改變。而且對于大家廣泛接受的理想狀态的“公平”理念,也就是社會決策應體現社會每位成員的意志,曆史數據存在缺陷和缺失的可能性尤為突出。

谷歌雲計算部門的人工智能首席科學家李飛飛表示,技術偏見“如人類文明一樣由來已久”,而且存在于諸如剪刀、扳手這類普通事物當中。她解釋說:“幾個世紀以來,剪刀都是由右撇子的人設計的,而且使用它的人大多都是右撇子。直到有人發現這一偏見,才意識到人們有必要設計供左撇子使用的剪刀。”全球人口中僅有約10%是左撇子,作為人類的一種天性,占主導地位的多數人群往往會忽視少數人群的感受。

事實證明,人工智能系統最近所犯的最為明顯的過錯也存在同樣的問題。我們可以看看俄羅斯科學家利用人工智能系統在2016年開展的選美大賽。為參加競賽,全球有數千人提交了自拍照,其間,計算機根據人們臉部對稱性等因素來評價其美貌程度。然而,在機器選出的44名優勝者當中,僅有一名是深色皮膚。這一結果讓全球輿論嘩然,競賽舉辦方随後将計算機的這一明顯偏見歸咎于用于培訓電腦的數據組,因為數據組中的有色人種的照片并不多。計算機最終忽視了那些深色皮膚的人的照片,并認為那些淺膚色的人更加漂亮,因為他們代表着多數人群。

這種因忽視造成的偏見,在人工智能系統中尤為普遍。在這些系統中,圖片識别是培訓過程的重要組成部分。此類算法空白在線上選美比賽中看起來可能是微不足道的事情,但葛布魯指出,此類技術可能被用于更加高風險的場景。葛布魯說:“試想一下,如果一輛自動駕駛汽車在看到黑人後無法識别,會出現什麼後果。想必後果是非常可怕的。”

葛布魯的觀點激起了不小的浪花。微軟和IBM均表示,公司已采取針對性的措施來完善其圖片識别技術。盡管這兩家公司拒絕透露其舉措的詳情,但正在應對這一問題的其他公司則讓我們窺見了如何利用科技來規避偏見。

亞馬遜在部署用于篩除腐爛水果的算法時,公司必須解決抽樣偏見問題。人們通過研究大量的圖片數據庫來培訓視覺辨認算法,其目的通常是為了識别,例如,草莓“本應”具有的模樣。然而,正如你所預料的那樣,與完好漿果光鮮亮麗的照片相比,腐爛漿果的照片相對較少。而且與人類不同的是,人工智能系統傾向于不計算或忽視它們,而人類的大腦則傾向于注意這些異常群體,并對其做出強烈反應。

亞馬遜的人工智能總監拉爾夫·荷布裡奇解釋道,作為調整,這家在線零售巨頭正在測試一項名為“過采樣”的計算機科學技術。人工智能工程師可通過增加不具充分代表性的數據的統計學權重,來主導算法的學習方式。在上述案例中便是腐爛水果的照片。結果顯示,培訓後的算法更為關注變質食物,而不是數據庫中可能建議的食品關聯性。

荷布裡奇指出,過采樣也可被應用于分析人類的算法(然而他拒絕透露亞馬遜在這一領域的具體案例)。荷布裡奇說:“年齡、性别、種族、國籍,這些都是特别需要測試采樣偏見的領域,以便今後将其融入算法。”為了确保用于識别人臉照片的算法不會歧視或忽視有色、老齡或超重群體,人們可以為此類的照片增加權重,以彌補數據組存在的缺陷。

其他工程師正專注于進一步“追根溯源”——确保用于培訓算法的基本數據具有包容性,且沒有任何偏見。例如,在圖形識别領域,在錄入計算機之前,人們有必要對用于培訓人工智能系統的數百萬張圖片進行審核和标記。數據培訓初創企業iMerit首席執行官雷德哈·巴蘇解釋,公司遍布于全球的1400多名訓練有素的員工會代表其客戶,以能夠規避偏見的方式對照片進行标記。iMerit在印度的員工可能會覺得咖喱菜不是很辣,而公司位于新奧爾良的員工可能會認為同樣的菜很辣。iMerit會确保這兩條信息均被錄入這道菜照片的标記中,因為僅錄入其中的一個信息會讓數據的精确性打折扣。在組建有關婚姻的數據組時,iMerit将收錄傳統的西式白婚紗和多層蛋糕圖片,同時還會收錄印度或非洲精心策劃、色彩絢麗的婚禮。巴蘇表示:“良好的倫理政策不僅僅包含隐私和安全,還涉及偏見以及我們是否遺漏了某個觀點。”而找出這個遺漏的觀點已被更多科技公司提上了戰略議程。

然而,在這一代更加多元化的人工智能研究人員進入勞動力市場之前,大型科技公司已然将人工智能系統融入其産品。而且即便頂級研究人員越發意識到該技術的缺陷,并承認他們無法預知這些缺陷會以什麼樣的方式展現出來,他們仍然認為人工智能技術在社會和金融方面的效益,值得他們繼續向前邁進。

臉書高管坎德拉說:“我認為人們天生便對這種技術的前景持樂觀态度。”他還表示,幾乎任何數字技術都可能遭到濫用,但他同時也指出:“我并不希望回到20世紀50年代,體驗當時落後的技術,然後說:‘不,我們不能部署這些技術,因為它們可能會被用于不良用途。’”

确實,很少有人依然持有“人工智能絕對可靠”的觀點,這是一個進步。谷歌前任人工智能公共政策高管蒂姆·黃指出,在互聯網時代初期,科技公司可能會說,他們“隻不過是一個代表數據的平台而已”;如今,“這一觀點已經沒有市場”。

(留痕摘自财富中文,www.fortunechina,〔意〕馬爾科·馬裡倫戈圖)
   

熱門書籍

熱門文章