刪過幾十億個賬號,facebook的人工智能是怎么培養(yǎng)出來的?
2020-03-14 21:00來源:
原標題:刪過幾十億個賬號,facebook的人工智能是怎么培養(yǎng)出來的?
對于facebook而言,如何監(jiān)督管理這個龐大的社交網(wǎng)絡(luò)已日益成為一個關(guān)乎生死存亡的問題。
facebook揭開了一項關(guān)鍵性技術(shù)的面紗,這項技術(shù)可以幫助facebook應(yīng)對最艱巨的挑戰(zhàn):清除用于垃圾廣告宣傳、虛假信息傳播等各種活動的虛假賬戶。
周三,這家互聯(lián)網(wǎng)媒體巨頭透露了一些細節(jié),解釋它如何設(shè)計出一個人工智能系統(tǒng),加以訓(xùn)練,讓它能自動準確檢測違反網(wǎng)站政策的賬戶。
隨著在世界各地面臨的監(jiān)管壓力不斷增大,對于facebook而言,如何監(jiān)督管理這個龐大的社交網(wǎng)絡(luò)已日益成為一個關(guān)乎生死存亡的問題。社交網(wǎng)絡(luò)在方方面面起到的作用越來越重要,這讓公眾和立法者都感到措手不及,尤其對平臺上的仇恨言論、網(wǎng)絡(luò)霸凌、網(wǎng)絡(luò)釣魚和金融欺詐行為擔(dān)憂。
五年前,facebook主要依靠用戶向人工審核員舉報來處理違規(guī)賬戶。但facebook需要處理的問題賬戶數(shù)目巨大:根據(jù)該公司最近一次公布的數(shù)據(jù),2019年第三季度,facebook屏蔽了約17億個違規(guī)賬戶。facebook社區(qū)誠信團隊的數(shù)據(jù)科學(xué)經(jīng)理博克拉·加爾鮑伊說,這還不包括一開始申請時就被facebook禁止創(chuàng)建的賬戶。facebook估計,任何時段的活躍賬戶中都有5%是假的。
依靠人工審查也會產(chǎn)生其他問題。facebook雇傭合同工來審查可疑內(nèi)容和行為,但這些合同工通常收入微薄,而且由于經(jīng)常接觸令人不安的帖子、圖片和視頻,他們的精神健康很容易出現(xiàn)問題。
2018年,facebook的創(chuàng)始人兼首席執(zhí)行官馬克·扎克伯格告訴美國國會議員,該公司可以利用人工智能處理大量有問題的內(nèi)容。但直到最近,公司的研究人員和工程師才開始取得進展。
該公司表示,得益于人工智能的幫助,2019年第三季度,facebook屏蔽的虛假賬戶中,有99.7%的賬戶在其他用戶向人工審查小組舉報之前,就已經(jīng)得到了處理。
在此過程中,facebook遇到了一個棘手的問題:它希望能夠抓住并阻止所有違反網(wǎng)站政策的行為,處理每一個虛假賬戶,同時保證不會在無意中屏蔽合法用戶。但是,如果它檢測違規(guī)行為、采取行動的標準過于寬松,會導(dǎo)致合法用戶成為受害者,而公司可能會置身于另外一場公關(guān)災(zāi)難的中心。
加爾鮑伊說,誤傷和漏網(wǎng)都要盡量減少?!斑@個權(quán)衡非常難?!彼f。
facebook社區(qū)誠信團隊的產(chǎn)品經(jīng)理布拉德·沙特爾沃思解釋說,另外一個原因是,騙子們總是在嘗試找辦法繞過facebook的防御。
facebook研發(fā)的這項機器學(xué)習(xí)技術(shù)被稱為“深度實體分類”,或簡稱為dec,其他有需要的公司也可以拿來使用,比如社交網(wǎng)絡(luò)同行、即時通訊應(yīng)用程序公司或游戲公司,丹尼爾·伯恩哈特說。他是facebook倫敦社區(qū)誠信團隊的工程經(jīng)理,參與了開發(fā)該系統(tǒng)。該公司正在公開dec的總體架構(gòu)和它的訓(xùn)練細節(jié),但沒有把訓(xùn)練過的模型提供給其他公司。
dec依賴于一些聰明的想法和工程技術(shù)。首先,facebook意識到,通過讓算法審查標準賬號的特點(如創(chuàng)建賬號的ip地址、賬戶的年齡、頁面上收獲點贊的數(shù)量、有多少關(guān)聯(lián)賬戶等)來達到訓(xùn)練效果,會導(dǎo)致篩查模型對于圖謀不軌的人太過簡單,或者造成過多誤傷。
facebook的解決方案是,不孤立地審查每一個賬戶,而是把它置于所鏈接到的所有賬戶和頁面中組成的環(huán)境中,延伸到二度分離。然后向系統(tǒng)提供聚合指標,比如全部一級和二級連接好友數(shù)量的中位數(shù),而非單個賬戶的“點贊”或“好友”等表面特征。(這些指標本身并不能說明一個賬戶是否合法。它們只是一種方法,可以大大增加模型分析的指標數(shù)量,從而構(gòu)建一個更詳細的賬戶統(tǒng)計圖。)facebook稱這些數(shù)據(jù)為“深度特征”,對于惡意行為者來說,調(diào)整這些數(shù)據(jù)更加困難,從而大大降低了誤傷或漏網(wǎng)的數(shù)量。
盡管facebook規(guī)模龐大,又雇了成千上萬名人工審查員,但facebook仍然表示,要想創(chuàng)建高質(zhì)量、經(jīng)人工標注的大規(guī)模數(shù)據(jù)庫來訓(xùn)練人工智能算法,確保它能夠按照facebook要求的99%以上的準確率檢測每種違規(guī)類型(如假賬戶、垃圾郵件發(fā)送者、金融詐騙犯或被盜賬戶),仍然極其昂貴耗時。
所以facebook第二個聰明的地方是使用一個高質(zhì)量的、人工標注的小型數(shù)據(jù)集(通常小到不適合用于訓(xùn)練高準確度深度學(xué)習(xí)算法),再加上一個更大的、電腦標注、準確性略低的數(shù)據(jù)集對前者進行優(yōu)化。這一點通過將系統(tǒng)劃分為兩個單獨的模塊來實現(xiàn)。
在第一個模塊中,facebook先將擁有單個賬號深度特征的數(shù)據(jù)集在多層神經(jīng)網(wǎng)絡(luò)上運行,多層神經(jīng)網(wǎng)絡(luò)是一種基于人腦的機器學(xué)習(xí)軟件。在這種情況下,算法必須了解哪種深度特征的范式與哪種類型的賬戶相關(guān):是普通賬戶、垃圾郵件賬戶還是釣魚賬戶?為了做到這一點,它還需要參照內(nèi)含500萬個虛假賬戶的海量培訓(xùn)樣本,這些賬戶已經(jīng)被現(xiàn)有各類不同軟件進行了粗略標注。
facebook從中提取每種賬戶類型的統(tǒng)計范式,然后將其輸入第二個模塊,利用另一種稱為梯度提升決策樹的機器學(xué)習(xí)算法,按類別——垃圾郵件、假賬戶、釣魚、霸凌等——給賬戶打分,但使用的是一組規(guī)模較小、高質(zhì)量、人工標注的訓(xùn)練數(shù)據(jù)。(以虛假賬戶為例,約有10萬個人工標注的樣本。)評分結(jié)果將決定facebook是否以及將對該賬戶采取什么行動。
最終,該系統(tǒng)在賬戶分類上的準確率達到97%以上,遠遠優(yōu)于其他方法。
編輯 ∑gemini
來源:財富
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“機電號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.
