Facebook用數十億張Instagram上傳的照片來訓練AI

記者洪聖壹／台北報導

相較於 Facebook 來說，Instagram分享圖片、影音更為簡便，而且使用環境更為單純，這使得人們願意在該平台分享圖片，而在 F8 開發者大會的第二天，Facebook 談到有關圖像辨識技術時，說明他們使用人們在Instagram分享的數十億張照片來訓練圖像辨識模組。

其實這些數據訓練的模型對於所有科技公司來說都非常普遍，而Facebook面臨的挑戰除了隱私，更多的是如何整理這數十億圖片的相關內容，好比說在 35 億張Instagram照片當中，分類超過17,000個標籤。

在 F8 第二天的會議當中，Facebook 向開發者們說明了他們是如何處理了數十億張 Instagram 照片。首先，這些照片被用戶標註了標籤，接著 Facebook 要能夠辨識哪些主題標籤是同義詞，同時還要學習將更具體的主題標籤優先於更一般的主題標籤，最終這些主題標籤將被訓練成大規模的標籤預測模組，接著再使用這些模組來訓練他們自己的圖像辨識模組。

Facebook 表示，他們每天依靠數百台全天候運行的GPU來解析這些數據，目前已經獲得的成果已經超過業界在圖像辨識的標準，其中最好的成果在 ImageNet 上已經達到了 85.4％的準確度，這個數據甚至比起 2017 年 Google、微軟公司公開的相關數據還要好上 1% ~2%。

談到關鍵的隱私問題，Facebook 表示，這些圖像的用途在於辨識跟標籤之間的關聯性，而標籤是來自公開、可用的主題標籤，對他們來說，這是一種用數十億圖像積累和培訓軟體的形式，如果照片本身沒有標籤，即使機器再厲害，也無法辨識。簡單的說，Facebook 認為他們只在這些公開的標籤當中提取基於圖像的相關數據，並不一定要從照片內容中推斷用戶行為。

無可厚非的，這些都代表著一件事，當人們使用 Instagram 分享照片時，不管你願不願意，你每天在 IG 上傳的照片都正在為 Facebook 的深度學習技術做出貢獻。