美國公司稱研發(fā)世界最大芯片,借此誕生120萬億“大腦級”AI模型
來源:DeepTech深科技
在近日的 Hot Chips 大會上,美國芯片公司 Cerebras 的 CEO 安德魯·費爾德曼(Andrew Feldman) 展示了他們號稱的世界第一個人腦級 AI 解決方案,將192 個CS-2 集群在一起,實現(xiàn)的神經(jīng)網(wǎng)絡擁有120萬億個連接量。
在近日的 Hot Chips 大會上,美國芯片公司 Cerebras 的 CEO 安德魯·費爾德曼(Andrew Feldman) 展示了他們號稱的世界第一個人腦級 AI 解決方案,將192 個CS-2 集群在一起,實現(xiàn)的神經(jīng)網(wǎng)絡擁有120萬億個連接量。
這相當于人類大腦中的突觸數(shù)量。
安德魯·費爾德曼表示,這項技術使目前最大的人工智能神經(jīng)網(wǎng)絡的規(guī)模擴大了 100 倍。
與 Cerebras 合作的阿貢國家實驗室的副主任里克·史蒂文斯(Rick Stevens)對此評價道:“過去幾年向我們表明,對于 NLP 模型來說,參數(shù)越多,結果就越好。Cerebras 的發(fā)明將提高 100 倍的參數(shù)容量,它有可能改變行業(yè)。我們將首次能夠探索人腦大小的模型,開辟了廣闊的研究和洞察的新途徑。”
Cerebras CS-2,地球最快人工智能處理器
在這項技術中發(fā)揮重要作用的 CS-2 是什么?
CS-2 專為超級計算任務而構建,這是自 2019 年以來,Cerebras 公司第二次推出基本上是整個晶圓的芯片。
芯片制造商通常從直徑為 12 英寸的硅錠中切片晶圓,再在芯片工廠中加工。一旦加工,晶圓被切成數(shù)百個單獨的芯片,可分別用于電子硬件。
但 Cerebras 用整個晶圓制作了一塊巨大的芯片。芯片的每一塊被稱為 "核心",都以復雜的方式與其他內核互連。互連旨在保持所有內核高速工作,以便晶體管可以協(xié)同工作。
CS-2擁有 46225 mm2 面積的硅、2.6 萬億個晶體管和 85萬個 AI 優(yōu)化內核,全部包裝在單個晶圓大小的 7nm 處理器上。
首個人腦級 AI 解決方案解鎖四項創(chuàng)新
Cerebras 的聯(lián)合創(chuàng)始人兼首席硬件架構師肖恩·烈(Sean Lie)在會議上詳細介紹了首個人腦級 AI 解決方案所涉及的技術。
此前,谷歌研究人員在 1 月份宣布,他們已經(jīng)培訓了一個總共擁有 1.6 萬億參數(shù)的模型,大約是人腦比例的 1%,即大約 1 萬億個突觸等價物或參數(shù)。這些圖形處理器群只消耗了人類大腦的一小部分,卻消耗了數(shù)英畝的空間和兆瓦的功率,而且需要專門的團隊來操作。
為了解鎖極端尺度模型的潛力,Cerebras 意識到需要一種新的方法來解決同時擴展大量內存、計算和通信的挑戰(zhàn)。
Cerebras 的新技術組合包含四項創(chuàng)新:Cerebras Weight Streaming,一種新的軟件執(zhí)行架構;Cerebras MemoryX,一種內存擴展技術;Cerebras SwarmX,高性能互連織物技術;Selectable Sparsity,一種動態(tài)的稀疏收獲技術。
肖恩·烈介紹道,Cerebras 決定處理傳統(tǒng)上分配內存、計算和通信以及同時同步所有內存等復雜的、相互交織的問題,并將它們分解。能夠這樣做的原因是,神經(jīng)網(wǎng)絡對模型計算的不同組件使用不同的內存。這種模式解鎖了獨特的靈活性,允許模型大小和訓練速度的獨立縮放,大大簡化了縮放問題。
在這種模式下,將模型權值存儲在一種名為 MemoryX 的新內存擴展技術中,并根據(jù)需要將權值流到 CS-2 系統(tǒng)中,以計算網(wǎng)絡的每一層,一次一層。在向后傳遞時,梯度被反向流回 MemoryX,在那里及時執(zhí)行權重更新,以用于下一次迭代的訓練。
在這個拓撲結構中,還引入了一種名為 SwarmX 的互連結構技術,可以為極端規(guī)模的模型近線性地擴展 CS-2 系統(tǒng)的數(shù)量。
除了擴展能力和性能,Cerebras 的架構獨特地為稀疏神經(jīng)網(wǎng)絡提供了巨大的加速。這些技術對于實現(xiàn)極端規(guī)模的實際應用至關重要,因為傳統(tǒng)的架構并不能加速這些稀疏網(wǎng)絡。另一方面,Cerebras 的架構使用細粒度的數(shù)據(jù)流調度來觸發(fā)有用工作的計算,這能夠節(jié)省功率和實現(xiàn) 10 倍的重量稀疏性加速。
對于研究人員來說,這種體系結構是無縫的:用戶只需為單個 CS-2 系統(tǒng)編寫神經(jīng)網(wǎng)絡映射,而 Cerebras 軟件在用戶的擴展中負責執(zhí)行,消除了傳統(tǒng)的內存分區(qū)、協(xié)調和同步。
林利集團(Linley Group)高級分析師、《微處理器報告》(The Microprocessor Report)高級編輯邁克·德姆勒(Mike Demler)表示:“他們可以將培訓的可擴展性提升到巨大的層面,超越目前任何人正在做的事情。”
CS-2 系統(tǒng)的核心,WSE-2(the Wafer Scale Engine Two),可以接受標準 PyTorch 和 Tensor Flow 代碼,這些代碼很容易被公司的軟件工具和 API 修改。Cerebras 還允許客戶指導級別訪問硅,這與 GPU 供應商形成鮮明對比。
據(jù)安德魯·費爾德曼說,Cerebras 計劃通過瞄準一個新興的市場來擴展大型自然語言處理人工智能算法,目前已經(jīng)與 OpenAI 公司的工程師進行了交談,該公司在舊金山率先將大型神經(jīng)網(wǎng)絡用于語言學習以及機器人和游戲。
OpenAI 的創(chuàng)始人之一薩姆·奧特曼(Sam Altman)是 Cerebras 的投資者。當被問及一個 100 倍大的 GPT 版本是否一定更聰明時,薩姆·奧特曼表示,“很難確定,但對此持樂觀態(tài)度”。
(聲明:本文版權歸原作者所有,轉發(fā)僅為更大范圍傳播,若有異議請聯(lián)系我們修改或刪除:wang@cgbtek.com)