国产精品1-国产精品1000部在线观看-国产精品1024香蕉在线观看-国产精品1024永久免费视频-国产精品1024在线永久免费

新聞中心

首頁 > 新聞中心> 公司新聞

如何才能讓AI芯片跟上算法的速度?

發布時間:2022-08-04發布人:

如何才能讓AI芯片跟上算法的速度?



圖片
圖片

AI行業的難題之一:

AI芯片跟不上算法的速度

圖片
圖片


早在2019年斯坦福大學就有報告指出,AI對算力需求的速度要快于芯片的發展速度。“在 2012年之前,AI的發展與摩爾定律的遵循度極高,計算能力每兩年翻一番,但2012年之后,AI的計算能力每3.4個月就翻一番。”


當通用處理器算力跟不上 AI 應用的需求,針對 AI 計算的專用處理器便誕生了,也就是常說的“AI 芯片”。自2015年AI算法在視覺識別方面超越人類分數,業界對AI芯片關注度大增,也因此帶動了相關IP技術的發展,加快了下一代處理器和存儲器的速度,實現了更高的帶寬接口,從而緊緊跟上AI算法的步伐。圖1顯示了自2012年引入反向傳播和現代神經網絡,并與NVIDIA的重型計算 GPU 引擎相結合后,AI典型錯誤率呈現肉眼可見的降低。


image.png

圖 1:在 2012 年引入現代神經網絡后,AI分類錯誤迅速減少,2015年起低于人類錯誤率


隨著AI 算法日益復雜,無法在專為消費類產品設計的 SoC 上執行,需要使用修剪、量化等技術對齊進行壓縮,從而減少系統需要的內存和計算量,但這樣就會影響準確性。所以工程上面臨一個挑戰:如何實施壓縮技術而不影響AI應用所需的精度?


除了AI算法復雜性的提升之外,由于輸入數據的增加,推理所需的數據量也急劇增長。圖 2 顯示了優化后的視覺算法所需的內存和計算量。該算法設計為相對較小的 6MB 內存占用空間(SSD-MobileNet-V1 的內存要求)。在這個特定示例中,我們可以看到,隨著像素大小和顏色深度的增加,最新的圖像捕獲中的內存要求已從 5MB 增加到 400MB 以上。


目前最新的三星手機CMOS圖像傳感器攝像頭支持高達108MP。理論上,這些攝像頭在30fps和超過1.3GB 內存下可能需要40 TOPS的性能。但ISP中的技術以及 AI 算法中特定的區域,無法滿足這些要求,40 TOPS性能尚無法在手機上實現。但通過此示例能看出邊緣設備的復雜性和挑戰,并且也正在推動傳感器接口IP的發展。MIPI CSI-2 具有專門的區域來解決這個問題,MIPI C/D-PHY 繼續增加帶寬,以處理驅動數億像素的最新 CMOS 圖像傳感器數據。


圖 2:隨著輸入像素增大,SSD-MobileNet-V1 的內存變化測試


如今的解決方案就是壓縮AI算法,壓縮圖像,這就使得芯片優化變得極其復雜,尤其是對于內存有限、處理量有限且功耗預算較小的 SoC。


AI行業難題二:AI芯片評估面臨挑戰


AI芯片廠商通常對會其芯片進行一些基準測試。現在的SoC有多種不同的衡量指標。首先,每秒萬億次運算 (TOPS) 是性能的一個主要指標,通過這項數據可以更清楚地了解芯片能力,例如芯片可以處理的運算類型和質量。再者,每秒推理數也是一個主要指標,但需要了解頻率和其他參數。因此,行業內開發了額外的基準測試來幫忙AI 芯片進行評估。


MLPerf/ML Commons和AI.benchmark.com都是AI芯片標準化基準測試的工具。其中,ML Commons 主要提供芯片精度、速度和效率相關的測量規則,這對了解芯片處理不同 AI 算法的能力非常重要,如前所述,在不了解精度目標的情況下,我們是無法在芯片進度與壓縮程度之間做取舍的。此外,ML Commons還提供通用數據集和最佳實踐。


位于瑞士蘇黎世的 Computer Vision Lab 還提供移動處理器的基準測試,并發布其結果和芯片要求以及支持重復使用的其它信息。包括 78 項測試和超過180 個性能方面的基準。


斯坦福大學的DAWNBench為ML Commons的工作提供了支持。這些測試不僅能解決 AI 性能評分問題,還解決了處理器執行 AI 算法訓練和推理的總時間問題。這解決了芯片設計工程目標的一個關鍵問題,即降低整體擁有成本或總擁有成本。AI 處理時間,決定了云端 AI 租賃或邊緣計算的芯片所有權,對于組織的整體 AI 芯片策略更有用。


另一種流行的基準測試方法,是利用常見的開源圖形和模型,但這些模型也有一些弊端。例如,ResNET-50 的數據集為 256x256,但這不一定是最終應用中可能使用的分辨率。其次,該模型較舊,層數少于許多較新模型。第三,模型可以由處理器 IP 供應商手動優化,但這并不代表系統將如何與其他模型一起執行。除了ResNET-50之外,還有大量可用的開源模型,通過它們可以看到該領域的最新進展,并為性能提供良好的指標。


最后,針對特定應用的定制圖形和模型變得越來越普遍。理想情況下,這是對 AI 芯片進行基準測試,以及合理優化以降低功耗和提高性能的最佳方案。


由于SoC開發者各有不同的目標,有些是應用于高性能領域,有的是用于較低性能的領域,還有的是通用AI領域,以及ASIC領域。對于不知道需要按照哪種 AI 模型進行優化的 SoC,自定義模型和開放可用模型的良好組合,可以很好地指示性能和功耗。這種組合在當今市場中最常用。然而,在 SoC 進入市場后,上述較新的基準測試標準的出現,似乎在比較中具有一定的相關性。


圖片
圖片

邊緣AI芯片設計之前的評估尤為重要

圖片
圖片


現在越來越多的數據計算在邊緣發生,鑒于邊緣優化的復雜性,當今的 AI 解決方案必須協同設計軟件和芯片。為此,它們必須利用正確的基準測試技術,同時還必須有工具支持,從而使設計人員能夠準確探索系統、SoC 或半導體 IP 的不同優化方式,調查工藝節點、存儲器、處理器、接口等。


在這方面,新思科技可針對特定領域提供有效的工具,來對 IP、SoC 和更廣泛的系統進行模擬、原型驗證和基準測試。


首先,新思科技HAPS? 原型驗證解決方案通常用于展示不同處理器配置的能力和權衡。該工具能夠檢測出除了處理器之外, AI 系統的帶寬在什么情況下開始成為瓶頸?傳感器輸入(通過 MIPI)或存儲器訪問(通過 LPDDR)在處理不同任務時的最佳帶寬是多少?


再一個,新思科技ZeBu? 仿真系統可用于功率模擬。ZeBu Empower可采用AI、5G、數據中心和移動SoC應用的真實軟件工作負載,在數小時內完成功耗驗證周期。此仿真系統已被證明優于 AI 工作負載的模擬和/或靜態分析。


用戶還可以通過新思科技的 Platform Architect 探索 SoC 設計的系統層面。Platform Architect 最初用于內存、處理性能和功耗探索,最近越來越多地用于了解 AI 的系統級性能和功耗。使用預構建的LPDDR 、ARC處理器模型用于 AI、存儲器等,可以進行靈敏度分析,以確定最佳設計參數。


新思科技擁有一支經驗豐富的團隊,負責開發從 ASIP Designer 到 ARC 處理器的 AI 處理解決方案。包括內存編譯器在內的經過驗證的基礎 IP 產品組合已廣泛應用于 AI SoC。AI 應用的接口 IP 范圍從傳感器輸入到 I3C 和 MIPI,再到通過 CXL、PCIe 和 Die to Die 解決方案的芯片到芯片連接,以及通過以太網的網絡功能。


圖片
圖片

總結

圖片
圖片


軟件和芯片協同設計已經成為現實,選擇正確的工具和專業知識至關重要。新思科技正在利用專業知識、服務和成熟的IP,為客戶提供最適合的方法,在不斷變化的情況下優化 AI 芯片。



聲明:本文版權歸原作者所有,轉發僅為更大范圍傳播,若有異議請聯系我們修改或刪除:zhangkai@cgbtek.com



主站蜘蛛池模板: 欧美日本综合| 泰国一级毛片aaa下面毛多| 欧美 国产 日韩 第一页| 综合婷婷| 一级毛片一级毛片免费毛片| 永久视频在线观看| 伊人色综合琪琪久久社区| 国产又粗又黄又湿又大| 性做爰片免费视频毛片中文ilo| er久99久热只有精品国产| 国产综合福利| 久久视频国产| 青青青国产依人在在线观看高| 亚洲三级成人| 最新的国产成人精品2022| 一级国产20岁美女毛片| 五月开心六月伊人色婷婷| 亚洲毛片网站| 亚洲综合资源| 成人特黄午夜性a一级毛片| 欧美三级视频| 欧美在线观看成人高清视频| 国产欧美日韩精品一区二区三区 | 国产精品福利在线| 黄视频在线播放| 4444在线网站| riav久久中文一区二区| 国产乱码精品一区二区| 一区二区三区免费视频网站| 日本在线日本中文字幕日本在线视频播放| 亚洲一卡二卡三卡| 亚洲欧美一区二区三区九九九| 伊人99在线观看| 农村高清性色生活片| 国产美女主播一级成人毛片| 香蕉欧美| 金发欧美一区在线观看| 美女性高潮视频| 香蕉视频色| 国产精品美女在线观看| 国产精品自拍亚洲|