首頁 > 人文

阿里自研CPU大規模應用!芯雲合體重塑算力體系

由 智東西 發表于 人文2023-02-02

簡介今天,倚天710雲實例再次升級“CIPU+飛天”,透過晶片、作業系統、計算架構以及上層應用的協同最佳化,雲計算的整體效能和價效比均得到大幅提升

棟棟拐表示什麼數字

阿里自研CPU大規模應用!芯雲合體重塑算力體系

智東西(公眾號:zhidxcom)

作者 | 李水青

編輯 | 漠影

智東西11月3日杭州報道,今日,在2022雲棲大會上,阿里雲智慧總裁張建鋒宣佈,阿里平頭哥自研雲原生處理器倚天710已大規模部署應用,成為中國首個雲上大規模落地的自研CPU。

作為阿里首款自研伺服器CPU,倚天710自去年10月推出以來已落地了資料庫、大資料、影片編解碼等多個場景。張建鋒說,應用倚天710雲實例,算力價效比提升超30%,單位算力功耗降低60%,未來兩年20%的新增算力將使用自研CPU。

阿里自研CPU大規模應用!芯雲合體重塑算力體系

▲阿里雲智慧總裁張建鋒

當下,算力成為像水力、電力一樣重要的生產要素,雲計算已融入到人們生產生活的方方面面。如何進一步提高算力效率以滿足數字化轉型需求?這成為全球科技公司關注的議題。

晶片、作業系統和上層應用的原生融合已是大勢所趨,未來十年,軟硬體一體化的自研技術體系或將成為算力攻堅突破的關鍵。縱觀阿里技術發展脈絡,其已從軟體深入到硬體,並涉足技術門檻極高的通用CPU領域。

在當下CPU領域,流片不再稀奇,能規模化落地的“好用”處理器卻不多。倚天710的規模化落地無疑再度重新整理網際網路公司造芯的天花板水平。

那麼倚天710是如何在推出一年多快速落地的?這又如何影響阿里乃至算力產業的發展道路?本文對此進行了深入探討。

一、自研CPU大規模落地,價效比提升30%

2022年科技圈的主題是產業落地,在2022雲棲大會現場,關於倚天710的新訊息印證了這一趨勢。

創立於中國廣州的匯量科技是一家營銷SaaS企業,為全球超95個國家客戶提供服務。匯量科技首席AI官朱小強說:“隨著廣告模型結構不斷升級,線上推理模型請求引數變多,我們對CPU效能和內網頻寬要求更高,倚天710雲實例很好地滿足了我們業務升級的需求,實現了降本與增效。”據悉,其在引入倚天710雲實例後,CPU效能和內網頻寬均實現提升,綜合性價比提升40%以上。

在去年10月的2021阿里雲棲大會上,倚天710正式推出,這是阿里第一顆為雲而生的CPU,使阿里成為繼亞馬遜、華為後,全球第三家擁有自研Arm伺服器晶片的雲計算廠商。

倚天710單片容納高達600億個電晶體,在全球權威CPU基準測試集SPECint2017上,倚天710的分數達到440,超出業界標杆20%,能效比優於業界標杆50%以上,能有效幫助資料中心節能減排。

阿里自研CPU大規模應用!芯雲合體重塑算力體系

在倚天710推出不久後的2021年“天貓雙11”,技術立馬遭遇極限考驗。

眾所周知,“天貓雙11”創造了全社會一年的流量高峰,高併發對算力的效能、穩定性要求極高。阿里將淘寶核心交易系統遷移至基於倚天710的例項,根據其官方資料,這一替換使得算力價效比提升了30%。

電商業務的應用只是一個開始。阿里在全球管理著超過150萬臺伺服器,隨著自研CPU的誕生,其已在阿里資料中心規模化部署,進而支援儲存、資料庫、大資料、影片雲等多個行業。

今年,倚天710的落地步伐加快,透過阿里雲輸出,倚天710提供的算力也從內部走向了外部各行各業。據稱,中國一些知名的科學計算、智慧手機行業和網際網路等領域的企業在遷移至倚天710雲實例後,價效比均得到了顯著提升。

這意味著倚天真正成為中國首個雲上大規模應用的自研CPU,倚天710不僅能用,而且好用。

二、攻克落地難題,芯雲融合潛力巨大

倚天710的成功絕不輕易。

當下,科技企業湧入硬體創新賽道漸成趨勢,但選擇征戰通用處理器技術的玩家屈指可數。

近年來,Arm陣營在英特爾、AMD主導的x86伺服器市場劃開了一道口子。Arm於2018年推出了專為雲資料中心打造的伺服器處理器,而基於Arm架構,目前只有亞馬遜等幾家大公司及少數獨立CPU公司推出了頂級效能的雲端通用處理器。

研發一顆高效能的通用伺服器晶片本身就極具技術挑戰,但這僅僅是系列挑戰的開始。要真正實現晶片的大規模應用落地,還要克服眾多技術難題。

在這個過程中,技術團隊需要針對場景做深度最佳化,讓其適配不同的軟體及應用生態。比如,需要提供多語言和多作業系統遷移工具,並且“打樣”最佳實踐,讓使用者願意嘗試,以最小的工作量完成遷移適配。

阿里技術團隊在作業系統層面做了大量最佳化,完成主流業務關鍵元件的完全適配,使用者進行業務遷移需要改動的程式碼量是——0。

能做到這樣的極致效果,背後是倚天710為雲而生的設計理念。為雲而生,當然更易被雲所用。

雲場景經常有高併發、高效能和高能效的算力需求,因此倚天710被設計成可提供極致物理核效能的處理器,並且透過單個物理核獨享快取,有效提升效能穩定性和可預期度,讓使用倚天710雲實例的計算服務,能持續輸出更穩定算力。

生於雲、用於雲,倚天710雲實例的大規模應用,證明了阿里所選擇的這條芯雲深度融合的算力攻堅之路,走得通,行得遠。

阿里自研CPU大規模應用!芯雲合體重塑算力體系

三、算力升維賽打響,阿里亮出新王牌

知名行研機構IDC預測,未來五年全球算力規模增速將超50%,到2025年整體達到3300EFlops(每秒33萬億億次浮點運算)。

算力需求的爆發,對技術提出更高挑戰。

回顧現代算力產業發展歷程,從大型機、小型機、PC、移動終端到雲計算,背後,人們對算力的需求也從早期僅需發個資訊,變為發圖文、看影片、實時通話等。在可以預見的未來,自動駕駛、元宇宙、人工智慧需求將推動新一波算力升維賽。

算力產業正進入一個軟體定義、硬體加速的新階段。這場算力升維賽,既比拼從底層硬體到上層IaaS、PaaS、SaaS的資料傳輸和計算效率,又比拼雲與大量和多樣化的邊緣、端側的協同融合能力。

面向這一趨勢,從本次阿里雲棲大會我們看到,阿里的新王牌,正是“飛天+CIPU+倚天710”驅動的一個全新的計算體系。

阿里自研CPU大規模應用!芯雲合體重塑算力體系

追溯整個體系的起點,還要從2009年飛天的第一行程式碼說起。

彼時,國內依舊沒有自己的算力系統,IOE(IBM小型機、Oracle資料庫、EMC儲存)架構下企業只能不斷擴大采購規模。飛天的誕生讓算力成為一種可線上獲取的資源,分散式替代了傳統集中式架構,也從而拉開了中國企業自研雲計算的序幕。

2013年,飛天排程的伺服器數量突破5000臺大關,標誌著早期的算力底座正式落成。基於此,阿里雲成功應對十多年“雙11”和“12306”春運購票等極限併發場景挑戰,不斷拓展雲計算的效能邊界,連續多年穩居亞太第一、全球前三。

隨著數字經濟的蓬勃發展,企業對上雲提出了強算力、低時延、高頻寬的新需求,僅靠軟體及系統層面的最佳化已無法滿足。因此,阿里開始深入硬體,從神龍到CIPU,完成系列突破。

CIPU釋出於2021年6月,是為阿里雲飛天作業系統設計的專用處理器。CIPU相當於是雲計算的CPU,在上面跑的是飛天雲作業系統,進而形成了雲上的統一虛擬資源池,並供客戶使用雲上算力。無論是分散式應用還是AI場景測試中,“CIPU+飛天”都展現出了更優越的效能。

今天,倚天710雲實例再次升級“CIPU+飛天”,透過晶片、作業系統、計算架構以及上層應用的協同最佳化,雲計算的整體效能和價效比均得到大幅提升。

算力攻堅13年,阿里已成長為實打實的硬科技公司。張建鋒說,阿里雲將堅持技術長征,面向下一代體系去構建第二技術曲線,抓住未來技術的定義權。

阿里自研CPU大規模應用!芯雲合體重塑算力體系

Tags:710算力倚天阿里CPU