了解更多信息,請聯(lián)系:
7月16日-19日,第五屆RISC-V中國峰會在上海張江科學(xué)會堂成功舉辦。峰會期間,中國數(shù)字EDA/IP龍頭企業(yè)上海合見工業(yè)軟件集團(tuán)有限公司(簡稱“合見工軟”)攜手合作伙伴開芯院進(jìn)行聯(lián)合演講,用實(shí)際案例詮釋了EDA工具如何破局高性能RISC-V多核芯片驗(yàn)證效率的痛點(diǎn),讓大家看到國產(chǎn)EDA在推動RISC-V產(chǎn)業(yè)落地、協(xié)同創(chuàng)新方面的硬核突破與生態(tài)活力。
賦能“香山”高性能開源RISC-V處理器大型系統(tǒng)構(gòu)建
在峰會期間舉辦的“EDA分論壇”上,合見工軟驗(yàn)證產(chǎn)品市場總監(jiān)曹夢俠與北京開源芯片研究院高級工程師李賢飛,共同做題為《面向高性能RISC-V多核處理器的硬件驗(yàn)證方法學(xué)-香山昆明湖16核完整系統(tǒng)的大級聯(lián)FPGA系統(tǒng)驗(yàn)證實(shí)踐》的報(bào)告。

▲北京開源芯片研究院高級工程師 李賢飛

▲合見工軟驗(yàn)證產(chǎn)品市場總監(jiān) 曹夢俠
昆明湖是“香山”系列處理器的第三代架構(gòu),面向服務(wù)器、數(shù)據(jù)中心等高性能計(jì)算場景設(shè)計(jì),支持64核,性能對標(biāo)ARM Neoverse N2。通過全球首個開源大規(guī)模片上互聯(lián)網(wǎng)絡(luò)(NoC)IP溫榆河,支持12*12網(wǎng)格最大支持256個處理器互聯(lián)。李賢飛指出,昆明湖多核CPU架構(gòu)對于驗(yàn)證提出多方面挑戰(zhàn):
- 一是規(guī)模大:多核CPU系統(tǒng)包含復(fù)雜的總線、多級緩存和DDR4、UART等接口 ,邏輯規(guī)模遠(yuǎn)超單片F(xiàn)PGA容量。傳統(tǒng)FPGA平臺資源不足,且手動分割設(shè)計(jì)的方式困難且極易出錯,Porting周期極長。
- 二是性能要求高:目標(biāo)是在FPGA上實(shí)現(xiàn)足夠高的運(yùn)行速度(最終目標(biāo)10MHz),從而運(yùn)行操作系統(tǒng)并進(jìn)行有意義的軟硬件協(xié)同驗(yàn)證。
- 三是調(diào)試?yán)щy:需要保障16核緩存一致性、總線完整及高負(fù)載下調(diào)度優(yōu)化。同時,需要快速定位和復(fù)現(xiàn)因跨核交互、緩存一致性等引起的深層次Bug。缺乏專用調(diào)試工具,問題定位慢。
“與合見工軟合作之前,香山系列多核CPU驗(yàn)證亟須大規(guī)模FPGA平臺與自動化工具鏈。”李賢飛說。正是在這樣的挑戰(zhàn)之下,促成與合見工軟展開合作。繼雙方2024年“香山”第二代南湖架構(gòu)驗(yàn)證項(xiàng)目后的技術(shù)成果發(fā)布之后,如今第三代昆明湖架構(gòu)合作成果的發(fā)布標(biāo)志著雙方攜手探索大型處理器驗(yàn)證技術(shù)突破的再次升級。
據(jù)曹夢俠介紹,在“香山”第二代“南湖”及第三代“昆明湖”處理器開發(fā)和軟件生態(tài)系統(tǒng)優(yōu)化中,成功應(yīng)用了合見工軟的全場景驗(yàn)證硬件系統(tǒng)UniVista Unified Verification Hardware System(簡稱“UVHS”),顯著提升了開發(fā)效率。
合見工軟UVHS硬件驗(yàn)證平臺的優(yōu)勢體現(xiàn)在如下方面:
- 高性能與大容量:UVHS作為一款商用級全場景驗(yàn)證硬件系統(tǒng),具備高性能和大容量的特點(diǎn),能夠滿足大規(guī)模ASIC/SOC軟硬件驗(yàn)證的需求。
- 智能化自動分割技術(shù):該技術(shù)可將大型系統(tǒng)快速編譯移植,將多核設(shè)計(jì)分割到多片F(xiàn)PGA上,自動化程度高,簡化了工程師的手動工作,提高了驗(yàn)證效率。
- 自動化的代碼移植和編譯全流程:最大化減少用戶從ASIC代碼移植到FPGA工程的人力成本,提供從RTL到Bitfile的自動化流程。
- 高運(yùn)行性能:基于Xilinx新型FPGA平臺,UVHS的全局時序驅(qū)動智能自動分割技術(shù)可顯著提升運(yùn)行性能,縮短軟件運(yùn)行時間,優(yōu)化軟件開發(fā)項(xiàng)目周期。
- 大規(guī)模系統(tǒng)級聯(lián)能力:支持大系統(tǒng)級聯(lián),最多可級聯(lián)上百億邏輯門規(guī)模,已成功部署實(shí)現(xiàn)最大160片VU19P FPGA的級聯(lián),為RISC-V大型系統(tǒng)擴(kuò)展提供可靠技術(shù)支撐。
- 豐富的接口和存儲模型:提供PCIe Gen5、MIPI CSI2/DSI2、Ethernet 1G-800G等多種高速接口,以及DDR5、DDR4、LPDDR5、LPDDR4、HBM3等存儲模型,幫助用戶快速搭建完整驗(yàn)證場景。
- 強(qiáng)大的調(diào)試功能:支持UHD無限深度波形調(diào)試、觸發(fā)、異步寄存器讀回等功能,類似仿真方式的波形調(diào)試功能,顯著提高調(diào)試效率和問題定位能力。
其中,UVHS Compiler的智能化自動分割技術(shù)發(fā)揮了關(guān)鍵作用。

“香山”處理器的靈活擴(kuò)展性需要將大的多核設(shè)計(jì)能夠分割到多片F(xiàn)PGA上。UVHS Compiler的智能自動分割技術(shù)將整個過程完全自動化,同時其強(qiáng)大的時鐘轉(zhuǎn)換引擎可自動處理設(shè)計(jì)內(nèi)多路異步時鐘,大幅簡化了工程師的手動工作,更容易將為ASIC設(shè)計(jì)的RISC-V RTL代碼快速遷移到FPGA平臺,“香山”的雙核RTL代碼導(dǎo)入時僅用不到一周時間即實(shí)現(xiàn)了UVHS上的Linux OS啟動。
基于昆明湖多核CPU驗(yàn)證項(xiàng)目的經(jīng)驗(yàn)總結(jié),合見工軟提出了“四步走”的系統(tǒng)化多核處理器 FPGA驗(yàn)證方法論,涵蓋從設(shè)計(jì)移植到系統(tǒng)調(diào)試的完整流程,為RISC-V多核驗(yàn)證提供了標(biāo)準(zhǔn)化路徑:
- 1-設(shè)計(jì)移植與適配 (Porting): 建立了ASIC-to-FPGA的自動化適配流程,包括時鐘樹、存儲模型、接口IP轉(zhuǎn)換的標(biāo)準(zhǔn)化處理方法。
- 2-編譯迭代效率與資源優(yōu)化使用的最大化平衡:向大規(guī)模設(shè)計(jì),在資源占用率與高效率編譯迭代之間動態(tài)取舍,尋找最大化的收益平衡點(diǎn)。
- 3-漸進(jìn)式啟動策略 (Bring-up): 創(chuàng)新提出了核數(shù)逐步擴(kuò)展的驗(yàn)證策略,結(jié)合單核到多核的系統(tǒng)復(fù)雜度梯度,有效降低了系統(tǒng)調(diào)試難度。
- 4-軟硬協(xié)同調(diào)試技術(shù) (Debug): 基于硬件仿真與后門加載技術(shù)的協(xié)同調(diào)試方案,精準(zhǔn)解決系統(tǒng)啟動故障,并實(shí)現(xiàn)內(nèi)核加載速度量級突破。
在合見工軟UVHS硬件平臺的強(qiáng)大助力下,該項(xiàng)目產(chǎn)生三方面成果:
- 一是實(shí)現(xiàn)多版本全自動化編譯流程:在項(xiàng)目初期移植階段做完基礎(chǔ)的移植工作后,后續(xù)的編譯流程由UVHS工具自動化完成,包括時鐘轉(zhuǎn)換、自動分割、TDM IP綁定等關(guān)鍵工作。后續(xù)設(shè)計(jì)進(jìn)版迭代,復(fù)用前套的自動化流程,省掉很多額外工作。
- 二是性能目標(biāo)全面達(dá)成:
-
- 單核/雙核/4核/8核版本CPU主時鐘均能穩(wěn)定運(yùn)行在15MHz,為針對不同應(yīng)用場景的性能評估和軟件開發(fā)提供了高速驗(yàn)證平臺。
- 16核完整版本CPU主時鐘穩(wěn)定運(yùn)行在10.2MHz,超越原定10MHz目標(biāo)。
- 項(xiàng)目首次在FPGA原型驗(yàn)證平臺上,完整運(yùn)行一個未經(jīng)裁剪的、可啟動OS的16核高性能昆明湖RISC-V處理器系統(tǒng)。
- 相比傳統(tǒng)方法,整體驗(yàn)證效率提升約40%,大幅縮短產(chǎn)品上市時間。
- 三是構(gòu)建一套靈活的多用戶驗(yàn)證環(huán)境:項(xiàng)目開發(fā)了兼容16核DB和多個4核DB的boardfile,使驗(yàn)證平臺能夠靈活切換配置;驗(yàn)證平臺可以被靈活劃分為多個獨(dú)立的4核系統(tǒng),供4個不同軟件或算法團(tuán)隊(duì)同時并行使用,大大提高了開發(fā)效率;一套硬件既能用于16核的系統(tǒng)級攻關(guān),也能用于多團(tuán)隊(duì)的日常開發(fā),大幅提升了硬件資源的利用率。
不僅如此,合見工軟新技術(shù)-自研FPGA綜合器UVSyn,對比FPGA自帶綜合器實(shí)現(xiàn)了多項(xiàng)指標(biāo)提升,帶來了資源優(yōu)化、性能提升、編譯效率提升。
- 資源優(yōu)化:LUT總量從4840萬降低到4264萬,節(jié)省11.9%關(guān)鍵資源,使設(shè)計(jì)布局更加靈活。
- 性能提升:時鐘頻率從8.8 MHz提升至10.2 MHz,增加15.0%,成功突破項(xiàng)目目標(biāo)。
- 編譯效率提升:編譯時間從41小時縮短至35小時,效率提升14.6%。

對于雙方后續(xù)項(xiàng)目工作展望,李賢飛表示,將在驗(yàn)證效能深化、更大規(guī)模設(shè)備擴(kuò)展、更多核心場景驗(yàn)證等方面繼續(xù)推進(jìn)。后續(xù)溫榆河片上網(wǎng)絡(luò)與昆明湖架構(gòu)的深度融合,將推動更大規(guī)模的32核至百核級眾核系統(tǒng)的驗(yàn)證突破。同時,也希望EDA廠商開發(fā)更多支持CPU核心之外驗(yàn)證場景的特性,如UPF低功耗、DPA動態(tài)功耗驗(yàn)證等。此外,開芯院希望與EDA廠商協(xié)同推動RISC-V驗(yàn)證方法學(xué)標(biāo)準(zhǔn)化的工作,在工具鏈進(jìn)化、生態(tài)建設(shè)等方面,促進(jìn)產(chǎn)業(yè)鏈各方高效協(xié)作,加速 RISC-V產(chǎn)業(yè)的健康發(fā)展。
EDA協(xié)同推動RISC-V國產(chǎn)化落地加速
昆明湖16核處理器突破10.2MHz驗(yàn)證性能,展示了合見工軟 UVHS全場景驗(yàn)證平臺的實(shí)戰(zhàn)成果,不僅為客戶芯片研發(fā)提供了從 “設(shè)計(jì)構(gòu)想” 到 “高效落地” 的硬核支撐,也勾勒出 RISC-V產(chǎn)業(yè)生態(tài)協(xié)同的創(chuàng)新范式。
未來,合見工軟將始終將客戶需求為先,通過自研創(chuàng)新,進(jìn)一步提升芯片全場景驗(yàn)證的能力水平,通過與客戶協(xié)同攻關(guān),為客戶提供匹配其產(chǎn)品定義和技術(shù)路線,更加高效、可靠的驗(yàn)證解決方案,助力客戶實(shí)現(xiàn)驗(yàn)證效率瓶頸的突破,為RISC-V產(chǎn)業(yè)落地加速賦能。
關(guān)于合見工軟
上海合見工業(yè)軟件集團(tuán)有限公司(簡稱“合見工軟”)作為自主創(chuàng)新的高性能工業(yè)軟件及解決方案提供商,以EDA(電子設(shè)計(jì)自動化,Electronic Design Automation)領(lǐng)域?yàn)槭紫韧黄品较?,致力于幫助半?dǎo)體芯片企業(yè)解決在創(chuàng)新與發(fā)展過程中所面臨的嚴(yán)峻挑戰(zhàn)和關(guān)鍵問題,并成為他們值得信賴的合作伙伴。
了解更多詳情,請?jiān)L問ecbaby.cn。