减弱器

龙芯中科研究报告自主创新水平最高CPU

发布时间:2022/10/11 20:33:36   
治疗皮肤病专科医院 http://news.39.net/bjzkhbzy/180424/6188146.html

(报告出品方/作者:申万宏源研究,黄忠煌、杨海燕)

前言

龙芯中科主营业务为处理器及配套芯片的研制、销售及服务。区别于使用国外授权主流x86和ARM架构的公司,龙芯从建立之初强调“自主创新”,最新产品3A/3B处理器是基于自研的LoongArch架构。公司目前已经全面掌握CPU指令系统、处理器IP核、操作系统等计算机核心技术,打造自主开放的软硬件生态和信息产业体系。公司基于信息系统和工控系统两条主线,产品在电子政务、能源、交通、金融、电信、教育等行业领域已获得广泛应用。公司年实现营业收入12亿元,其中工控类芯片、信息化类芯片、解决方案分别占比24.61%、54.71%、20.68%。从业务占比变化看,年开始信息化类芯片实现大幅度增长,主要系3A系列产品性能成倍提升,对虚拟化、安全机制等方面的支持加强,更加符合目前已进入快速增长阶段的关键信息基础设施领域的应用需求。

公司实控人系胡伟武、晋红夫妇,中科院计算所间接持股21.52%。胡伟武、晋红夫妇通过持股平台合计控制公司33.61%表决权,胡伟武担任公司董事长、总经理。国资部分,中科院计算所通过中可算源持股21.52%,北京市政府通过北工投持股7.17%。持股平台涉及员工共人,绑定公司利益。公司目前有天童芯源、芯源投资、天童芯正、天童芯泰、天童芯民5个持股平台,其中员工持股比例为30.42%。

胡伟武带领团队研制中国首款通用CPU,脱离体制艰苦创业。胡伟武先生获得中科院计算所计算机系统结构专业工学博士,历任计算所博士生导师、总工程师等职务。-年,实验室开拓积累,主要靠国家经费。年,胡伟武团队利用万元经费做出了龙芯的原型系统,在此后一年时间成功研制出中国首款通用CPU,终结了中国计算机只能进口通用CPU的历史。-年,课题组先后得到了中科院知识创新工程、、、核高基等项目支持,总共花费约4亿元国家经费。年-至今,主动投入市场,建立正向循环。胡伟武带领课题组绝大多数技术骨干主动离开体制,转型开始市场化运作,从“专家实验室认证”正式向“市场认证”过渡。年,由于国家重大专项资助重心偏移,自主通用CPU的支持力度减弱,“专用高性能”的路线使龙芯陷入危机,龙芯真正开始深入客户和市场,开拓小而散的工控市场,于年营收破亿元,实现盈亏平衡。年开始,龙芯在信息系统和工控系统同步推进产品迭代,不断拓展应用领域。从学院派到做产品,龙芯已经证明完成了转变,年实现年产万颗CPU成绩。

人员方面,伴随业务规模快速增长,用工人数增长较快,截至年末,公司研发技术人员占比超过65%。

1.龙芯CPU自主创新程度最高,布局最可持续

1.1CPU自主创新认知是进阶过程

在信息技术体系的主要依赖链中,我国目前在应用和整机的部分“上层建筑”中已经具备较强的实力,应用层面有腾讯、金山办公等全球知名厂商,整机层面包括联想、浪潮信息等全球领先企业。然而从操作系统、CPU层级向下的“地基”部分却长期依赖进口。若想实现完全自主创新,长期看还是需要深入到“根技术”——指令系统,否则依然会被在其他阶段“卡脖子”。

年以前,对CPU国产化讨论和探索一直存在,但是基本局限于“专用高性能”方向发展,对通用性探索较少。Intel从20世纪80年代开始与IBM及微软合作,占领了PC和服务器端通用CPU全球的绝大多数市场,高利润率使Intel有持续的大量的科研经费投入,不断甩开竞争对手。就国内基础来看,CPU的复杂程度极高,前期需要的投入巨大,且产品可能难以望其项背,学术界和产业界多数人认为自研显然不如外购划算。

年之后,我国逐步开始对通用CPU的探索。Windows的漏洞可能导致系统可靠性问题,年的“棱镜门事件”推动去“IOE”,年以来的美国“实体清单”影响,年的俄乌冲突中,OpenBLAS等开源社区提议终端俄罗斯境内部分产品的适配,即使是开源社区都是有国界的。

国产化的意义不仅是应对“断供”风险,还出于对安全的考虑,防范CPU中的“后门”。“后门”是指能够绕过正常的安全机制的方法,通常是设计者有意安排,被认为是“有意设下的秘密通道”。“后门”的方式是通过CPU的设计者未公开的接口收集用户信息甚至实现恶意控制。年,安全领域BlackHat会议上《HardwareBackdoorsinX86CPU》披露了威盛公司C3处理器的一个后门,存在一条未公开的指令,可以使程序突破正常的安全限制,获得最高权限,威盛公司并未正面回应是否为有意为之。

国产CPU的“后发劣势”明显,在“十五”期间启动发展国产CPU的泰山计划,年正式启动的“核高基专项”才让国产CPU快速发展。在国家支持下,孵化出鲲鹏、飞腾、龙芯、兆芯、海光、申威等一批优质国产CPU公司。

1.2国产CPU的三条道路,龙芯自主创新水平最高

当前,国产CPU公司走出三条不同的道路,核心区别在于选择何种架构以实现国产化需求:

1)X86架构:兆芯、海光。此种模式属于IP内核授权的模式,目前是仅内核层级的授权,优点是技术门槛低、性能起点高、没有生态壁垒,缺点是自主创新的程度低,且购买授权的成本较高。以这条路线发展,不存在生态壁垒,在技术上通过不断迭代逐步缩小差距。AMD是采用这种方式获得市场,但是这种购买授权的方式,没有从根本上解决自主创新的需求,市场上一些激进的声音甚至认为使用X86的不能称为“自主芯片”。

2)ARM架构:飞腾、鲲鹏。此种模式为指令集架构授权,自主化程度相对较高,ARM主要有三种授权等级:其中指令集层级授权等级最高,企业可以对ARM指令集进行改造以实现自行设计处理器,此前海思、飞腾已经获得ARMV8永久授权,ARM此前确认ARMv9架构不受约束,华为海思依然可获授权。以这条路线发展,存在较高的技术门槛,ARM架构目前在桌面和服务器端的生态远不如X86,在前期的国产化替代中,应用到核心系统的案例较少。指令集架构的永久授权,一定程度上满足了自主创新的需求,依然存在未来更新版本被断供的风险。

3)MIPS、LoongArch等自主架构:龙芯、申威。此种模式是自主研制的指令集,高度自主创新,但是技术门槛最高,生态构建极其困难。龙芯在前期使用买断MIPS的架构,现阶段已经切换到纯自主的LoongArch;申威目前在专用高性能方面比较突出,通用CPU探索较少。从自主创新程度而言,龙芯是自主创新程度最高的国产CPU。

指令集“断供”风险并不是“杞人忧天”,日本CPU曾因Intel“断供”而一蹶不振。日本在历史上的CPU水平仅次于美国,犯下的致命问题就是只重视CPU产品而忽视了生态的主导权。生产兼容CPU仅是美国公司的追随者,无法绕开授权障碍。在日本公司贡献力量将x86推广成“世界通用标准”后,年在处理器即将上市之际,Intel断供日本的32位CPU授权,从此日本的CPU产业便失去发展。指令集就是个标准规范,成果形式就是一份文档。相比于CPU设计需要多年积累,指令集可能几个月就能完成。但是世界上主流的指令集不超过10个,主要就是生态问题。软件开发是高成本的工作,高质量的软件销售价格很容易超过计算机硬件,软件厂商面对新的指令集时,很难有动力为其投入成本。

高端CPU的指令集已经比较复杂,远远超过简单CPU,往往需要上百条甚至更多指令。其中像电源管理、安全机制、虚拟化、调试接口这次额技术,设计指令集时必须和CPU内部架构、操作系统进行统筹考虑。设置需要把CPU、操作系统原型都开发出来,经过长期测试验证才能保证指令集的设计达到完善程度。没有强大的技术和资源积累,是没有办法支撑的。LoongArch与年4月15日正式发布,从顶层规划到各指令部分的功能定义,再到细节上每条指令和每个寄存器的编码、名称、含义,全部自行设计。LoongArch指令系统已经通过中国电子信息产业发展研究院的知识产权评估,认定其与ARM、MIPS、X86等为不同的指令系统设计。LoongArch充分考虑兼容现有生态,融合了国际主流指令系统的主要功能。依托龙芯团队在二进制翻译技术方面的十余年研究,能够把现有龙芯计算机上应用程序的二进制无损自动翻译到LoongArch,并支持多种国际主流指令系统(x86、ARM等)的高效二进制翻译。

作为过渡,二进制翻译可以直接将x86和ARM上的软件在LoongArch的CPU中运行,从而拓展更多用户,促使更多软件厂商出于用户更佳的体验,开发LoongArch架构的软件,再吸引更多用户。LoongArch是充分考虑兼容需求的自主指令集,是发展独立自主的产业体系的根基。龙芯中科从年起新研的CPU均支持LoongArch架构。年推出全新CPU产品——龙芯3A是首款采用LoongArch的芯片。

基于目前国产CPU替代市场的主要特征,我们认为,使用X86和ARM架构的国产CPU,现阶段性能和生态相对较好,短期内可充分受益于信创相关政策,两种架构可以在不同场景下实现互补,尤其是在服务器端可以有突出表现,但中长期看受外部影响较大,还是存在较大的不确定性;使用自主架构的国产CPU,生态建立虽然需要一定的时间,但是要实现完全自主创新目标,必然要将自主深入到“CPU/操作系统——BIOS/编译器/CPU核心——指令系统“的每一层,建立在非自主架构上的自主产品,只能作为”缓兵之计“在短期发展。因此,中长期看,龙芯为代表的自主架构通用CPU有望实现党政及特殊领域的大面积甚至全面替代。(报告来源:未来智库)

1.3龙芯“步步为营”布局方式最可持续

龙芯的主要业务分为两部分:处理器及配套芯片、解决方案。处理器及配套芯片:龙芯CPU主要包括龙芯1号、2号、3号三个产品线,其中1号、2号面向工控系统,3号面向信息系统及少量高端工控系统:龙芯1号用在嵌入式、物联网领域,特点是性能简单、功耗低,通常集成1个32位低功耗处理器核;龙芯2号主要用在工业控制、网络设备领域,特点是性能适中、接口丰富;通常集成1-4个64位低功耗处理器核;龙芯3号主要用在台式计算机、服务器、笔记本计算机上,特点是性能强、核数多;通常继承4个及以上64位高性能处理器核。配套芯片包括桥片及正在研发尚未实现销售的电源芯片、时钟芯片等:桥片主要与龙芯3号系列处理器配套使用和销售,电源芯片和时钟芯片主要与龙芯2号、龙芯3号系列处理器配套使用。

年之前,国产CPU需求尚未释放,工控芯片成为早期“现金牛”。工控芯片已在多个关键领域验证及应用,持续渗透是大势所趋。国内上百家主要工控和网络安全设备厂商推出了基于龙芯CPU的工控和网安产品,包括工业PC、工业服务器、工业存储设备、DCS、PLC、交换机、路由器、防火墙、网闸、网络监测设备、数据加密通信设备等。已经规模应用和开展验证的场景包括发电、输变电、石油管道、轨道交通、高速公路ETC系统、船舶运输控制系统等重大关键领域。据公开资料,北斗卫星搭载了龙芯1E、1F两款芯片;中石油等将龙芯1H耐高温芯片应用到钻井平台项目中;龙芯2K应用于多款和国产数控机床;龙芯2J也在军事领域中得到广泛应用,是目前性能最高、设计最复杂的军用CPU。龙芯CPU还应用于打印机、环境监测设备、智能门锁、跑步机等。

工控类芯片:量稳定增长,单价受产品结构影响下降。主要原因为工控类芯片以龙芯2号系列芯片为主,龙芯2号系列部分产品对其应用场景的环境要求较高,需要一定的工艺水平以及较高的测试要求,因此其销售单价较高。随着工控类芯片中1号系列芯片的应用逐渐丰富,被广泛应用于加密卡、远程数据采集、智能门锁、打印机等终端设备,销售数量提升,拉低了销售单价。

信息化类芯片率先在政务、金融发力,验证后的替换空间是真正的“星辰大海”。跟随“信创”步伐,基于龙芯CPU的台式机、笔记本、一体机和服务器设备在电子政务办公信息化系统中充分验证,金融领域开始试点。其中,政务领域的计算机与服务器出货量已达到百万级,金融领域的解决方案(ATM机、银行自助设备等)已经推出十几套。如果说之前的动力是“信创”,现在在已知产品性能逐渐提升接近领先水平的前提下,已经得到验证满足需求的国产CPU,未来将会成为关键的信息基础设施领域的“主动选择”。

毛利率略有波动,也佐证工控类芯片“现金牛”作用。公司工控类芯片主要是龙芯2号,其对场景要求较高,长期耕耘建立一定壁垒,毛利率基本维持在75%以上;信息化类芯片的毛利率略有下降,年为44.61%,略低于海光信息的整体毛利率(由于海光信息主营业务基本对应龙芯的信息化类业务,故将整体毛利率与之对比),我们认为主要原因系龙芯3A实现指令集切换,短期内还处于测试验证环节,预计年即可实现放量拉动整体毛利率小幅提升。

-年产销率提升,佐证信息化类芯片已经接力成长。年产销率较低主要由于1C芯片当期入库数量较多,因此拉低了年当期产销率。该款芯片单价较小,总金额较小,并且已于年实现批量销售(截至年6月末库存金额仅为17.51万元),对公司经营业绩不构成重大影响。年以来,随着下游市场的快速拓展,公司产销率大幅上升,两年各期产销率均超过90%。

信息化类芯片:量在年实现爆发增长,21年处于新架构磨合期,单价趋于合理,变动主要与产品迭代相关。

量:年实现爆发增长,21年处于新架构磨合期。年、年,随着3A系列芯片产品的推出,产品性能得到进一步提升,公司全面开展办公与业务信息化应用的推广,信息化类芯片销售数量的大幅增长;年下半年信息化类芯片向3A系列切换,由于3A系列使用LoongArch指令系统,整机厂商和操作系统厂商需要时间磨合,形成规模增长预计需要一定时间,因此当年信息化类芯片销售量略有下滑。

价:有所下降,趋于合理。-年,3A系列产品推出,3A系列产品价格下降;同时为了进一步开拓日趋成熟并进入快速增长阶段的电子政务领域的市场,3A系列产品推出时的平均销售单价略低于3A系列产品推出时的平均销售单价;年,随着公司3A系列产品推出,3A系列产品价格下降,3A处于磨合期销量有限,单价拉动效果不明显。信息化类芯片中,桥片等配套芯片的销量占比提高,而配套芯片的平均单价显著低于3号系列芯片的平均单价,导致公司信息化产品单价整体下降。桥片占比提高也能证明龙芯产品整体性能结构的完善,更多以板卡的形式整体出售,有助于提升毛利率。

2.架构+技术+生态,龙芯差距在哪里

2.1横向:国产CPU性能差距、生态差距均存在

首先需要明确,高端通用CPU是高度复杂的集成电路,开发团队至少是上百人,从设计到生产有精细的分工,研制流程相当复杂,每个步骤都需要经验丰富专业技术人员,对学历和实践背景要求较高,我国前期的高校计算机人才培养重视软件和应用层面,对于计算机体系结构的人才培养相对欠缺;其次,高端自主CPU具有“小投入,净亏损;大投入,无收益;超大投入,大收益”的特点,没有国家支持的科研团队前期积累,很难作为一个企业从头做起,因此具有很高的门槛。

具体到CPU产品来看,国产CPU与全球领先水平有哪些方面差距?我们认为主要包括:

1、单核性能不行还是核数不够多?目前国产CPU的关键问题还是在于单核的性能较弱。Intel还在做4核产品的时候,国内核高基计划就已经实现了8核产品的研制,但是整体性能完全劣后于Intel同期产品。

2、工艺不行还是设计能力不行?目前国产CPU的主要差距在于设计能力上。以Intel和完全自主的龙芯对比,Intel在nm工艺就做到了主频3.8G,而龙芯的3A0在同等工艺和核数前提下,主频只有1G,如果将Intel产品降到1G,性能是龙芯的5倍。纵向对比看,同样以龙芯为例,其第二代产品3A在没有提升主频的前提下,通过设计能力的改进,性能提升了2.5倍;3A提升至28nm制程后,主频提升至1.5G,性能提升1.6倍;3A在原工艺基础上,通过设计提升性能2倍;3A提升至14nm制程,性能提升1.6倍;目前在研的3A,据龙芯介绍,其性能已经达到了Intel在14nm的性能水平。从纵向发展历程来看,相同工艺条件下,设计能力提升带来的产品性能提升十分显著,在fabless模式下,设计能力的差距显得尤为重要。总结来看,工艺水平对性能有较大影响,在相同设计水平上,能带来20%-30%的稳定提升,但是更为重要的设计水平,能给产品带来一倍以上的性能提升。

3、产品性能完全决定用户体验?产品性能是影响用户体验的重要因素,但是系统优化同样重要。例如,在年iPad就风靡全球,但当时的CPU性能只有Intel的1/2到1/3左右,但是用户体验和评价都很好,就是得益于苹果的系统优化。而国产CPU由于积累不够,即使在产品性能已经能满足某些重点领域信创的要求的情况下,用户体验依然比Intel差一些。

性能差距只是外在表现,我们认为造成这种差距的内因,主要有以下几点:1、微架构设计能力存在显著差距。所谓微架构,即在指令集架构体系之内的一种结构设计,是CPU内部晶体管的一种排列方式,属于指令集架构体系的框架之内,例如Intel的Icelacke、Broadwell。Intel和AMD不断更新微架构,实现性能的不断迭代提升,国产CPU的微架构在乱序执行、高速缓存、多核互联等技术上,由于起步较晚,都与先进水平有一定差距。

2、定制化水平差导致精细度不足。Intel针对特定领域和客户,会采用高度定制化的设计,例如人工设计版图、采用锁存器Latch替换触发器flipflop、全定制设计关键单元等方案。定制化的实现需要多年的技术积累和人力投入,目前国产CPU很难实现,基本还是采用传统的EDA工具生成版图和做版图优化的方式,精细度远低于定制化产品。

3、使用通用EDA(ElectronicDesignAutomation)工具缺乏协同。全球EDA软件市场中,美国产品份额超过95%,“三巨头”即Synopsys、Cadence、Mentor。Intel等欧美大厂许多都有自研的EDA工具或拓展,以及成熟的flow,设计过程中出现的问题可以与EDA部门直接协同解决,显著提升了设计效率和设计能力,不断拓展边界,而国产CPU厂商目前普遍采用的是外购的EDA工具,缺少与设计工具的协同,且国产EDA工具竞争力较弱,这一环节也难以实现自主创新。

4、与Foundry配合不够密切。在生产模式上,Intel是典型的IDM厂商,AMD虽然是Fabless厂商,但与之前分拆出去的GlobalFoundries保持密切联系,两者都能实现设计与制造环节的密切配合与协同。国产CPU由于起步晚、规模小以及国内芯片制造能力弱,都是Fabless模式,难以与Foundry实现密切配合,限制了产品技术发展的速度。

落后的软硬件生态系统是制约国产CPU发展的另一瓶颈。X86是目前桌面和服务器领域的绝对主流架构,所以选用X86架构的受影响最小,可以直接使用Windows系统及软件,ARM架构的生态在全球范围内逐渐完善,而使用自主架构的面临巨大挑战。生态系统很重要的一点是能够吸引全球程序员共同参与的各类应用软件开发的盈利模式、知识产权分享机制等制度安排。CPU设计需要耗费大量时间和人力开发编译器,芯片流片成功后,还需要移植Linux内核、Android系统等,后期系统的软件也涵盖了驱动层、中间层到应用层,还需要不断针对这种架构进行迭代优化。前期即使大量投入,如果软件上适配和推广不足,销量受限,软件开发者便会激励不足,用户更少,引起恶性循环,商业模式便会出现问题。

2.2纵向:龙芯3代产品迭代,单核性能提升10倍

龙芯经历了3代产品的迭代,产品性能提升逐步提升。每一代产品在国际通用的CPU计算性能测试集SPECCPU、访存性能测试集STREAM上的分值都得到了显著变化。

龙芯中科成立至今的10年时间里,单核性能提升了10倍以上。年的龙芯3A0,其实单核分值只有2.7分;年发布的龙芯3A提升到21.1分,已经从“能用”转变为“好用”;年发布的龙芯3A提升到25分以上。通过大幅度提升通用处理能力,龙芯计算机运行应用程序的体验明显改善。根据相关机构测试,在龙芯3A0计算机上打开20MB的Office文档需要33秒,而在龙芯3A计算机上不到1秒就能打开。龙芯在设计能力通过积累实现跨越。龙芯3A和龙芯3A工艺相同,但是龙芯3A的性能比龙芯3A提升了一倍。这是龙芯20年来优化经验积累的成果。龙芯3A、3C在年推出,主频超过2.5GHz,单核性能接近30分,一个芯片最多包含16个处理器核,支持四至十六路服务器,具备高端服务器的商业竞争力。与龙芯3A相比,SPECCPU性能提升50%以上、STREAM性能提升40%以上、Unixbench性能提升%以上。龙芯3A整体性能实现了全面超越。

除了自身的产品性能稳定提升,国际领先水平的提升放缓,给了公司快速追赶的绝佳时机。回顾年至今的商业CPU市场,性能提升呈现“慢—快—慢”的现象。摩尔定律、Tick-Tock模型共同带来了-年的快速提升,现阶段则是“挤牙膏”式的缓慢提升。

主要原因有三个点:

1)缺少爆发式的应用新需求。年以前,个人计算机和服务器的快速增长带动了CPU性能的提升,包括20世纪90年的多媒体、音视频、PC端游戏;年开始出现的互联网应用、更高级的桌面用户体验等。人们需要两三年更换计算机,以便更好的处理这些应用,而在年以后,PC应用基本定型,除了特殊的游戏、视频剪辑等需求外,普通的CPU足以应对。CPU的提升主要聚焦于手机和云计算领域,但是不再是

转载请注明:http://www.aideyishus.com/lkgx/1882.html

------分隔线----------------------------