1. 首页
  2. 生活

Arm Cortex-A76的微架构改进了什么?

近日,在Arm Tech Day 2019上,Arm计算产品事业部高级技术副总裁及研究员Peter Greenhalgh详细讲述了最新推出的Cortex-A73处理器。Peter表示,采用该方案的笔记本性能水平相当于i5,实现了中档笔记本的性能,同时只需要移动设备水平的功耗。此前,有媒体报道,A76由Arm Austin团队设计,和A57/A72一脉相承。作为比较,A73/A75是Sophia团队,A53/A55是Cambridge团队。Peter表示:“Cortex-A76采用了全新的微架构,一方面突破了理论极限的性能瓶颈,同时利用更小的面积和功耗实现了更高的性能。”该产品是目前Arm处理器家族的最顶级产品,因此所面向的市场是最为复杂的用户体验市场,包括各种富含AR/VR以及AI/ML的边缘计算应用。该产品是继Cortex-A75之后,第二款与Cortex-A55结合的DynamIQ big.LITTLE技术,提供的IP物理库包括了最尖端的节点,诸如12nm、7nm和5nm之类。在性能方面,3GHz 7nm工艺的Cortex-A76相比2.8GHz 10nm的Cortex-A75有着较大幅度的性能提升,尤其是在机器学习方面,4倍于前一代产品,同样的在性能和功耗上也分别有着35%和40%的提升,相比较以往每次20%左右的性能提升,显得诚意满满。在Arm给出的Geekbench测评中,分别针对Cortex-A73、Cortex-A75以及Cortex-A76进行整数运算性能和浮点运算性能测评。而针对笔记本的性能评测AArch64 SpecInt2K6中,7nm Cortex-A76是16nm Cortex-A73性能的两倍。除了强大的处理性能,在功耗方面Cortex-A76实现了50%的功耗降低,或者是相同功耗下40%的性能提升。Cortex-A76微架构详解

如图所示,A76和A75在整体架构上,并无太大差别,最重要的是微架构的改变,实现了更高的执行能力和带宽,具有4通道Decode和8通道Fetch。

针对前端和fetch单元,为了提高带宽降低时延,把Fetch中的预测功能单独分立,所以在实际接受指令之前就进行Branch prediction,之后在Instruction Fetch上实现了每个周期4个指令。

在Decode和Commit部分,在前端和中端保证全指令,将计算尽量向下级移动,同时提供8uops/cycle。

由于指令窗口深度变小,所以功耗也变得越低,而在正式计算上有两个ALU。在浮点计算单元Neon方面进行了全新设计,相比Cortex-A75带宽提高两倍。缓存方面,在一级缓存上将地址生成和查找表分开,保留了64K 4通道一级缓存,但是带宽从两个64位变成了两个128位接口,实现更大限度的内存并行计算。为了进一步提升内存性能,使用了第四代Prefetcher,更完美地实现Cache hit。通过TLB buffer,尽可能使用缓冲,从而降低主内存的负载,整个缓存架构设计,都是针对带宽和时延做了优化。与Cortex-A75比较,Cortex-A76在L2-L1以及L3-L2通道带宽上提高至两倍。通过以上微架构改进,使整个缓存等级结构性能有了极大提升。根据Peter给出的结果,各级缓存和DRAM上都有着不小提升。根据不同的测试,结果显示无论是频率,单线程处理及移动体验上,A76都有了不小的提升。“Cortex-A76有着移动计算环境能效,笔记本的性能水平,可为OEM创造出更多全新概念产品,预计符合Win10 always on特性的全尺寸笔记本将于2019年问世。”Peter说道。

文章来源:电子工程世界 http://www.eeworld.com.cn/

如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程世界将给大家提供更全、更详细、更新的资讯信息电子行业,EEWORLD原文链接:http://www.eeworld.com.cn/xfdz/2018/ic-news062987879.html

原创文章,作者:手帕网,如若转载,请注明出处:https://www.esp-4u.com/shenghuo/5686.html