2023-10-25
IBM Research 日前推出 AI 芯片 NorthPole,该芯片灵感号称“来自人类大脑的运作”,推论性能据称超越 4nm GPU,适用于边缘计算等范畴。
笔者经过查询得知,NorthPole 芯片是 IBM 曾在 2014 年“模拟人脑运作”的 TrueNorth 芯片的后继者,芯片开发同样由 TrueNorth 芯片负责人 Dharmendra Modha 所主导。
据悉,在传统的半导体产业中,芯片主要遵循相同的基本架构,处理单元与储存信息是相互分开的,这种架构虽然简化了芯片设计模式,却也因传输速度赶不上处理速度而出现了“冯・诺伊曼瓶颈(von Neumann Bottleneck)”,而 Dharmendra Modha 则认为,人脑是目前所知最节能的处理器,因而持续寻找以数字方式复制人脑的方法。
IBM 目前推出的 NorthPole 芯片,相对于传统芯片最大的不同点在于“芯片内置存储器”,在没有“冯・诺伊曼瓶颈”的情况下,NorthPole 芯片的 AI 推论能力优于市面上竞品。
虽然 NorthPole 采用 12nm 工艺,于 800 平方毫米上安置了 220 亿个晶体管,拥有 256 个核心,于 8-bit 精度下每核心每个周期可执行 2048 次操作,若是在 4-bit 或 2-bit 精度下,操作次数则可翻倍。
▲ 搭载 NorthPole 的 PCIe 卡,图源 IBM
在具体架构上,NorthPole 号称模糊了运算与存储间的界线,这让 NorthPole 容易整合至系统,且明显减少了搭载芯片的设备负载。
IBM Research 在 ResNet-50 模型上测试 NorthPole,相较于同样基于 12nm 工艺的 GPU 竞品,NorthPole 每秒辨识帧数的能效是竞品的 25 倍,而且不管是在延迟或运算空间的要求上,表现都优于市面上所有主流架构,甚至凌驾基于 4nm 工艺的 GPU。
不过,NorthPole 的优势同时也是它的弱点所在,NorthPole 只能轻松读取集成在芯片中的本地数据信息,读取外界数据时,便没有计算速度优势。
Dharmendra Modha 声称,虽然 NorthPole 无法用来承载 GPT-4,但应该可满足许多企业所需的模型推论要求。
目前 IBM Research 仍在研究 NorthPole 的适用领域,研究人员许多需要即时处理大量资料的边缘计算可能非常适合 NorthPole,例如自动驾驶、遥感通信等领域,NorthPole 均有用武之地。
相关文章