近年的工作中，对于硬件加速器的优化有着各种各样的角度，举几个学术界热门的工作来说，TPU从处理单元阵列（PE Array）层次出发，将Systolic Array架构及其数据流引入DNN加速器中；Eyeriss同样对数据流进行优化，提出了Row Stationary数据流以提升能效；而在电路层次的优化中，打破冯-诺依曼结构的存内计算（In-memory Computing）无疑是最具代表性的方向之一；除此之外，还有许多学者从编译器角度出发，针对不同的硬件target进行优化。

压缩算法

贝叶斯压缩深度学习

https://blog.csdn.net/weixin_39373480/article/details/89425040

模型量化

压缩之量化

https://blog.csdn.net/jinzhuojun/article/details/106955059 使用半结构化 (2:4) 稀疏性加速神经网络训练pytorch https://pytorch.ac.cn/blog/accelerating-neural-network-training/ 利用 NVIDIA 安培结构和 NVIDIA TensorRT 加速稀疏推理 https://developer.nvidia.com/zh-cn/blog/accelerating-inference-with-sparsity-using-ampere-and-tensorrt/

网络稀疏性

神经网络稀疏综述 https://www.cnblogs.com/sasasatori/p/17809829.html https://mp.weixin.qq.com/s/Zbp0r9s2Pj5fukxKByaf3g

https://www.bilibili.com/video/BV1ht4y1P73i/?spm_id_from=333.999.0.0&vd_source=bc07d988d4ccb4ab77470cec6bb87b69

Quartz 4

Explorer

quant

压缩算法

贝叶斯压缩深度学习

模型量化

压缩之量化

网络稀疏性

Graph View

Table of Contents

Backlinks