https://www.thepaper.cn/newsDetail_forward_29818173
https://zhuanlan.zhihu.com/p/667686665
HPC: https://www.zhihu.com/question/283113478
https://news.qq.com/rain/a/20250709A01R0300
2024 互联网: https://www.isc.org.cn/article/22500319628488704.html
阿里
https://zhuanlan.zhihu.com/p/25951966646
国产 GPU
当前国产 GPU 及 AI 加速卡企业呈现快速发展态势,技术迭代加速,生态建设逐步完善,但与国际巨头相比仍存在差距。以下从主要企业发展情况、技术进展、生态建设及挑战四个方面展开分析:
一、主要企业发展现状
-
华为昇腾 昇腾系列芯片(如昇腾 910B)已实现大规模商用,FP16 算力达 376TFLOPS,性能超越英伟达 A10023。其寒武纪架构(达芬奇架构)支持多精度计算(FP32/FP16/INT8),并在自动驾驶、AI 一体机、能源等领域落地,例如武汉云部署的 DeepSeek-R1 模型。昇腾 910C 采用中芯国际 N+2 工艺,性能提升至 H100 的 60%-70%,功耗优化至 250W。生态方面,昇腾构建了从芯片、服务器到集群的全栈解决方案,并推出 MindSpore 框架和 Can 编程库,支持多平台适配 6。
-
摩尔线程 近期递交科创板 IPO,其 MUSA 架构支持 AI 计算、图形渲染、物理仿真多任务协同,是国内唯一能对标英伟达全功能 GPU 的企业 1021。消费级显卡 MTT S80 性能接近 RTX 3060,适配近千款游戏;智算卡 MTT S5000 支持万卡级集群,千卡训练效率超英伟达同代产品。2024 年 AI 智算业务占比 77.6%,但客户复购率较低,主要依赖经销商渠道 111。
-
沐曦集成电路 同样冲刺科创板,专注训推一体芯片,曦云 C500 系列 FP32 算力 15TFLOPS(A100 为 19.5TFLOPS),累计销量超 25000 颗。其 MXMACA 软件栈兼容 CUDA 生态,与联想合作推出 DeepSeek 一体机,推理性能达英伟达 L20 的 110%-130%17。但 2025 年第一大客户为经销商超讯通信,采购占比近 40%,存在压货风险。
-
壁仞科技 担任智算集群异构混训工作组组长,推出 HGCT 方案,首次实现四种异构 GPU 混合训练,千卡集群千亿参数模型训练线性加速比超 95%1314。壁砺™系列芯片支持 PCIe 5.0 和 CXL 互连,在电信、移动等场景落地,但量产规模仍待提升 22。
-
海光信息 DCU(深算系列)性能接近英伟达 A100 的 80%-90%,深算三号计划 2025 年量产,目标算力突破 200TFLOPS(FP32)1223。通过收购中科曙光整合 “芯片 + 服务器” 生态,强化政企市场竞争力 24。
-
寒武纪 思元系列芯片在云端和边缘计算领域应用广泛,与第四范式合作推出全栈式 AI 算力平台,在智慧交通、医疗等场景落地 45。2025 年一季度营收同比增长 4230%,实现扭亏为盈,但产品迭代速度落后于昇腾、摩尔线程。
-
砺算科技 自研 TrueGPU 架构的 G100 芯片(6nm)成功点亮,图形性能接近 RTX 4060,AI 算力超其 20%89。但量产进度延迟,需依赖中芯国际代工,产能存在不确定性。
二、技术进展与市场应用
- 性能提升:国产 GPU 在特定场景已接近国际水平。例如,昇腾 910B 在 FP16 算力上超越 A100,摩尔线程 MTT S5000 集群效率优于英伟达同代产品。但在通用计算(如 FP32)和显存带宽(如 HBM3)上仍有差距,例如沐曦 C500 的 INT8 算力仅为 A100 的 25%。
- 架构创新:摩尔线程 MUSA、沐曦 MXMACA、壁仞 TrueGPU 等自研架构突破传统 GPU 设计,支持异构计算和多任务协同,例如 MUSA 架构可动态分配资源处理图形与 AI 任务。
- 应用场景:
- 智算中心:昇腾 910B 在武汉城市大脑项目中,4 块芯片替代 40 块 GPU 完成千路视频分析,延时降低 50%。
- 边缘计算:寒武纪 MLU220-M.2 支持 80 路 1080p 视频实时分析,功耗仅 150W。
- 消费级市场:摩尔线程 MTT S80 以 “性能对标 RTX 3060、价格 1/3” 策略打开游戏市场,但驱动适配游戏数量仍不足英伟达的 1/100。
三、生态建设进展
-
软件生态
- 框架与工具链:华为 MindSpore 支持昇腾、GPU、CPU 多平台,模型库覆盖 CV/NLP 等领域;寒武纪 CNToolkit 提供 BANG 架构开发工具,支持 PyTorch/TensorFlow 迁移 7。
- 兼容性:摩尔线程 MUSA 兼容层可自动移植 CUDA 代码,沐曦 MXMACA 软件栈适配主流框架,但生态成熟度仍落后于 CUDA。
- 开发者社区:昇腾开发者数量超 150 万,寒武纪社区提供 SDK 和案例库,但摩尔线程、沐曦的社区规模较小,活跃度待提升。
-
合作伙伴
- 政企合作:壁仞科技与中国移动、中国电信共建异构混训标准,华为昇腾深度参与 “东数西算” 工程。
- 产业链整合:海光信息收购中科曙光,形成 “芯片 - 服务器 - 云服务” 闭环;摩尔线程与 DeepSeek 合作优化大模型训练效率。
-
政策支持 科创板 “1+6” 新政允许未盈利企业上市,摩尔线程、沐曦 IPO 进程加速,2025 年国产 AI 芯片市场份额预计达 40%19。政府通过专项补贴(如 “核高基”)和采购倾斜(如信创目录)推动国产替代。
四、挑战与未来趋势
-
核心挑战
- 技术代差:国产 GPU 在架构设计、制程工艺(如 5nm 以下)、能效比(如 H100 能效为昇腾 910B 的 2.8 倍)上仍落后国际巨头 2-3 年。
- 生态壁垒:CUDA 开发者超 500 万,而国产生态工具链覆盖场景不足 60%,迁移成本高 16。
- 产能瓶颈:中芯国际先进制程产能不足,国产 GPU 企业需与 “国家队” 争夺代工资源,量产稳定性存疑。
-
未来趋势
- 差异化竞争:企业聚焦细分市场,如华为昇腾主攻政企市场,摩尔线程拓展消费级显卡,壁仞科技深耕异构混训。
- 软硬协同:华为、海光等企业通过 “芯片 + 解决方案” 绑定客户,例如昇腾推出行业定制化一体机。
- 国际合作:部分企业探索技术授权(如砺算科技 TrueGPU 架构)或联合研发(如壁仞科技与中兴通讯),但全球化布局仍受限。
总结
国产 GPU 及 AI 加速卡企业在政策支持和市场需求驱动下,技术快速迭代,生态逐步完善,已在特定领域实现国产替代。但长期发展需突破架构创新、生态建设和产能瓶颈,同时应对国际巨头的技术封锁。未来 3-5 年将是关键窗口期,企业需在细分市场建立优势,通过 “硬科技 + 生态协同” 实现可持续发展。
行业
在 AI 大模型加速与硬件加速卡设计领域,国内多家企业已形成技术积累与市场布局,以下从技术实力、产品进展、行业地位及发展潜力等维度进行分析,为应届硕士生提供参考:
一、头部企业:技术领先,生态完善
1. 华为昇腾(华为海思)
- 核心优势:昇腾系列芯片(如昇腾 910B)已深度适配大模型训练,支持千亿参数模型端到端运行 313。其自研的 MindSpeed-LLM 加速库通过动态内存管理、通信优化等技术,显著提升训练效率,且兼容主流分布式框架(如 DeepSpeed)4。华为在国内 AI 芯片市场份额快速增长,2025 年全球份额达 2%,主要依赖国内市场实现突破。
- 发展潜力:凭借 “芯片 + 服务器 + 算法” 全栈能力,华为在智算中心、政务云等领域占据主导地位,2025 年一季度市占率达 51%19。政策支持与供应链自主可控优势显著,未来有望进一步扩大市场份额。
- 应届生机会:需具备芯片架构设计、高性能计算或深度学习框架优化经验,适合追求技术深度与行业资源整合能力的求职者。
2. 寒武纪
- 核心优势:思元系列芯片(如思元 290、370)在 HBM2 内存、多芯互联技术(MLU-Link™)上实现突破,支持云端训练与推理 56。2025 年一季度营收同比增长 4230%,首次实现盈利,显示商业化进展显著 1415。其芯片在政务云市场占据 60% 份额,并与 DeepSeek、智谱 AI 等合作,适配百亿参数模型推理 20。
- 发展潜力:技术积累深厚,但客户集中度高(前五大客户占比 94.6%),需警惕供应链风险。定增 49.8 亿元用于大模型芯片与软件平台研发,有望在细分领域持续突破。
- 应届生机会:适合擅长芯片设计、算法优化的候选人,需关注其在互联网大模型推理场景的拓展能力。
二、新兴力量:技术创新,场景聚焦
1. 摩尔线程
- 核心优势:夸娥千卡智算集群支持千亿参数大模型训练(如 LLaMA2 700 亿参数),兼容 CUDA 生态,代码迁移成本极低 2。其全功能 GPU(MTT S4000)集成四大计算引擎,可同时满足 AI 加速、图形渲染与科学计算需求,在多模态场景中具有独特优势。
- 发展潜力:作为国内唯一对标英伟达的全功能 GPU 企业,摩尔线程在千卡集群稳定性、能效比(MT-Link 带宽 112GB/s)上表现突出,已与无问芯穹、滴普科技等达成合作。未来在数字孪生、云游戏等领域应用空间广阔。
- 应届生机会:需熟悉 GPU 架构、并行计算或 AI 模型优化,适合追求技术前沿与跨领域能力的求职者。
2. 天数智芯
- 核心优势:BIAS 芯片支持 DeepSeek-R1 大模型推理,响应速度较同类方案提升 30%,并已量产天垓 100(7nm GPGPU),支持 200+AI 模型 910。其技术响应速度快,仅用一天完成与 DeepSeek 的适配,推出多款大模型一体机。
- 发展潜力:在金融、医疗等垂直领域落地案例丰富,但需关注其市场份额与头部企业的差距。7nm 工艺量产能力为其提供成本优势,未来在边缘计算与科学计算场景值得期待。
- 应届生机会:适合具备芯片设计、算法移植经验的候选人,需关注其在智算中心的规模化部署进展。
三、垂直领域:场景明确,合作稳定
1. 地平线(Horizon Robotics)
- 核心优势:征程 6 系列芯片搭载 BPU® 纳什架构,原生支持 Transformer 模型,专为智能驾驶设计,可满足 L4 级自动驾驶实时推理需求 11。其与车企合作紧密,产品已大规模量产。
- 发展潜力:智能汽车市场快速增长,地平线在车载 AI 芯片领域技术壁垒高,客户粘性强。未来可拓展至车路协同、机器人等场景。
- 应届生机会:需熟悉嵌入式系统、自动驾驶算法,适合追求行业细分领域深耕的求职者。
2. 黑芝麻智能
- 核心优势:华山 A2000 芯片采用九韶 NPU 架构,支持大模型端侧推理,能效比达行业顶尖水平,已与东风汽车合作量产中央计算平台 12。其跨域融合芯片(如 C1296)实现座舱与驾驶域数据互通,技术路线明确。
- 发展潜力:在智能汽车域控制器市场占据先发优势,且布局具身智能场景,与高校、科研机构合作紧密。需关注其在消费电子领域的拓展。
- 应届生机会:适合掌握芯片设计、多模态算法的候选人,需熟悉车规级芯片开发流程。
四、细分市场:新兴玩家,突破创新
1. 壁仞科技
- 核心优势:BR100 芯片宣称 FP32 算力 256TFLOPS,超过英伟达 H100 三倍,与浪潮合作推出低成本服务器方案 1621。其采用 Chiplet 技术,兼顾性能与良率,并计划于 2025 年赴港 IPO78。
- 发展潜力:资金充足且获上海国资支持,但需验证其在大模型训练中的稳定性与实际能效比。若量产顺利,有望在数据中心市场分一杯羹。
- 应届生机会:需具备 GPU 架构设计或高性能计算经验,适合风险承受能力较强、追求技术突破的求职者。
2. 江原科技
- 核心优势:D10 加速卡已应用于品原 AI 一体机,支持满血版 DeepSeek-R1 大模型,响应速度提升 30%,且功耗仅 72W118。升级产品 D20 计划 2025 年 9 月量产,采用双芯片架构,算力密度显著提升。
- 发展潜力:聚焦推理市场,凭借高性价比与国产化供应链优势,在企业智能化升级中快速渗透。其战略级产品 T800 采用先进工艺与封装技术,未来或成技术标杆。
- 应届生机会:适合擅长芯片设计、系统集成的候选人,需关注其在生成式 AI 场景的生态合作进展。
五、行业趋势与选择建议
-
技术路线选择:
- 通用 GPU 路线:摩尔线程、壁仞科技等企业通过兼容 CUDA 生态降低开发者迁移成本,适合追求技术通用性与跨领域应用的求职者。
- 专用 ASIC 路线:华为昇腾、寒武纪等聚焦特定场景优化,适合擅长领域深耕与性能调优的候选人。
-
市场方向:
- 智算中心与云服务:华为昇腾、天数智芯等企业在数据中心市场布局深入,需关注其算力租赁模式与规模化部署能力。
- 垂直行业:地平线、黑芝麻智能等在自动驾驶领域技术壁垒高,适合追求场景落地与行业 Know-How 的求职者。
-
风险与机遇:
- 政策支持:国产替代与自主可控是核心驱动力,华为、寒武纪等企业受益于信创项目与政府采购。
- 技术挑战:芯片设计需突破先进制程限制,软件生态建设(如算子优化、框架适配)是长期竞争焦点。
总结
对于应届硕士生,华为昇腾与摩尔线程是技术领先、发展潜力最大的选择,适合追求技术深度与行业资源的候选人;寒武纪与天数智芯在细分市场已形成竞争力,需关注其商业化稳定性;地平线与黑芝麻智能则提供明确的垂直领域发展路径。建议结合个人技术背景(如芯片架构、算法优化、系统集成)与行业兴趣,优先选择具备量产能力、生态合作广泛的企业,同时关注政策导向与技术迭代趋势,在国产替代浪潮中把握机遇。
国产 GPU
以下是摩尔线程、沐曦、壁仞、海光信息、寒武纪、燧原、灵汐等企业2023-2024 年盈利亏损情况的具体分析,结合最新财报和行业动态整理:
一、已上市企业:海光信息与寒武纪
1. 海光信息
- 2023 年:营收 60.12 亿元(同比 + 17.3%),净利润 12.63 亿元(同比 + 57.2%),毛利率提升至 53.2%67。
- 2024 年:营收 91.62 亿元(同比 + 52.4%),净利润 19.31 亿元(同比 + 52.9%),DCU 产品在服务器厂商渗透率从 5% 提升至 18%。
- 核心驱动:通过收购中科曙光整合 “芯片 - 服务器” 生态,深度绑定政企市场,2024 年合同负债达 32.37 亿元(同比 + 258.5%),订单储备充足 1。
2. 寒武纪
- 2023 年:营收 7.09 亿元(同比 - 2.7%),净亏损 8.36 亿元(亏损收窄 33.5%),研发费用占比 157.5%89。
- 2024 年:营收 11.11 亿元(2025 年 Q1 数据,接近 2024 年全年水平),净亏损收窄至约 2 亿元,2025 年 Q1 首次实现单季度净利润 3.55 亿元 5。
- 风险提示:2024 年第一大客户贡献 79.15% 收入,客户集中度极高;经营现金流仍为负(-16.18 亿元),依赖政府补贴和资本输血。
二、冲刺 IPO 企业:摩尔线程、沐曦、壁仞
1. 摩尔线程
- 2023 年:营收 1.24 亿元(同比 + 169.1%),净亏损 16.73 亿元,毛利率 25.87%23。
- 2024 年:营收 4.38 亿元(同比 + 253.2%),净亏损 14.92 亿元(亏损收窄 10.8%),AI 智算业务占比 77.6%,毛利率跃升至 72.32%。
- 关键转折:2024 年推出训推一体芯片 MTT S4000,与 DeepSeek 大模型完成适配,但客户复购率较低,依赖经销商渠道。
2. 沐曦集成电路
- 2023 年:营收 5302 万元(同比 + 12354%),净亏损 8.71 亿元,毛利率 64.27%4。
- 2024 年:营收 7.43 亿元(同比 + 1301.4%),净亏损 14.09 亿元,训推一体 GPU 板卡占比 69%,但应收账款达 4.79 亿元(占营收 64.5%),存在压货风险。
- 生态策略:自主 MXMACA 软件栈兼容 CUDA,与联想合作推出一体机,但开发者社区规模不足英伟达的 1/100。
3. 壁仞科技
- 2023 年:销售额约 2 亿元,净亏损超 10 亿元,BR100 芯片因受美国制裁量产受阻 1314。
- 2024 年:销售额 4 亿元(同比 + 100%),净亏损收窄至约 8 亿元,千卡集群在电信、移动等场景落地,但软件生态工具链覆盖场景不足 CUDA 的 50%。
- 资本动态:2024 年获国资 15 亿元融资,计划三季度港股上市,估值约 140 亿元。
三、未上市企业:燧原、灵汐
1. 燧原科技
- 2023 年:营收约 20 亿元,净亏损约 3 亿元,毛利率 30%-35%,万卡集群在庆阳、无锡等地部署 11。
- 2024 年:营收 58-60 亿元(同比 + 190%-200%),净利润 5000 万 - 1 亿元,首次实现规模化盈利,AI 智算业务占比超 80%。
- 核心优势:与腾讯深度绑定,获国家大基金二期投资,2024 年启动 A 股 IPO,投前估值 246 亿元。
2. 灵汐科技
- 2023 年:营收约 1.3 亿元,净亏损约 1.2 亿元,类脑芯片量产良率 65%,生态适配成本高企 1215。
- 2024 年:营收 2.1 亿元(同比 + 61.5%),净亏损 8000 万元(亏损收窄 33.3%),边缘计算模组在智慧城市、医疗领域落地,但现金流依赖融资。
- 技术突破:2025 年发布类脑感知芯片 Lyncam,能效比达 3.7TFlops/W,较传统 GPU 提升 10 倍。
四、行业共性特征与风险
-
盈利分化显著:
- 头部企业:海光信息、寒武纪(2025 年 Q1)已实现盈利,依赖政企订单和生态整合。
- 腰部企业:摩尔线程、沐曦、燧原营收高增长但尚未盈利,需 3-5 年实现盈亏平衡。
- 尾部企业:壁仞、灵汐仍处亏损深水区,技术代差和生态壁垒制约商业化。
-
核心风险:
- 技术依赖:国产芯片在 HBM 显存、CXL 互连等关键技术落后国际巨头 2-3 年,如摩尔线程 MTT S4000 显存带宽仅为 H100 的 1/3。
- 生态短板:CUDA 开发者超 500 万,而国产生态工具链覆盖场景不足 60%,迁移成本高 10。
- 产能瓶颈:中芯国际 N+2 工艺产能优先保障华为昇腾,燧原、沐曦等企业流片量仅达规划产能的 60%。
-
未来趋势:
- 差异化竞争:海光聚焦政企市场,摩尔线程拓展消费级显卡,灵汐深耕类脑计算。
- 资本驱动:2025 年国产 AI 芯片市场份额预计达 40%,科创板 “1+6” 新政加速企业上市,但多数厂商仍需依赖政策补贴和融资。
总结
国产 AI 加速卡企业呈现 “头部盈利、腰部高增、尾部承压” 的格局:
- 海光信息凭借生态整合和订单储备稳居第一梯队;
- 寒武纪因大客户订单实现扭亏,但可持续性存疑;
- 摩尔线程、沐曦营收爆发式增长,但需突破客户复购率和生态壁垒;
- 燧原科技凭借万卡集群率先盈利,但对政府订单依赖度超 60%;
- 壁仞、灵汐技术路径独特,但量产良率和现金流问题亟待解决。 未来 3-5 年将是国产替代关键窗口期,具备技术迭代能力和生态资源的企业有望率先突围。
岗位
在软硬件一体的 AI 大模型加速与硬件加速卡设计公司中,从业务服务到芯片模拟器的岗位体系可分为以下六大类,涵盖技术研发、系统优化、行业落地等关键环节,且均不涉及底层 IC 设计验证后端:
一、系统级设计与架构类
1. 系统架构师
- 职责:主导 AI 加速卡的系统架构设计,包括计算单元、存储层次、通信接口的协同优化(如华为昇腾 910B 的多芯互联架构);制定芯片与软件栈的协同设计方案,确保大模型训练 / 推理的端到端性能最优。
- 技能:精通异构计算架构(CPU+GPU/NPU)、熟悉 PCIe/CCIX 等高速接口协议;具备深度学习框架(如 PyTorch/TensorFlow)底层原理知识,能设计算子调度策略。
- 典型公司:华为昇腾、摩尔线程(需兼容 CUDA 生态的架构设计)5
2. 芯片应用系统开发工程师
- 职责:基于自研芯片开发完整应用系统,如设计多核 / 多芯片协同的大模型推理引擎(参考思朗科技的实习岗位要求);开发高性能算子库,优化内存访问效率与并行计算资源分配。
- 技能:熟练掌握 C/C++ 及汇编语言,熟悉 ARM/NVIDIA GPU / 国产 NPU 的指令集特性;具备数学建模能力,能将算法需求转化为硬件友好的计算模型。
- 典型公司:寒武纪(思元系列芯片的行业应用开发)、天数智芯(BIAS 芯片的垂直领域系统集成)8
二、软件栈与工具链类
1. 编译器开发工程师
- 职责:
- 前端:开发适配自研芯片的编译器前端,支持 C++/Python 等高级语言到中间表示(IR)的转换(如摩尔线程的 CUDA 兼容编译器)3
- 后端:优化指令调度与寄存器分配,实现 AI 模型计算图到芯片硬件的高效映射(如寒武纪 MLU-Link™多芯互联的编译优化)4
- 模拟器集成:开发硬件模拟器的调试接口,支持代码单步执行与性能分析(如峰岹科技的 ForgeIDE 工具链开发)
- 技能:精通 LLVM/MLIR 框架,熟悉 Flex/Bison 等语法分析工具;具备 GDB/LLDB 调试器开发经验,能整合编译器与模拟器的调试功能。
- 典型公司:华为昇腾(MindSpore 框架与昇腾芯片的编译器深度绑定)、壁仞科技(BR100 芯片的 Chiplet 架构编译优化)
2. AI 模型优化工程师
- 职责:
- 模型压缩:对千亿参数大模型(如 LLaMA-2 70B)进行量化(FP8/BF16/INT8)与剪枝,降低推理时延与显存占用
- 算子融合:在深度学习框架中实现自定义算子,优化计算图执行效率(如将矩阵乘法与激活函数合并为单一硬件操作)6
- 硬件适配:针对昇腾 910B / 摩尔线程 S4000 的架构特性,设计专用计算 kernel(如华为的 MindSpeed-LLM 加速库)
- 技能:精通 PyTorch/TensorFlow 的自定义算子开发,熟悉 CUDA/OpenCL 等并行计算框架;掌握模型性能分析工具(如 NVIDIA Nsight、华为 MindInsight)。
- 典型公司:华为昇腾(全栈优化团队)、地平线(自动驾驶模型的端侧推理优化)14
3. 模拟器开发工程师
- 职责:
- 功能仿真:开发周期精确的芯片行为级模拟器,支持软件工程师在硬件流片前验证算法逻辑(如思朗科技的 QEMU-like 模拟器开发)
- 性能分析:集成性能计数器与调试接口,帮助开发者定位内存瓶颈与计算资源浪费问题(如壁仞科技 BR100 的 Chiplet 架构性能建模)
- 生态兼容:实现与主流调试工具(如 GDB)的对接,降低开发者迁移成本(参考摩尔线程的 CUDA 兼容策略)7
- 技能:精通 C++ 模板元编程与事件驱动仿真模型;熟悉 SystemC/TLM 等硬件建模标准,具备 QEMU/GEM5 等开源模拟器二次开发经验。
- 典型公司:摩尔线程(需兼容 CUDA 生态的模拟器开发)、江原科技(D10 加速卡的功能仿真验证)
三、行业解决方案与技术支持类
1. 行业解决方案工程师
- 职责:
- 需求转化:将客户的 AI 大模型需求(如金融风控、医疗影像分析)转化为具体的算力方案,设计芯片选型与集群组网架构(如宁德时代的智慧微网解决方案)9
- 系统集成:主导 AI 一体机的软硬件联调,解决多芯片通信延迟与散热等工程问题(如天数智芯的大模型一体机部署)
- 客户培训:为客户提供芯片开发工具链与模型优化的技术培训(如寒武纪的 MLU 开发者社区支持)
- 技能:熟悉 Kubernetes/Docker 容器化部署,具备 InfiniBand/RoCE 高性能网络调优经验;了解行业痛点(如自动驾驶的实时性要求)10
- 典型公司:华为昇腾(政企智算中心项目)、地平线(车载 AI 芯片的前装市场方案设计)
2. 技术客户经理(FAE)
- 职责:
- 售前支持:为客户演示芯片性能(如摩尔线程夸娥千卡的千亿参数模型推理能力),提供竞品对比分析报告
- 售后维护:解决客户在开发过程中遇到的编译错误、性能异常等问题,推动芯片固件与软件栈的迭代优化
- 技能:精通 Python 脚本开发,能快速复现客户问题;熟悉 Jupyter Notebook 等工具,可编写示例代码供客户参考。
- 典型公司:寒武纪(政务云客户的定制化支持)、天数智芯(金融行业的实时推理需求响应)
四、产品与生态建设类
1. 芯片产品经理
- 职责:
- 市场规划:分析 AI 芯片市场趋势(如边缘计算需求增长),制定产品路线图(如黑芝麻智能的跨域融合芯片 C1296 规划)12
- 生态构建:主导开发者社区建设(如华为昇腾的 MindSpore 开源生态),推动第三方工具链与模型库的适配
- 竞品分析:跟踪英伟达 H100/AMD MI300 的技术动态,提出差异化竞争策略(如壁仞科技 BR100 的低成本服务器方案)
- 技能:具备技术敏感度,能评估 Chiplet / 先进封装等新技术的商业化潜力;熟悉敏捷开发流程,能协调跨部门资源推动产品落地。
- 典型公司:华为昇腾(全栈产品经理)、摩尔线程(GPU 产品的生态拓展)
2. AI 框架工程师
- 职责:
- 框架适配:将主流深度学习框架(如 PyTorch)扩展至自研芯片,实现算子注册与自动并行策略(如华为 MindSpore 的昇腾原生支持)
- 工具开发:开发模型可视化与调试工具,帮助开发者理解计算图在芯片上的执行路径(如寒武纪的 MLU Profiler)
- 技能:熟悉框架源码(如 PyTorch 的 aten 算子库),具备分布式训练框架(如 DeepSpeed)二次开发经验。
- 典型公司:华为昇腾(MindSpore 框架与昇腾芯片的深度绑定)、寒武纪(MLU-OPS 算子库开发)
五、垂直领域优化类
1. 自动驾驶系统优化工程师
- 职责:
- 端侧推理:针对地平线征程 6 芯片的 BPU® 纳什架构,优化 Transformer 模型的实时推理性能(如 L4 级自动驾驶的障碍物检测)
- 跨域融合:设计座舱与驾驶域数据互通的计算模型,降低多芯片间通信开销(参考黑芝麻智能的 C1296 芯片方案)
- 技能:熟悉车载系统开发流程(如 AUTOSAR 标准),具备 ROS/Carla 仿真环境经验;掌握模型量化与定点化技术,满足车规级低功耗要求。
- 典型公司:地平线(征程系列芯片的前装市场优化)、黑芝麻智能(中央计算平台的多模态算法集成)
2. 高性能计算(HPC)工程师
- 职责:
- 科学计算适配:将计算流体力学(CFD)/ 量子化学模拟等 HPC 应用迁移至自研芯片,优化矩阵运算效率(如壁仞科技 BR100 的 FP32 算力优势)
- 并行编程:开发基于 OpenMP/MPI 的多节点并行计算方案,支持千卡集群的协同训练(如摩尔线程夸娥千卡的 LLaMA2 700 亿参数训练)
- 技能:精通 Fortran/C++ 混合编程,熟悉 HPC 常用库(如 PETSc/ScaLAPACK);具备 GPU/NPU 异构计算经验,能设计数据分块与负载均衡策略。
- 典型公司:壁仞科技(超算中心合作项目)、天数智芯(科学计算一体机开发)
六、测试与验证类
1. 系统测试工程师
- 职责:
- 性能基准:建立芯片性能测试基准(如 ResNet50 推理速度、BERT 训练吞吐量),对比英伟达 A100 / 昇腾 910B 等竞品
- 压力测试:模拟千卡集群的高并发场景,验证芯片的稳定性与散热设计(如摩尔线程夸娥千卡的长时间运行测试)
- 技能:熟悉 TensorRT/TVM 等推理框架,能编写自动化测试脚本;掌握 Prometheus/Grafana 等监控工具,实现性能数据可视化。
- 典型公司:华为昇腾(严苛的政企项目测试流程)、寒武纪(政务云市场的大规模验证)
2. 工具链测试工程师
- 职责:
- 编译器验证:开发测试用例验证编译器的正确性(如峰岹科技的 ForgeIDE 工具链测试)
- 模拟器测试:模拟芯片故障场景(如内存错误、通信中断),验证系统的容错机制(如思朗科技的模拟器压力测试)
- 技能:熟悉 CI/CD 流程,能集成测试工具到持续集成平台(如 Jenkins);具备 Python/Pytest 自动化测试框架开发经验。
- 典型公司:华为昇腾(全栈工具链的闭环测试)、江原科技(D10 加速卡的量产前验证)
岗位选择与发展建议
-
技术深度 vs 行业广度:
- 追求技术突破者可选择编译器开发工程师(需精通 LLVM/MLIR)或AI 模型优化工程师(需掌握模型量化与算子融合),这类岗位在华为昇腾、摩尔线程等头部企业有较大发展空间。
- 倾向行业落地者可选择行业解决方案工程师(需理解自动驾驶 / 金融等行业痛点)或芯片产品经理(需平衡技术与市场需求),适合地平线、黑芝麻智能等垂直领域公司。
-
技能复合度要求:
- 软硬件结合能力是核心:例如系统架构师需同时理解芯片微架构与深度学习框架原理,模拟器开发工程师需掌握 C++ 建模与调试工具集成
- 跨领域知识储备:如自动驾驶系统优化工程师需同时熟悉车载系统开发与 AI 模型优化,这类岗位在智能汽车赛道需求旺盛
-
职业发展路径:
- 技术专家路线:编译器开发工程师 → 工具链团队负责人 → 首席架构师(如华为昇腾的昇腾芯片架构团队)
- 管理路线:行业解决方案工程师 → 行业总监 → 产品线总经理(如地平线车载芯片的前装市场拓展)
总结
国内软硬件一体公司的岗位体系呈现技术深度与行业广度并重的特点。对于应届硕士生,建议优先选择系统架构师、编译器开发工程师等核心技术岗位,这些岗位在华为昇腾、摩尔线程等头部企业有明确的技术壁垒与晋升通道。若倾向于快速落地,行业解决方案工程师与芯片产品经理能提供丰富的行业经验积累。无论选择何种岗位,需持续关注国产替代政策与先进封装 / Chiplet 技术的发展,这些将成为未来 AI 芯片竞争的关键变量。