https://www.infoq.cn/article/edwy1v3xy14pgkefdv1u

职位分布

1. 高性能计算(HPC)工程师 / 分布式系统开发工程师

  • 岗位匹配度:★★★★★
  • 技能关联
    • DeepEP 的核心目标是优化 MoE(Mixture of Experts)模型的通信效率,这与 HPC 中的分布式计算、低延迟通信(如 RDMA、NVLink)密切相关。
    • CUDA/FPGA/MPI 技能是 HPC 领域的核心能力,涉及多节点通信、负载均衡、资源调度等。
  • 典型工作内容
    • 开发和优化分布式通信库(如 AllReduce、AllToAll)。
    • 设计并行算法,解决大规模计算中的性能瓶颈。
    • 支持企业级 HPC 集群的部署与调优(如超算中心、云计算平台)。
  • 适合领域:超算中心、云计算公司(阿里云、AWS)、半导体厂商(NVIDIA、AMD)。

2. AI/大模型加速工程师 / 深度学习系统工程师

  • 岗位匹配度:★★★★★
  • 技能关联
    • DeepEP 直接服务于大语言模型(LLM)的专家并行(Expert Parallelism),这是当前 LLM 训练和推理的主流优化方向。
    • 异构编程能力(CUDA/FPGA)可用于加速模型计算,而 MPI 能力可支持多节点分布式训练。
  • 典型工作内容
    • 优化大模型的训练和推理效率(如 MoE、KV Cache 压缩)。
    • 开发底层框架组件(如自定义算子、分布式通信层)。
    • 与硬件团队协作,设计 AI 芯片的软件栈(如 NVIDIA 的 TensorRT、华为的 CANN)。
  • 适合领域:AI 大厂(Meta、Google、百度)、AI 芯片公司(NVIDIA、寒武纪)、开源社区(PyTorch、TensorFlow)。

3. 系统软件工程师 / 编译器/运行时开发工程师

  • 岗位匹配度:★★★★☆
  • 技能关联
    • DeepEP 的底层实现涉及通信库的开发(如 RDMA、NVLink 协议),这与系统软件(如操作系统、运行时)的设计逻辑高度相关。
    • 异构编程能力(CUDA/FPGA)需要与硬件抽象层(如 PTX、OpenCL)结合,编译器优化经验可加分。
  • 典型工作内容
    • 开发支持异构计算的编译器或运行时(如 TVM、Halide)。
    • 优化硬件资源调度(如 GPU/FPGA 的内存管理、任务分发)。
    • 参与开源系统软件项目(如 Linux 内核、LLVM)。
  • 适合领域:开源社区、芯片厂商(NVIDIA、Intel)、云计算平台。

4. FPGA/硬件加速器开发工程师

  • 岗位匹配度:★★★★☆
  • 技能关联
    • DeepEP 中提到的“SM-free kernels”(无需占用 GPU SM 的通信优化)与 FPGA 的硬件加速理念一致。
    • 你的 FPGA 能力可直接用于设计专用加速器(如 MoE 的路由、通信卸载)。
  • 典型工作内容
    • 使用 Verilog/VHDL 或高层次综合(HLS)开发 AI 加速器。
    • 优化硬件逻辑以降低功耗和延迟(如 MoE 的路由表压缩)。
    • 与算法团队协作,将 AI 模型部署到 FPGA 上。
  • 适合领域:FPGA 厂商(Xilinx、Intel)、AI 芯片初创公司(如 SambaNova、Graphcore)。

5. 云计算/AI 平台架构师

  • 岗位匹配度:★★★☆☆
  • 技能关联
    • DeepEP 的通信优化能力可支持云平台的大规模模型训练服务(如 Model Parallelism)。
    • 异构编程能力可帮助云厂商设计弹性计算资源(如 GPU/FPGA 实例)。
  • 典型工作内容
    • 设计云平台的分布式 AI 训练架构(如弹性扩展、资源隔离)。
    • 开发云原生 AI 工具链(如 Kubernetes 调度器、Serverless 推理服务)。
    • 优化云平台的硬件利用率(如 GPU 利用率、网络带宽分配)。
  • 适合领域:云计算巨头(AWS、Azure、阿里云)、AI SaaS 平台。