崗位職責(zé):
1、設(shè)計(jì)并執(zhí)行大模型在多種硬件平臺(如 NVIDIA GPU等)上的性能測試方案,涵蓋訓(xùn)練與推理階段;
2、構(gòu)建并維護(hù)模型性能 Benchmark 體系,覆蓋吞吐量、延遲、顯存占用、功耗等關(guān)鍵指標(biāo);
3、利用 profiling 工具(如 Nsight、PyTorch Profiler、MindSpore Profiler)定位性能瓶頸,輸出可復(fù)現(xiàn)的測試報(bào)告
任職要求:
技術(shù)經(jīng)驗(yàn):
熟悉 GPU 編程(CUDA、ROCm)或至少一種國產(chǎn) AI 芯片(如 Ascend、MLU)的開發(fā)與調(diào)優(yōu)流程;
熟悉常見大模型結(jié)構(gòu)(如 LLaMA、Qwen、DeepSeek、ChatGLM 等)及其訓(xùn)練/推理流程;
熟練掌握 PyTorch、DeepSpeed、Megatron-LM、vLLM 等訓(xùn)練/推理框架中的一種或多種;
熟悉性能調(diào)優(yōu)工具鏈,如 Nsight Systems、TensorBoard、Perfetto、Roofline 分析等;
編程能力:精通 Python,具備 C++/CUDA 開發(fā)能力者優(yōu)先;
加分項(xiàng):
有 MLPerf、LM-Harness 等 Benchmark 經(jīng)驗(yàn);
參與過大模型在國產(chǎn)芯片上的遷移落地項(xiàng)目;
熟悉低精度訓(xùn)練(FP8、INT8)、KV-Cache 優(yōu)化、投機(jī)解碼、通信壓縮等推理優(yōu)化技術(shù)
學(xué)歷背景:計(jì)算機(jī)、電子工程、人工智能等相關(guān)專業(yè)