一. 崗位職責(zé)
1. 大模型開(kāi)發(fā)與優(yōu)化:
- 設(shè)計(jì)、訓(xùn)練和調(diào)優(yōu)大規(guī)模語(yǔ)言模型(如LLaMA、GPT、PaLM等)或視覺(jué)多模態(tài)模型。
- 探索模型壓縮、分布式訓(xùn)練、推理加速等技術(shù)(如LoRA、量化、模型并行)。
2. 算法研究與落地:
- 針對(duì)業(yè)務(wù)場(chǎng)景(如對(duì)話系統(tǒng)、內(nèi)容生成、搜索推薦)優(yōu)化模型效果。
- 解決長(zhǎng)尾問(wèn)題(如幻覺(jué)控制、多輪交互、低資源場(chǎng)景適配)。
3. 工程化支持:
- 與工程團(tuán)隊(duì)協(xié)作部署模型,優(yōu)化計(jì)算資源利用率(GPU/TPU集群)。
- 開(kāi)發(fā)高效的數(shù)據(jù)處理流水線,提升訓(xùn)練效率。
二. 核心能力要求**
1. 技術(shù)硬技能:
- 算法基礎(chǔ):精通深度學(xué)習(xí)、Transformer架構(gòu)、自監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)(RLHF)。
- 框架經(jīng)驗(yàn):熟悉PyTorch、DeepSpeed、Megatron-LM、Hugging Face生態(tài)。
- 分布式訓(xùn)練:掌握多機(jī)多卡訓(xùn)練、混合精度訓(xùn)練、顯存優(yōu)化技術(shù)。
- 領(lǐng)域知識(shí):了解大模型前沿技術(shù)(如MoE、Retrieval-Augmented Generation)。
2. 工程能力:
- 熟悉CUDA編程、模型量化(如AWQ、GPTQ)、推理框架(vLLM、TensorRT)。
- 具備高性能計(jì)算(HPC)或大規(guī)模數(shù)據(jù)處理經(jīng)驗(yàn)(TB級(jí)數(shù)據(jù)集)。
3. 軟技能:
- 能快速定位模型訓(xùn)練中的問(wèn)題(如梯度爆炸、收斂異常)。
- 具備跨團(tuán)隊(duì)協(xié)作能力,能將學(xué)術(shù)成果轉(zhuǎn)化為工業(yè)級(jí)解決方案。
候選人背景
- 學(xué)歷:計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)碩士/博士(頂尖候選人可能放寬至本科+突出項(xiàng)目經(jīng)驗(yàn))。
- 經(jīng)驗(yàn):
- 3年以上NLP/CV算法經(jīng)驗(yàn),至少1年大模型相關(guān)項(xiàng)目經(jīng)歷。
- 有論文發(fā)表(NeurIPS/ICML/ACL等)或開(kāi)源項(xiàng)目貢獻(xiàn)(如參與Alpaca、Vicuna等社區(qū)項(xiàng)目)優(yōu)先。
- 加分項(xiàng):
- 熟悉模型合規(guī)性(如數(shù)據(jù)隱私、內(nèi)容安全)。
- 有端到端產(chǎn)品落地經(jīng)驗(yàn)(如從0到1搭建大模型服務(wù))