負(fù)責(zé)AI基礎(chǔ)設(shè)施的設(shè)計(jì)、搭建與優(yōu)化,管理機(jī)器學(xué)習(xí)模型全生命周期,確保AI能力從實(shí)驗(yàn)室到規(guī)模化應(yīng)用的穩(wěn)定性。
設(shè)計(jì)并實(shí)施高效的CI/CD/CT流程,主導(dǎo)技術(shù)選型,打造高效研發(fā)平臺(tái)。
負(fù)責(zé)大語言模型(LLM)的部署、監(jiān)控、擴(kuò)縮容與性能優(yōu)化,構(gòu)建監(jiān)控告警與應(yīng)急響應(yīng)機(jī)制,保障AI服務(wù)高可用性。
深入研發(fā)流程,識(shí)別效率瓶頸,主導(dǎo)自動(dòng)化體系建設(shè),實(shí)現(xiàn)運(yùn)維工作自動(dòng)化。
持續(xù)追蹤并引入前沿MLOps及大模型技術(shù)(如推理加速、模型量化等),保持技術(shù)基礎(chǔ)設(shè)施先進(jìn)性。
跟進(jìn)開源工具及項(xiàng)目,快速構(gòu)建實(shí)驗(yàn)環(huán)境進(jìn)行驗(yàn)證與試用。
任職要求:
擁有3年左右DevOps/SRE/平臺(tái)開發(fā)經(jīng)驗(yàn),具備1年以上大語言模型(LLM)部署、運(yùn)維與性能優(yōu)化經(jīng)驗(yàn)。
精通容器化技術(shù)(Docker)與編排系統(tǒng)(Kubernetes),具備K8s集群運(yùn)維與故障排查能力。
熟練掌握至少一套CI/CD工具鏈(如Jenkins、GitLab CI等)。
精通監(jiān)控體系(如Prometheus、Grafana等)搭建與應(yīng)用,熟練使用Python/Shell/Go等語言進(jìn)行自動(dòng)化開發(fā)。