崗位概述
負責從數(shù)據(jù)管道、特征工程到模型部署、監(jiān)控的全生命周期平臺化建設,確保算法能夠安全、穩(wěn)定、高效地服務于生產(chǎn)。我們正在從傳統(tǒng) DevOps 向 DevSecMLOps 統(tǒng)一供應鏈演進,期待你主導落地。
主要職責
-
MLOps 平臺設計與落地
-
規(guī)劃并搭建可擴展的訓練 / 推理平臺(Kubernetes + Kubeflow/Argo Workflows),實現(xiàn)彈性資源調(diào)度、自動伸縮與異構(gòu)算力管理。
-
自動化 CI/CD & GitOps
-
使用 GitLab CI、Argo CD 或 Jenkins 實現(xiàn)模型與數(shù)據(jù)管道的持續(xù)集成、自動化測試、灰度與滾動發(fā)布。
-
特征與數(shù)據(jù)版本管理
-
基于 DVC / lakeFS / Pachyderm 等工具實現(xiàn)數(shù)據(jù)、特征與模型的可追溯版本控制。
-
實驗跟蹤與模型治理
-
集成 MLflow / Neptune / Comet 等實驗管理系統(tǒng),規(guī)范指標、超參和模型元數(shù)據(jù)的自動紀錄與可視化。
-
在線服務與可觀測性
-
構(gòu)建高可用的在線推理服務(KServe / BentoML / Ray Serve);接入 Prometheus + Grafana + OpenTelemetry 實現(xiàn)服務級別與模型級別監(jiān)控、告警。
-
模型質(zhì)量與數(shù)據(jù)漂移監(jiān)控
-
建立實時數(shù)據(jù)質(zhì)量、模型漂移檢測與回滾機制,確保生產(chǎn)環(huán)境輸出可靠。
-
安全與合規(guī)
-
落實模型安全掃描、依賴漏洞檢測、權(quán)限隔離與審計,符合行業(yè)法規(guī)與公司安全標準。
-
團隊協(xié)作與最佳實踐推廣
-
與算法、數(shù)據(jù)、基礎設施團隊緊密合作,沉淀技術文檔、流程規(guī)范與內(nèi)部培訓材料。
任職要求
必備條件
說明
計算機/軟件/數(shù)據(jù)工程相關本科及以上學歷
3 年以上 ML/AI 平臺或 DevOps 經(jīng)驗,至少 1 年專職 MLOps 實戰(zhàn)經(jīng)歷
容器化與編排
精通 Docker,熟練使用 Kubernetes 與 Helm;理解 Service Mesh、網(wǎng)絡與存儲方案
CI/CD & 基礎設施即代碼
熟練使用 GitLab CI/Jenkins/GitHub Actions,掌握 Terraform/Ansible
主流 MLOps 工具鏈
熟悉 Kubeflow、MLflow、Airflow/Dagster、Argo Workflows、DVC 等中的 ≥ 3 個
編程能力
精通 Python;了解 Go 或 Shell;具備良好代碼質(zhì)量和測試習慣
云與混合架構(gòu)
有 AWS/GCP/Azure 或私有云/本地集群混合部署經(jīng)驗
溝通與文檔
能用中文撰寫高質(zhì)量技術文檔,并在多團隊環(huán)境中高效溝通
加分項
-
交通行業(yè)或工業(yè) IoT 場景大規(guī)模模型部署經(jīng)驗
-
LLMOps 實踐(如 Prompt/Embedding 版本管理、向量數(shù)據(jù)庫、RAG Pipeline 運維)
-
對 GPU/FPGA 異構(gòu)調(diào)度或成本優(yōu)化有深入研究
-
貢獻過開源 MLOps 項目或擁有 CNCF/Kubernetes 認證
使命驅(qū)動:讓先進 AI 技術加速交通行業(yè)智能升級。期待你的加入,與我們一起打造面向未來的機器學習基礎設施!