工作職責(zé):
1、GPU服務(wù)器技術(shù)支持
- 7x24快速響應(yīng):對英偉達(dá)GPU服務(wù)器及集群(包括單機(jī)、顯卡、主板、電源模塊、網(wǎng)絡(luò)層面)出現(xiàn)的硬件、軟件、性能故障進(jìn)行快速響應(yīng)、精準(zhǔn)診斷和高效修復(fù)
- 應(yīng)急處理: 制定和執(zhí)行大規(guī)模集群故障的應(yīng)急預(yù)案,在重大故障發(fā)生時能迅速組織資源進(jìn)行恢復(fù),最大限度減少停機(jī)時間和對客戶業(yè)務(wù)的影響
2、日常運(yùn)維與監(jiān)控
- 負(fù)責(zé)英偉達(dá)GPU服務(wù)器(如DGX系列/HGX系列/自研服務(wù)器)及集群(NVLink, InfiniBand/Ethernet網(wǎng)絡(luò))的安裝、配置、監(jiān)控、維護(hù)和升級
- 使用專業(yè)工具(如DCGM, NVIDIA System Management, Prometheus, Grafana, Zabbix, ELK等)監(jiān)控集群健康狀態(tài)、性能指標(biāo)(GPU利用率、顯存、溫度、功耗、網(wǎng)絡(luò)帶寬/延遲等),及時發(fā)現(xiàn)潛在問題
3、技術(shù)協(xié)同
- 與硬件供應(yīng)商(如NVIDIA, OEM廠商)、IDC團(tuán)隊(duì)、網(wǎng)絡(luò)團(tuán)隊(duì)、研發(fā)團(tuán)隊(duì)及客戶技術(shù)支持團(tuán)隊(duì)緊密協(xié)作,解決復(fù)雜問題
任職資格:
1、基礎(chǔ)條件
- 計(jì)算機(jī)/電子工程本科及以上學(xué)歷,3年以上大型數(shù)據(jù)中心服務(wù)器(尤其是英偉達(dá)GPU服務(wù)器)運(yùn)維經(jīng)驗(yàn)
- 持有NVIDIA認(rèn)證工程師資質(zhì)(如NCA/NCP)者優(yōu)先,熟悉Hopper架構(gòu)與SXM模塊化設(shè)計(jì)原理
- 具有處理大規(guī)模(百卡/千卡級別以上優(yōu)先)GPU集群實(shí)際運(yùn)維和故障處理經(jīng)驗(yàn)
- 熟悉服務(wù)器硬件(CPU, 內(nèi)存, 存儲, RAID, PSU)的故障診斷與更換
2、優(yōu)先考慮
- 有管理NVIDIA DGX SuperPOD或類似大規(guī)模參考架構(gòu)集群的經(jīng)驗(yàn)
- 擁有NVIDIA相關(guān)認(rèn)證(如NVIDIA Certified Associate - Data Center Deployment, NVIDIA Certified Professional - Data Center)
- 頭部互聯(lián)網(wǎng)公司或大型公有云數(shù)據(jù)中心運(yùn)維背景