崗位職責:
1.基于業(yè)務場景(行為識別)對InternVL、QwenVL等VLM模型進行領域適配性微調,優(yōu)化圖像理解、動作識別、多模態(tài)推理能力
2.構建零售場景專屬數據集,設計數據增強策略,解決遮擋、光照變化等實際場景挑戰(zhàn)
3.實現CV&VLM模型在邊緣設備(如Jetson系列)/云端的輕量化部署,優(yōu)化推理速度與資源占用
4.開發(fā)模型服務化接口,支持實時視頻流分析與行為事件觸發(fā)機制
5.設計時序行為分析框架,融合目標檢測(如定位、姿態(tài)估計、動作分類等多模塊協同工作
6.構建基于VLM的異常行為識別系統(tǒng)(違規(guī)操作等場景)
7.跟進VLM前沿技術(如多模態(tài)prompt工程、模型蒸餾),探索3D視覺與VLM的融合方案
8.輸出可復用的算法組件庫,建立零售場景算法基準測試體系
崗位要求:
1.熟練掌握PyTorch框架及HuggingFace生態(tài),具有InternVL/QwenVL等開源VLM實戰(zhàn)調優(yōu)經驗
2.精通模型壓縮技術(量化/剪枝/知識蒸餾),有VLLM/LMdeploy等部署工具實戰(zhàn)經驗
3.熟悉視頻理解技術棧(OpenCV/FFmpeg/Decord),具備多線程視頻處理系統(tǒng)開發(fā)能力
4.具備強工程實現能力,主導過至少1個完整AI項目從研發(fā)到落地的全生命周期
5.理解行為場景特性:能通過算法設計應對監(jiān)控視角差異、制服相似度、復雜背景干擾等挑戰(zhàn)
6.有行為識別項目經驗者優(yōu)先,熟悉NTU RGB+D、AVA等行為數據集者加分
7.具備產品化思維,能協同硬件團隊優(yōu)化計算資源分配方案
8.具有技術文檔撰寫習慣,代碼符合工業(yè)級可維護性標準
9.在CVPR/ICCV/ECCV等會議發(fā)表過多模態(tài)學習相關論文
10.有成功通過模型微調提升特定場景指標30%以上案例
11.具備模型服務高并發(fā)處理經驗
碩士或985,211的本科畢業(yè)生 ,30以內
我們提供:
參與千萬級門店智能化改造的行業(yè)標桿項目
配備A100/H100算力集群及邊緣設備開發(fā)套件
技術成果可快速應用于數萬線下零售場景
與VLM領域頂尖團隊定期技術交流機會