崗位職責(zé)
1. 負(fù)責(zé)深度學(xué)習(xí)模型訓(xùn)練框架的研發(fā)與優(yōu)化,支持大規(guī)模分布式訓(xùn)練任務(wù)(如多機(jī)多卡并行、混合精度訓(xùn)練);
2. 設(shè)計(jì)和實(shí)現(xiàn)高并發(fā)、低延遲的模型線上推理服務(wù),優(yōu)化服務(wù)端性能(QPS/延遲/資源占用);
3. 參與AI框架核心模塊開(kāi)發(fā)(如自定義算子、自動(dòng)微分、計(jì)算圖優(yōu)化),深入理解PyTorch等框架的運(yùn)行機(jī)制;
4. 構(gòu)建和維護(hù)高效的Linux開(kāi)發(fā)環(huán)境,設(shè)計(jì)自動(dòng)化工具鏈(編譯/部署/監(jiān)控),保障模型訓(xùn)練與服務(wù)的穩(wěn)定性。
任職要求
1. 技術(shù)基礎(chǔ):
熟練掌握C/C++或Python,熟悉多線程編程(如鎖、線程池、協(xié)程)、常用設(shè)計(jì)模式(工廠/單例/觀察者);
熟悉Linux開(kāi)發(fā)環(huán)境,熟練使用Shell腳本、性能分析工具(perf/strace/gdb)、系統(tǒng)級(jí)調(diào)試;
熟悉深度學(xué)習(xí)框架(PyTorch/TensorFlow),了解其核心機(jī)制(如動(dòng)態(tài)圖、梯度計(jì)算、CUDA加速);
2. 工作經(jīng)驗(yàn)(滿足其一即可):
模型線上服務(wù)方向;
有模型部署經(jīng)驗(yàn),熟悉TensorRT/ONNX/Triton等推理框架,掌握性能優(yōu)化技術(shù)(量化/剪枝/動(dòng)態(tài)批處理);
熟悉高并發(fā)服務(wù)開(kāi)發(fā)(gRPC/RESTful API),具備分布式系統(tǒng)設(shè)計(jì)能力(負(fù)載均衡/容災(zāi))。
模型訓(xùn)練方向:
有大規(guī)模分布式訓(xùn)練經(jīng)驗(yàn),熟悉DDP/Horovod等框架,掌握顯存優(yōu)化(梯度檢查點(diǎn)/混合精度);
熟悉數(shù)據(jù)處理流水線優(yōu)化(Dataset/DataLoader)、訓(xùn)練任務(wù)調(diào)度(Kubernetes/Slurm)。
3. 加分項(xiàng):
參與過(guò)開(kāi)源深度學(xué)習(xí)框架(PyTorch/TensorFlow)的源碼貢獻(xiàn);
有CUDA編程經(jīng)驗(yàn),或內(nèi)核級(jí)性能調(diào)優(yōu)案例(如自定義算子、內(nèi)存池設(shè)計(jì));
熟悉容器化技術(shù)(Docker/K8s)、CI/CD工具鏈。