简历投递:hr@tranxmart.com
工作地点:北京/广州
职位描述
我们正在招募一名训练平台方向的应届生,参与公司机器学习训练基础设施的建设与演进。你将在导师指导下,学习并参与从数据准备、分布式训练、超参搜索到模型交付的全链路平台工程,深入理解大规模训练系统的设计与优化。
主要职责
参与训练平台的功能开发与迭代,支持单机多卡与多机多卡训练场景
协助设计与实现训练作业的编排与调度能力
参与 Kubernetes 上训练栈的维护与优化
协助构建标准化训练模板与实验管理工具
参与模型资产管理(版本控制、Checkpoint 管理、结果对比)的工程实现
编写高质量代码与技术文档,参与代码评审
任职要求
本科或硕士应届毕业生,计算机/软件工程/自动化/人工智能等相关专业
精通 Python,了解 Go 或 Java 者优先
了解 Docker 与 Kubernetes 基本概念,有容器化应用部署经验者优先
了解深度学习基础与主流训练框架(PyTorch/TensorFlow),有模型训练经验
了解分布式训练的基本原理(数据并行/模型并行/梯度同步等概念)
具备良好的工程能力与代码习惯,熟悉 Git 协作流程
学习能力强,对大规模系统与平台工程有热情
加分项
了解 PyTorch Distributed、DeepSpeed、FSDP 等分布式训练框架
了解对象存储(S3/OSS)、并行文件系统等存储技术
有 Kubeflow、Ray 或类似平台的使用经验
有开源贡献或高质量的课程项目/毕业设计
有 GPU 集群使用经验或高性能计算相关背景
联系电话:18210580222