Skip to content

2025腾讯犀牛鸟开源人才培养计划—腾讯高性能计算网络 #56

@tencent-adm

Description

@tencent-adm

腾讯犀牛鸟开源人才培养计划

欢迎广大高校学子及开发者加入2025腾讯犀牛鸟开源人才培养计划!犀牛鸟开源人才培养计划同教育部计算机类专业教学指导委员会、教育部软件工程专业教学指导委员会、教育部电子信息类专业教学指导委员会、中国信息通信研究院一起作为联合指导单位,腾讯开源和腾讯高校合作联合主办,开发者通过参与腾讯全链路技术栈15个明星项目的学、练、赛研学,有机会获得腾讯颁发的荣誉证书、现金奖励以及腾讯特色礼包,获得“优秀学生”即可优先获得腾讯面试机会。

期待同学们在本次研学旅程中,和腾讯一起探索未知、学习技术,让开源伴你成长,收获满满一夏!

更多项目信息请看:腾讯开源活动官网腾讯开源研学基地

项目简介

腾讯高性能计算网络(星脉网络)是面向AI大模型量身定制的高性能算力网络,为大模型业务提供极致性能、极致可靠的网络底座。当前腾讯星脉网络1.0、2.0已经全面支撑腾讯各类大模型业务。星脉3.0是正在研发设计的下一代算力网络,目标是解决GPU算力迅猛增长与网络带宽增长相对缓慢的矛盾。星脉3.0通过scale out + scale up双引擎网络架构,在超节点、网络硬件、软件协议、通信库、运营平台等关键功能模块上进行全面升级,为GPU之间提供超高带宽互联域,大幅降低TP/EP/CP等通信占比,最终打破集群算力瓶颈。
2025年4月,腾讯星脉网络推出新一代以GPU为核心的通信库TRMT,针对DeepSeek开源的MOE通信库DeepEP进行深度优化,在RoCEV2场景通信性能提升100%,在IB场景通信性能提升30%。

项目导师

文 权 腾讯网络高级研发总监
夏寅贲 腾讯首席网络架构师
刘亚东 星脉网络高级架构师
陈明卓 星脉网络集合通信库负责人
闫志杰 星脉网络通信库研发负责人
雷 屹 星脉网络通信库架构师

培养概览

1️⃣ 参与“腾讯开源基础课程”
完成考试可获得《腾讯开源研学结课证书》

2️⃣ 参与“腾讯开源issue实战”
完成任意issue即可获得专属《腾讯开源实战证书》+ 腾讯周边精美礼包一套。其中issue难度对应礼包大小

3️⃣ 参与“腾讯开源课题实战”
任务奖金从6K、8K到12K不等、腾讯犀牛鸟研学专属《优秀学生证书》或《优秀开发者证书》、全球限量《腾讯开源贡献者证书》
*获得《优秀学生证书》,即可优先获得腾讯面试机会

4️⃣ 彩蛋玩法:分享有礼、帮带有礼

【玩法1-分享有礼】
在任意社交平台(知乎/b站/掘金/CSDN等)分享你在【本届犀牛鸟研学的心得+犀牛鸟官网】,在9月10日前把分享记录填写在【分享有礼登记表】表中,分享量Top 10即可获得鹅厂周边礼包!🎁

【玩法2-帮带有礼】:
你可以在项目社群、项目repo页面、项目研学基地【我要提问】区域三个位置回答其他同学提出的问题,在9月10日前,我们会综合导师意见,对积极且正确帮助他人解答问题的幸运同学送出鹅厂周边礼包!🎁

如何贡献

参与“腾讯开源issue实战”

进入“研学基地”,参与“腾讯开源issue实战”,选择你感兴趣项目的 Issue 任务,认领和完成它。7月10日开放 issue ,学生及开发者可无门槛参与和认领

1、如果你愿意解决issue,请在腾讯开源研学基地的【3️⃣issue认领任务大厅】领取issue任务
2、Fork 到个人的仓库下
3、在个人仓库解决完对应的任务后,提交 PR 至 Issue 所在仓库的 master 分支
4、PR提交后,项目导师将进行 code review, PR 被合并后即视为任务完成
5、如有任何疑问可以在评论区留言或者邮件至联络人

参与“腾讯开源课题实战”

时间安排:6月20日至7月28日为活动报名期,8月1日公布入围名单,8月2日至9月10日为课题实战期,通过筛选的学生即可参与此模块。

NCCL kernel 故障定位工具

课题目标:旨在 kernel 运行异常时,输出可能的异常原因

开发语言:C/cuda

验收标准
1、发生异常时,可自动检测出当前是否所有的 GPU 都已运行在 NCCL kernel 中。
2、加分项:如果都运行在 NCCL kernel 中,输出当前每张卡处于哪个运行阶段,运行阶段包括但不限于worker 任务编排,reduce 和通信阶段等。


NVSHMEM 多通信组设计

课题目标:可以在NVSHMEM中创建多个独立的通信 group,在不同的通信 group 内,可以发起不同类型的通信

开发语言:C/cuda

验收标准

  1. 在模型训练&推理时,创建多个不同的NVSHMEM Gruop,每个Group 内包含不同的 GPU Rank,每个 Group可以独立发起通信
  2. 多个独立的Group通信性能和原生的单 Group 通信性能相当

BatchToBatch通信算子设计

课题目标:将一台主机上若干块HBM内存内的数据以最快速度搬运至另外一台主机上的HBM内

开发语言:python/C/cuda

验收标准
1、主机A上HBM内10K块离散数据发送至主机B上HBM内10K块离散内存(两侧内存块数量、大小完全一致),每一个内存块的数据从128B,逐次翻倍,直至2M;
2、要求使用RDMA通信,不限制是否借用第三方通信库(UCX、LibFabric、NCCL、NVSHMEM等);
3、占用GPU SM资源最少且耗时最短者为最优;
4、主机环境使用CX7网卡


联系导师

💁🏻‍♀️ 欢迎加入腾讯开源犀牛鸟官方微信群:官方通知及解答、最新腾讯开源动态

Image

💁🏻‍♀️欢迎加入腾讯高性能计算网络项目官方交流群,导师在线为你答疑解惑!

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions