专为网上商店量身定制,推动新业务增长
个性化搜索,享受管家般的体验
精准获客,降低成本
将内容生产从零转变为一
自研高性能 LLM 推理框架,面向 DeepSeek 系列大语言模型进行深度优化,已完成 PD 分离、EPLB(优先级调度)、DeepEP(高效并行执行)及 DeepGEEM(显存精细管理)等关键方案的系统集成。在多卡多节点环境下,实现推理吞吐率提升超过 50%,同时显著降低 ITL(Idle Token Latency),整体延迟下降超过 2 倍,为大模型推理在实际业务中的落地与规模化部署提供了坚实支撑。
字节方舟是一家专注于AI基础设施与应用解决方案的科技型企业,总部位于杭州未来科技城。公司核心聚焦于LLM推理框架优化、行业级AI应用解决方案与高性能GPU算力服务,致力于构建覆盖底层计算与上层业务的一体化AI能力平台。
公司团队以工程师文化为核心,技术人员占比达70%,成员主要来自海内外知名高校及全球500强科技企业,具备强大的研发能力和国际化视野。字节方舟可为全球客户提供高可靠、可扩展的AI计算资源。公司已获评国家级高新技术企业、浙江省专精特新企业,拥有百余项专利和软件著作权,正加速打造全球化AI基础设施服务网络。
创造十分价值,取三分回报,终还于社会
Create tenfold value, take modest returns, give back to society
以客观事实为依据,深入分析,理性思考,做出明智的决策。这是创造价值的基础,只有基于事实和智慧的决策才能带来真正的价值。
保持开放和学习的心态,建立全局视野,深入理解业务、客户和市场。通过持续学习确保我们能创造创新性的价值,适应不断变化的环境。
专注倾听,准确理解,用清晰简洁的方式表达和传递信息。有效的沟通是连接和传递价值的桥梁,帮助我们更好地理解和满足需求。
关注成果,精益求精,不断突破自我,追求卓越表现。只有追求卓越,才能实现"十分价值"的创造目标。
坚持诚实守信,保持正直品格,勇于承认并改正错误。诚信正直是确保价值可持续的基石,也是实现"终还于社会"承诺的保证。
“创业就像是在航海,既要有远航的目标,但在途中不断地发现并登陆一个个小岛,获取补给。” CEO David这样形容他的创业探索史。一位成功的连续创业者,字节方舟创始人。创业历程始于2018年创立杭州字节方舟科技有限公司。在投身创业之前,曾在半导体行业担任IT工程师,主要参与智能手机项目的相关工作。
80后优秀创业者。曾创办多家实体企业,产品畅销全球,平均年营业额超过2000万美金;2014年作为早期布道者和参与者进入区块链领域,主要从事交易和资本运作,拥有丰富的加密资产运作经验;2018年投资创建杭州字节方舟科技有限公司,经营流水超过4000万美金,管理加密资产超过1亿美金。
专注于 推理执行阶段 本身的效率与执行路径优化,包括 Prefill/Decode 阶段的解耦、缓存调度、采样优化等。
1. 负责 LLM 推理系统的执行路径、资源调度与通信模块的系统级优化; 2. 设计并实现支持大规模多卡部署的调度执行架构,提升系统吞吐能力; 3. 优化通信链路与数据传输,减少跨节点通信延迟与带宽瓶颈; 4. 推进混合精度策略(如 FP16、BF16、INT8)在推理框架中的高效应用; 5. 支持并推动开源或自研推理框架(如 vLLM、SGLang)在系统层的深度性能演进。 职位要求: 1. 本科及以上学历,计算机科学、人工智能、软件工程或相关专业; 2. 熟悉主流推理框架,具备 vLLM、SGLang、TensorRT-LLM 等推理框架的优化经验者优先; 3. 熟悉通信优化,具备 NCCL、NVSHMEM、RDMA 等通信库的使用经验,了解通信开销的优化方法; 4. 理解资源管理机制,熟悉任务调度、并发控制、NUMA 架构、CPU/GPU 亲和性优化等系统层优化手段; 5. 具备系统级性能瓶颈分析能力,能够跨模块主导复杂性能问题的定位与解决,推动整体性能优化闭环。
关注推理框架本身的底层基础设施与系统结构,如资源分配、跨节点通信、GPU 编排、混合精度计算等。
1. 负责 LLM 推理系统的执行路径、资源调度与通信模块的系统级优化; 2. 设计并实现支持大规模多卡部署的调度执行架构,提升系统吞吐能力; 3. 优化通信链路与数据传输,减少跨节点通信延迟与带宽瓶颈; 4. 推进混合精度策略(如 FP16、BF16、INT8)在推理框架中的高效应用; 5. 支持并推动开源或自研推理框架(如 vLLM、SGLang)在系统层的深度性能演进。 职位要求: 1. 本科及以上学历,计算机科学、人工智能、软件工程或相关专业; 2. 熟悉主流推理框架,具备 vLLM、SGLang、TensorRT-LLM 等推理框架的优化经验者优先; 3. 熟悉通信优化,具备 NCCL、NVSHMEM、RDMA 等通信库的使用经验,了解通信开销的优化方法; 4. 理解资源管理机制,熟悉任务调度、并发控制、NUMA 架构、CPU/GPU 亲和性优化等系统层优化手段; 5. 具备系统级性能瓶颈分析能力,能够跨模块主导复杂性能问题的定位与解决,推动整体性能优化闭环。