Ning Chen

CONTACT

Lecturer (讲师)
Master Supervisor (硕士生导师)
Outstanding Young Scholar of Soochow University (苏州大学优秀青年学者)
IEEE、CCF会员
School of Computer Science and Technology

18983676944
ningc@suda.edu.cn
CS Building 430, Tiancizhuang Campus, Soochow University
No.333, Ganjiang East Road
Suzhou, Jiangsu 215008, China

RECRUITING

I am looking for well motivated students to work on cutting-edge research projects. Both undergraduate and graduate students are welcome!
2026年我组有空缺硕士,欢迎同学们联系!

RESEARCH INTEREST

聚焦于端侧大模型推理系统优化,面向资源受限、网络异构和任务动态变化的边缘智能环境,实现低延迟、低能耗、高吞吐和高可靠的大模型推理服务。具体而言,我的研究涵盖以下三个核心子方向:

[大小模型协同] 在端侧推理场景中,单一大模型通常难以同时满足实时性、准确性和资源成本要求。因此,考虑构建由端侧小模型、边缘模型与云端大模型组成的多级协同推理框架。小模型负责快速响应、意图识别、样本过滤和简单任务处理,大模型负责复杂推理、知识补全和高置信决策。通过置信度估计、难例识别、动态路由、级联推理和按需卸载等机制,实现“简单任务本地完成、复杂任务协同处理”的自适应推理模式。同时,研究大小模型之间的知识蒸馏、结果校验、缓存共享和反馈学习机制,在保证推理质量的同时降低端侧计算、通信与能耗开销。

[模型优化和部署] 面向端侧大模型存储受限、计算资源不足和响应时延敏感等问题,研究从模型压缩、解码机制到边缘部署的全链路优化方法。首先,在模型压缩方面,结合量化、剪枝、知识蒸馏和低秩分解等技术,降低模型参数规模、显存占用和推理计算量;其次,在解码机制方面,探索并行解码、早退机制、投机解码、级联推理和 Agentic 推理等方法,减少自回归生成过程中的冗余计算,提高 token 生成效率;最后,在边缘部署方面,研究模型切分放置、KV Cache 管理、缓存选择、Prefill-Decode 解耦等机制,使大模型能够在端、边、云多层环境中按任务需求和资源状态灵活部署,实现精度、时延、吞吐和能耗之间的综合平衡。

[资源管理和调度] 端侧大模型推理不仅受限于单点算力,还受到内存容量、通信带宽、无线信道波动和多任务并发等因素影响。因此,考虑从计算、内存和通信三个层面开展跨层协同优化。计算调度方面,研究动态批处理、并行计算、请求合并和异构硬件调度机制,提高边缘设备和加速器利用率;内存管理方面,研究 KV Cache 分配、显存复用、参数卸载、激活值重计算和分层缓存机制,缓解端侧推理中的内存瓶颈;通信效率方面,研究语义通信、空中计算 AirComp、多天线空域协同和压缩传输机制,降低端边云协同推理中的通信开销。进一步地,将计算调度、内存管理和通信优化进行联合建模,在动态网络和多用户请求条件下实现端侧大模型推理系统的全局资源优化。