dhp

dhp

dhp

dhp

CONTACT

Lecturer (讲师)
Master Supervisor (硕士生导师)
Outstanding Young Scholar of Soochow University (苏州大学优秀学者)
IEEE、CCF会员
School of Computer Science and Technology

18983676944
ningc@suda.edu.cn
CS Building 430, Tiancizhuang Campus, Soochow University
No.333, Ganjiang East Road
Suzhou, Jiangsu 215008, China

PROJECS (系统简介)

系统:TileSR: 基于并行卸载的边缘视频增强加速(一作)linkslides
成果:发表于IEEE International Conference on Computer Communications (INFOCOM 2024)
问题描述与目标:考虑到单移动设备端无法推理较高分辨率图片,同时视频增强模型通常是DAG型,因而采用视频块多设备并行推理架构,然而切块粒度及设备运行时状态都显著影响系统性能;目标是最大化推理性能,同时保持实时性;
系统设计:1)基于推理难度的块选择:预实验发现视频块推理难度分布不均,而难度小的块在在本地使用数学插值亦取得高PSNR,因而选取top-k难度最大块作为卸载对象;2)块并行卸载:使用多臂赌博机算法,实现块与设备之间的卸载映射;
系统性能:基于多个边缘设备的真实实验表明TileSR显著降低17.77%-82.2% 的响应时延,同时在视频SR 质量上实现了2.38% 至10.57% 的提升。
系统:ResMap: 多边缘设备协同视频分析系统的传输优化(一作)link slides code
成果:发表于IEEE International Conference on Computer Communications (INFOCOM 2023)
问题描述与目标:考虑到单个设备推理的资源瓶颈,当前不少工作采用多设备协同处理的思想,即通过序列化执行模型的各个部分,并经过多次中间数据传递,输出最终结果。然而中间数据量规模庞大,严重降低视频帧流水线执行的性能。本工作旨在最大力度压缩中间数据,最小化平均处理时延;
系统设计:1)特征图稀疏编码:类似于视频帧间编码,相邻帧经同一层神经网络传播输出相似特征图,其剩余图呈现稀疏性,可使用矩阵编码高度压缩;2)稀疏度预测机制:基于第一层稀疏度,按照层类别如卷积和池化,直接预测后续所有层的稀疏度;3)模型切割:基于各层预测数据量,采用动态规划得到当前最优模型切割方案;
系统性能:相较于经典负载均衡策略,ResMap在模型AlexNet, ResNet, VGG, GoogLeNet上能实现14.93%-46.12%的数据量减少,以及17.43%-46.12%的平均处理时间缩减。
系统:Cuttlefish: 面向边缘端视频分析应用的配置决策(一作)link slides code
成果:发表于CCF-A 期刊IEEE TPDS
问题描述与目标:边缘网络带宽抖动剧烈,视频内容时变多样,使用固定配置编码、传输以及推理视频可能会导致端到端时延增加、分析准确度下降等问题。本工作旨在设计一种自适应视频配置决策系统,以匹配网络和视频内容的波动;
系统设计:1)配置细粒度化:引入RoI思想,分别为块内和块外配置;2)多维影响因子:网络带宽和视频内容如物体速度都会影响视频分析性能,基于LSTM预测带宽,将物体在帧间移动的曼哈顿距离作为速度;3)配置决策方案:将带宽、速度、历史配置等信息耦合成状态向量,采用基于A3C的强化学习算法学习最优配置;
系统性能:采用FCC traces和YouTube上的行人和车辆视频,并以NVIDIA Jetson TX2作为边缘设备来验证Cuttlefish性能。对比已有策略,Cuttlefish能实现18.4%-25.8%的累积reward提升。
系统:基于观众驻点的自适应视频超分辨率系统(一作)link
成果:发表于CCF-A 期刊 IEEE TON
问题描述与目标:直播端到媒体服务间的网络带宽抖动剧烈,媒体服务器资源受限等问题,极大的影响了下行用户持续观看高质量视频的需求。本工作旨在最大化利用上行带宽,实时重构高质量直播视频,满足下行用户多样化需求;
系统设计:1)块级SR:缩小输入尺寸能大幅度降低超分辨率的重构时延,同时观众驻点区域时变;2)模型在线训练:在线训练SR模型以适应内容变化,其中训练样本为高质量驻点区域;3)决策优化:采用Lyapunov优化算法为低质量版本视频和训练样本分配传输带宽;4)块优先级排序:设计EdgeDiff过滤器进行帧级筛选,并采用yolov5捕获用户驻点区域,并提出标签优先级队列来存储标签以最大化重构质量;
系统性能:采用YouTube上的四类直播视频,并以NVIDIA Jetson TX2作为媒体服务器来验证ViChaser性能。对比已有策略如WebRTC和LiveNAS,ViChaser能提高11-16的帧处理速率。