- 个人信息
- 科学研究
- 成果奖励
- 教学招生
个人信息
个人简介
个人简介 刘全,男,1969年10月生,教授,博士生导师。 毕业于吉林大学计算机软件与理论专业,获博士学位, 南京大学软件新技术国家重点实验室博士后。近年来,共主持了“石油勘探开发分布式数据库建设”、“基于tableau的逻辑强化学习研究”等国家级项目8项,主持了“采油工程信息可视化系统”、“油田信息处理网络系统”、“基于核方法的强化学习应用研究”等省部级和市(局)级科研项目10多项,获省部级科技进步奖 2项,市(局)级科技进步奖 8项。先后在国内外学术会议及《计算机学报》、《软件学报》等国内核心期刊和统计源期刊上发表论文80余篇,其中 30篇被SCl检索,40篇被 EI检索。目前主要研究方向为:深度学习、强化学习、统计软件工程、分布式数据库检索及修正、网络信息安全及处理等。 2012年获江苏省教工委优秀共产党员称号。2011年、2012年入选江苏省“六大人才”、江苏省“333”人才培养计划。目前为《通信学报》编委。E-mail:quanliu@suda.edu.cn 研究领域
智能计算、深度学习、强化学习、自动推理、统计软件工程、分布式数据库检索及修正、网络信息安全及处理。 主持的省级以上项目(只列出第一负责人项目) 1. 基于部分感知模型的贝叶斯强化学习理论及方法(201801-202112),国家自然科学基金 2. 基于模糊逻辑的大规模强化学习理论及方法(201501-201812),国家自然科学基金 3. 基于贝叶斯推理的模糊逻辑强化学习模型(61272005)(201301-201512),国家自然科学基金 4. 面向tableau模型的逻辑强化学习理论及方法研究(61070223)(201101-201312),国家自然科学基金 基本信息
![]() 职称:教授 院部/部门:计算机科学与技术学院(软件学院) 学历: 学位: 毕业学校: 毕业专业: 联系方式
通讯地址: 邮政编码: 电子邮箱:quanliu@suda.edu.cn 联系电话:18051113532 传真号码: 办公地点:计算机科学与技术学院 科学研究
科研团队
智能计算与认知软件 课题组简介:智能计算与认知软件学科方向针对国家信息化发展及重大工程对软件的战略需求,采用人工智能理论和软件工程相结合的方法,以机器学习和智能计算为基础,主要开展关于深度学习、强化学习、智能软件测试、软件自适应验证检测、智能生物计算等方面的研究。开发了深度强化学习仿真与应用平台、智能软件测试与验证平台等,并应用于图像分析、智能交通、认知规划等大型软件中,为认知软件和自适应软件的研发提供了科学支撑。近五年来,依托苏州大学计算机科学、软件工程两个一级学科,在深度学习、强化学习、智能软件分析及测试、逻辑软件模型生成与检测、生物计算等方面取得了一批重要成果。承担了国家级、省部级项目30余项,在国内外权威期刊、会议发表论文80余篇,出版著作4部。并形成了一支具有团结协作、富于挑战、勇于创新的学术队伍。团队负责人:刘全 团队组成人员: 教 授:刘全、崔志明、徐汀荣 讲 师:陈冬火、周小科、王辉、金海东、陈越 论文
(1)近五年代表性论文: 2018年: 1. 刘 全, 翟建伟, 章宗长, 钟 珊, 周 倩, 章鹏, 徐 进. 深度强化学习综述. 计算机学报, 2018, 41(1):1-27 2. 陈东火, 刘 全, 朱斐, 金海东. 基于凸多面体抽象域的自适应强化学习技术研究. 计算机学报, 2018, 41(1):112-131 2017年: 3. 刘 全, 章 鹏, 钟珊章, 钱伟晟, 翟建伟. 连续空间中的一种动作加权行动者评论家算法. 计算机学报, 2017, 40(6):1252-1264 4. 刘 全, 翟建伟, 钟珊, 章宗长, 周 倩, 章鹏. 一种基于视觉注意力机制的深度循环Q网络模型. 计算机学报, 2017, 40(6):1353-1366 5. 朱 斐, 刘 全, 傅启明, 陈冬火, 王 辉, 伏玉琛. 一种不稳定环境下的策略搜索及迁移方法. 电子学报, 2017, 45(2):258-266 6. 梁 斌, 刘 全, 徐进, 周 倩, 章 鹏. 基于多注意力卷积神经网络的特定目标情感分析. 计算机研究与发展, 2017, 54(8):1724-1735 7. 章 鹏, 刘 全, 钟珊, 翟建伟, 钱伟晟. 增量式自然策略梯度的行动者评论家算法. 通信学报, 2017, 38(4):166-177 2016年: 8. 刘 全, 于 俊, 傅启明, 王 辉, 朱 斐. 一种基于随机投影的贝叶斯时间差分算法. 电子学报, 2016, 44(11):2752-2757 9. 陈东火, 刘 全, 金海东, 朱 斐, 王 辉. 具有程序的静态结构和动态行为语义的时序逻辑. 计算机研究与发展, 2016, 53(9):2067-2084 10. Zhang Zongzhang, FuQiming, Zhang Xiaofang, Liu Quan. Reasoning and predicting POMDP planningcomplexity via covering numbers[J]. Frontier of Computer Science, 2016, 10(4): 726-740 11. Zhong Shan, Liu Quan,Fu Qiming. Efficient actor critic algorithm with Hierarchical Model Learningand Planning [J]. Computational Intelligenceand Neuroscience, 2016, 20(4): 489-500 12. QianWeisheng, Liu Quan, Zhang Zongzhang, Pan Zhiyuan, Zhong Shan. Policy graphic pruning and optimization inMonte Carlo value iteration for continuous-state POMDPs[C]. Proc. of the 27th International IEEE Symposium on Adaptive Dynamic Programming and ReinforcementLearning(ADPRL), Athens, 2016 13. Zhang Zongzhang, LiuQuan. Covering Number: Analyses for approximate continuous state POMDPplanning[C]. Proc. of the 15th International Conference on AutonomousAgents and Multiagent Systems(AAMAS-2016), Singapore, 2016 2015年: 14. 刘 全, 傅启明, 肖 飞, 周 鑫. 基于自适应归一化RBF网络的Q-V值函数协同逼近模型. 计算机学报,2015,38(7):1386-1396 15. 钟珊, 刘 全, 傅启明, 章宗长, 朱 斐, 龚声蓉. 一种近似模型表示的启发式Dyna优化算法. 计算机研究与发展,2015,52(12):2764-2775 16. 施梦宇, 刘 全, 傅启明. 支持合并的自适应Tilecoding算法. 通信学报, 2015, 36(2):2015047 17. Zhou Yicheng, LiuQuan, Fu Qiming, Zhang Zongzhang. Trajectory sampling value iteration:improve dyna search for MDPs [C]. Proc. of the 14th InternationalConference on Autonomous Agents and Multiagent Systems(AAMAS-2015), Istanbul, 2015 18. YouShuhua, Liu Quan, Fu Qiming, Zhong Shan, Zhu Fei. A Byesian sarsa learning algorithm with Bandit-based method[C]. TheInternational Conference on Neural Information Processing(ICONIP),Istanbul, 2015 19. XuDan, Liu Quan. An improved Actor-criticmethod for POMDPs with internal state[C]. IEEE International Conference onTools with Artificial Intelligence(ICTAI2015), Salerno,2015 20. YouShuhua, Liu Quan, Zhang Zongzhang, Wang Hui. Intelligent model learning based on variance for Bayesian reinforcementlearning [C]. IEEE International Conference on Tools with ArtificialIntelligence(ICTAI 2015) Salerno, 2015 2014年: 21. 傅启明, 刘 全, 王 辉, 肖 飞, 于 俊, 李 娇. 一种基于线性函数逼近的离策略Q(l)算法. 计算机学报,2014, 37(3):77-88 22. 朱 斐, 刘 全, 傅启明, 伏玉琛. 一种用于连续动作空间的最小二乘行动者-评论家方法. 计算机研究与发展, 2014, 51(3) :548-558 23. 黄 蔚, 刘 全, 孙宏坤, 傅启明, 周小科. 基于拓扑序列更新的值迭代算法. 通信学报, 2014, 35(8):56-62 24. 傅启明, 刘 全, 尤淑华, 黄 蔚, 章晓芳. 一种新的基于值函数迁移的快速Sarsa算法. 电子学报, 2014,42(11):2157-2161 25.Zhufei,Liu Quan, Wang Hui, Zhou Xiaoke, Fu Yuchen. Unregistered biological words recognition by Q-learning with transfer learning[J]. The Scientific World Journal, 2014, 1-9 26. Zhou Xiaoke, Zhu Fei, Liu Quan, Fu Yuchen, and HuangWei. A Sarsa(λ)-Based Control Model for Real-Time Traffic Light Coordination, TheScientific World Journal, vol. 2014, Article ID 759097, 7 pages, 2014.doi:10.1155/2014/759097 2013年: 27. 刘 全, 李瑾, 傅启明, 崔志明, 伏玉琛. 一种最大集合期望损失的多目标Sarsa算法[J]. 电子学报, 2013, 43(8):1469-1473 28. 傅启明, 刘 全, 伏玉琛, 周谊成, 于 俊. 一种高斯过程的带参近似策略迭代算法[J] . 软件学报, 2013, 24(11):2676-2686 29. 孙洪坤, 刘 全, 傅启明, 肖 飞, 高 龙. 一种优先级扫描的Dyna结构优化算法[J]. 计算机研究与发展, 2013, 50(10):2176-2184 30. 刘 全, 傅启明, 杨旭东, 荆玲, 李瑾, 李娇. 一种基于智能调度的可扩展并行强化学习方法[J]. 计算机研究与发展, 2013, 50(4):843-851 31. 于 俊, 刘 全, 傅启明, 孙洪坤, 陈桂兴. 基于优先级扫描Dyna结构的贝叶斯Q学习方法[J]. 通信学报,2013, 34(11):129-139 32. 穆 翔, 刘 全, 傅启明, 孙洪坤, 周 鑫. 基于两层模糊划分的时间差分算法[J]. 通信学报, 2013, 34(10):92-99 33. 肖 飞, 刘 全, 傅启明, 孙洪坤, 高 龙. 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(l)算法. 通信学报,2013, 34(1):77-88 34. 刘 全, 杨旭东, 荆 玲. 基于多Agent并行采样和学习经验复用的E3算法. 吉林大学学报, 2013, 43(1):135-140 35. 刘 全, 杨 凯, 伏玉琛, 张书奎. 一种三角形网格空洞修复算法. 电子学报, 2013, 43(2):209-213 36. 陈冬火, 刘 全. 基于符号执行和LTL公式重写的测试用例产生方法. 计算机研究与发展. 2013, 50(12):2661-2675 37. Yang Xudong, Liu Quan, Jing Ling, Yang Kai. A scalable parallel reinforcement learning methodbased on divide-and-conquer[J]. Chinese Journal of Electronics, 2013,22(2): 242-246 38. Liu Quan, Mu Xiang, Huangwei, Fu Qiming, ZhangYonggang. A Sarsa algorithm based on double-layerfuzzy reasoning[J]. Mathematical Problems in Engineering, 2013 39. Liu Quan, Fu Qiming, Xiao Fei, Fu Yuchen. A gradient descent sarsa algorithm based onthe adaptive reward-shaping mechanism[J]. Intelligent Automation and SoftComputing, 2013, 19(4): 599-612 40. Liu Quan, Yang Xudong, Jing Ling, Li Jin, LiJiao. A parallel scheduling algorithm forreinforcement learning in large state space[J]. Frontier of Computer Science, 2013, 6(6):631-646 41. Fu Yuchen, Liu Quan. Research of qos rounting algorithm in Ad Hoc networks based onreinforcement learning[J]. Electronics and Electrical Engineering. 2013,19(2): 83-87 42.Fei Zhu, Quan Liu*, Yuchen Fu, Bairong Shen. Segmentation of neuronal structures using SARSA (λ)-based boundary amendment with reinforced gradient-descent curve shape fitting[J]. PLOS ONE, Accepted and to be published 43. Fu Qiming, Liu Quan*, Xiao Fei, Chen Guixing. The second order temporal difference errorfor sarsa. In: IEEE Symposium on Adaptive Dynamic Programming andReinforcement Learning (ADPRL), 2013 2012年: 44. 刘 全, 陈 浩, 张永刚, 李娇, 张沈斌. 一种动态挥发率和启发式修正的蚁群优化算法[J]. 计算机研究与发展,2012, 49(3): 620-627 45. 刘 全, 王晓燕, 傅启明, 张永刚, 章晓芳. 双精英协同进化遗传算法[J]. 软件学报, 2012, 23(4):765-775 46. 刘纯平,Chen Fu-hua, 龚声蓉, 崔志明, 刘 全. 基于相变和似然性的多相图像分割方法[J].计算机学报,2012, 35(2):375-385 47. Weng Dongliang, Yang Lu, Liu Quan, Fu Yuchen. Type-2 fuzzy Logical based deadlockdetection[J]. International Journal of Digital Content Technology and ItsApplications, 2012,6(1): 429-438 2011年: 48. 刘 全, 闫其粹, 伏玉琛,Christian Bessiere, 张永刚, 胡道京. 一种基于启发式奖赏函数的分层强化学习方法[J]. 计算机研究与发展,2011, 48(12):2352-2358 49. 刘 全, 傅启明, 龚声蓉, 伏玉琛, 崔志明. 最小状态变元平均奖赏的强化学习方法[J]. 通信学报, 2011, 32(1):66-71 50. 刘 全, 张 乐, 张永刚, Christian Bessiere, 王晓燕. 一种基于角点特征的几何同步数字水印算法[J]. 通信学报,2011, 32(4):25-31 51. 李 娇, 刘 全, 傅启明, 王庭钢. 分布式数据库中基于局部CON模型的记录匹配方法[J]. 通信学报, 2011, 32(7):196-202 52. 傅启明, 刘 全, 王晓燕, 张乐. 遗传反馈的多特征图像检索[J].中国图象图形学报, 2011, 16(10) :1858-1865 53. 周恩策, 刘纯平, 张玲燕, 龚声蓉, 刘 全. 基于时间窗的自适应核密度估计运动检测方法[J]. 通信学报, 2011, 32(3):106-115 54. Fu Qi-ming, Liu Quan,Wang Xiao-yan, Zhang Le. Relevance feedback techniques and genetic algorithmfor image retrieval based on multiple features[J]. InternationalJournal Modeling, Identification and Control, 2011, 14(4): 279-285 55. Wang Xiao-yan, LiuQuan, Fu Qi-ming, Zhang Le. Double elite co-evolutionsry genetic algorithm[J]. International Journal Computer Science andEngineering, 2011, 6(1/2): 67-75 56. Chen Zhong-wen, LiuQuan. Convergence of Affine-scaling Interior-point Methods with Line Searchfor Box Constrained Optimization[J].Numerical Functional Analysis and Optimization, 2011, 32(2):1-22 (2)专著及教材 1. 刘全, 傅启明, 钟珊, 黄蔚. 大规模强化学习, 北京: 科学出版社, 2016. 2. 杨 洋, 刘全. 软件系统分析与体系结构设计, 江苏: 东南大学出版社, 2017. (3) 专利及软件著作权 1. 发明专利名称:一种控制数码提花机织造彩色图案的方法,专利号:201010267477.8 2. 发明专利名称:基于行动者-评论家方法的机器人运动控制方法和装置,专利号:201610232236.7 3. 发明专利名称:一种基于多智能算法及图象融合技术的图象检索方法,专利申请号:201110357386.8 4. 发明专利名称:一种基于强化学习的路面交通信号灯协调控制方法,专利号:2017041200590710 5. 发明专利名称:基于交通监控视频的路况实时获取方法,专利号:2017030800289510 6. 发明专利名称:一种基于模型学习的清洁机器人最优目标路径规划方法,专利号:20161017185918 7. 软件著作权:遗传算法仿真平台分析与实现软件, 登记号:2010SR069051 8. 软件著作权:图象数字水印处理技术, 登记号:2010SR056211 9. 软件著作权:基于PKI的电子签章软件, 登记号:2010SR056210 10. 软件著作权:时间差分学习方法仿真平台软件, 登记号:2011SR092527 11. 软件著作权:强化学习动态规划方法仿真平台软件, 登记号:2012SR0001000 荣誉奖励
开授课程
博士:《深度强化学习理论及方法》 招生信息
2019年招收全日制博士1-2名,学硕和专硕5名。 |