计算机科学与技术学院（软件学院）

论文

（1）近五年代表性论文：

2018年：

1. 刘全, 翟建伟, 章宗长, 钟珊, 周倩, 章鹏, 徐进. 深度强化学习综述. 计算机学报, 2018, 41（1）:1-27

2. 陈东火, 刘全, 朱斐, 金海东. 基于凸多面体抽象域的自适应强化学习技术研究. 计算机学报, 2018, 41（1）:112-131

2017年：

3. 刘全, 章鹏, 钟珊章, 钱伟晟, 翟建伟. 连续空间中的一种动作加权行动者评论家算法. 计算机学报, 2017, 40（6）:1252-1264

4. 刘全, 翟建伟, 钟珊, 章宗长, 周倩, 章鹏. 一种基于视觉注意力机制的深度循环Q网络模型. 计算机学报, 2017, 40（6）:1353-1366

5. 朱斐, 刘全, 傅启明, 陈冬火, 王辉, 伏玉琛. 一种不稳定环境下的策略搜索及迁移方法. 电子学报, 2017, 45（2）:258-266

6. 梁斌, 刘全, 徐进, 周倩, 章鹏. 基于多注意力卷积神经网络的特定目标情感分析. 计算机研究与发展, 2017, 54（8）:1724-1735

7. 章鹏, 刘全, 钟珊, 翟建伟, 钱伟晟. 增量式自然策略梯度的行动者评论家算法. 通信学报, 2017, 38（4）:166-177

2016年：

8. 刘全, 于俊, 傅启明, 王辉, 朱斐. 一种基于随机投影的贝叶斯时间差分算法. 电子学报, 2016, 44（11）:2752-2757

9. 陈东火, 刘全, 金海东, 朱斐, 王辉. 具有程序的静态结构和动态行为语义的时序逻辑. 计算机研究与发展, 2016, 53（9）:2067-2084

10. Zhang Zongzhang, FuQiming, Zhang Xiaofang, Liu Quan. Reasoning and predicting POMDP planningcomplexity via covering numbers[J]. Frontier of Computer Science, 2016, 10(4): 726-740

11. Zhong Shan, Liu Quan,Fu Qiming. Efficient actor critic algorithm with Hierarchical Model Learningand Planning [J]. Computational Intelligenceand Neuroscience, 2016, 20(4): 489-500

12. QianWeisheng, Liu Quan, Zhang Zongzhang, Pan Zhiyuan, Zhong Shan. Policy graphic pruning and optimization inMonte Carlo value iteration for continuous-state POMDPs[C]. Proc. of the 27th International IEEE Symposium on Adaptive Dynamic Programming and ReinforcementLearning（ADPRL）, Athens, 2016

13. Zhang Zongzhang, LiuQuan. Covering Number: Analyses for approximate continuous state POMDPplanning[C]. Proc. of the 15th International Conference on AutonomousAgents and Multiagent Systems（AAMAS-2016）, Singapore, 2016

2015年：

14. 刘全, 傅启明, 肖飞, 周鑫. 基于自适应归一化RBF网络的Q-V值函数协同逼近模型. 计算机学报，2015,38（7）:1386-1396

15. 钟珊, 刘全, 傅启明, 章宗长, 朱斐, 龚声蓉. 一种近似模型表示的启发式Dyna优化算法. 计算机研究与发展，2015,52（12）:2764-2775

16. 施梦宇, 刘全, 傅启明. 支持合并的自适应Tilecoding算法. 通信学报, 2015, 36（2）:2015047

17. Zhou Yicheng, LiuQuan, Fu Qiming, Zhang Zongzhang. Trajectory sampling value iteration:improve dyna search for MDPs [C]. Proc. of the 14th InternationalConference on Autonomous Agents and Multiagent Systems（AAMAS-2015）, Istanbul, 2015

18. YouShuhua, Liu Quan, Fu Qiming, Zhong Shan, Zhu Fei. A Byesian sarsa learning algorithm with Bandit-based method[C]. TheInternational Conference on Neural Information Processing（ICONIP）,Istanbul, 2015

19. XuDan, Liu Quan. An improved Actor-criticmethod for POMDPs with internal state[C]. IEEE International Conference onTools with Artificial Intelligence（ICTAI2015）， Salerno，2015

20. YouShuhua, Liu Quan, Zhang Zongzhang, Wang Hui. Intelligent model learning based on variance for Bayesian reinforcementlearning [C]. IEEE International Conference on Tools with ArtificialIntelligence（ICTAI 2015） Salerno， 2015

2014年：

21. 傅启明, 刘全, 王辉, 肖飞, 于俊, 李娇. 一种基于线性函数逼近的离策略Q(l)算法. 计算机学报,2014, 37(3)：77-88

22. 朱斐, 刘全, 傅启明, 伏玉琛. 一种用于连续动作空间的最小二乘行动者-评论家方法. 计算机研究与发展, 2014, 51(3) ：548-558

23. 黄蔚, 刘全, 孙宏坤, 傅启明, 周小科. 基于拓扑序列更新的值迭代算法. 通信学报, 2014, 35（8）:56-62

24. 傅启明, 刘全, 尤淑华, 黄蔚, 章晓芳. 一种新的基于值函数迁移的快速Sarsa算法. 电子学报, 2014,42（11）:2157-2161

25.Zhufei,Liu Quan, Wang Hui, Zhou Xiaoke, Fu Yuchen. Unregistered biological words recognition by Q-learning with transfer learning[J]. The Scientific World Journal, 2014, 1-9

26. Zhou Xiaoke, Zhu Fei, Liu Quan, Fu Yuchen, and HuangWei. A Sarsa(λ)-Based Control Model for Real-Time Traffic Light Coordination, TheScientific World Journal, vol. 2014, Article ID 759097, 7 pages, 2014.doi:10.1155/2014/759097

2013年：

27. 刘全, 李瑾, 傅启明, 崔志明, 伏玉琛. 一种最大集合期望损失的多目标Sarsa算法[J]. 电子学报, 2013, 43（8）：1469-1473

28. 傅启明, 刘全, 伏玉琛, 周谊成, 于俊. 一种高斯过程的带参近似策略迭代算法[J] . 软件学报, 2013, 24（11）：2676-2686

29. 孙洪坤, 刘全, 傅启明, 肖飞, 高龙. 一种优先级扫描的Dyna结构优化算法[J]. 计算机研究与发展, 2013, 50(10)：2176-2184

30. 刘全, 傅启明, 杨旭东, 荆玲, 李瑾, 李娇. 一种基于智能调度的可扩展并行强化学习方法[J]. 计算机研究与发展, 2013, 50（4）：843-851

31. 于俊, 刘全, 傅启明, 孙洪坤, 陈桂兴. 基于优先级扫描Dyna结构的贝叶斯Q学习方法[J]. 通信学报,2013, 34(11)：129-139

32. 穆翔, 刘全, 傅启明, 孙洪坤, 周鑫. 基于两层模糊划分的时间差分算法[J]. 通信学报, 2013, 34(10)：92-99

33. 肖飞, 刘全, 傅启明, 孙洪坤, 高龙. 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(l)算法. 通信学报,2013, 34(1)：77-88

34. 刘全, 杨旭东, 荆玲. 基于多Agent并行采样和学习经验复用的E3算法. 吉林大学学报, 2013, 43(1)：135-140

35. 刘全, 杨凯, 伏玉琛, 张书奎. 一种三角形网格空洞修复算法. 电子学报, 2013, 43(2)：209-213

36. 陈冬火, 刘全. 基于符号执行和LTL公式重写的测试用例产生方法. 计算机研究与发展. 2013, 50（12）：2661-2675

37. Yang Xudong, Liu Quan, Jing Ling, Yang Kai. A scalable parallel reinforcement learning methodbased on divide-and-conquer[J]. Chinese Journal of Electronics, 2013,22(2): 242-246

38. Liu Quan, Mu Xiang, Huangwei, Fu Qiming, ZhangYonggang. A Sarsa algorithm based on double-layerfuzzy reasoning[J]. Mathematical Problems in Engineering, 2013

39. Liu Quan, Fu Qiming, Xiao Fei, Fu Yuchen. A gradient descent sarsa algorithm based onthe adaptive reward-shaping mechanism[J]. Intelligent Automation and SoftComputing, 2013, 19(4): 599-612

40. Liu Quan, Yang Xudong, Jing Ling, Li Jin, LiJiao. A parallel scheduling algorithm forreinforcement learning in large state space[J]. Frontier of Computer Science, 2013, 6(6):631-646

41. Fu Yuchen, Liu Quan. Research of qos rounting algorithm in Ad Hoc networks based onreinforcement learning[J]. Electronics and Electrical Engineering. 2013,19(2): 83-87

42.Fei Zhu, Quan Liu*, Yuchen Fu, Bairong Shen. Segmentation of neuronal structures using SARSA (λ)-based boundary amendment with reinforced gradient-descent curve shape fitting[J]. PLOS ONE, Accepted and to be published

43. Fu Qiming, Liu Quan*, Xiao Fei, Chen Guixing. The second order temporal difference errorfor sarsa. In: IEEE Symposium on Adaptive Dynamic Programming andReinforcement Learning (ADPRL), 2013

2012年：

44. 刘全, 陈浩, 张永刚, 李娇, 张沈斌. 一种动态挥发率和启发式修正的蚁群优化算法[J]. 计算机研究与发展,2012, 49（3）： 620-627

45. 刘全, 王晓燕, 傅启明, 张永刚, 章晓芳. 双精英协同进化遗传算法[J]. 软件学报, 2012, 23（4）：765-775

46. 刘纯平,Chen Fu-hua, 龚声蓉, 崔志明, 刘全. 基于相变和似然性的多相图像分割方法[J].计算机学报,2012, 35（2）：375-385

47. Weng Dongliang, Yang Lu, Liu Quan, Fu Yuchen. Type-2 fuzzy Logical based deadlockdetection[J]. International Journal of Digital Content Technology and ItsApplications, 2012,6(1): 429-438

2011年：

48. 刘全, 闫其粹, 伏玉琛,Christian Bessiere, 张永刚, 胡道京. 一种基于启发式奖赏函数的分层强化学习方法[J]. 计算机研究与发展,2011, 48（12）：2352-2358

49. 刘全, 傅启明, 龚声蓉, 伏玉琛, 崔志明. 最小状态变元平均奖赏的强化学习方法[J]. 通信学报, 2011, 32（1）：66-71

50. 刘全, 张乐, 张永刚, Christian Bessiere, 王晓燕. 一种基于角点特征的几何同步数字水印算法[J]. 通信学报,2011, 32（4）：25-31

51. 李娇, 刘全, 傅启明, 王庭钢. 分布式数据库中基于局部CON模型的记录匹配方法[J]. 通信学报, 2011, 32（7）：196-202

52. 傅启明, 刘全, 王晓燕, 张乐. 遗传反馈的多特征图像检索[J].中国图象图形学报, 2011, 16(10) ：1858-1865

53. 周恩策, 刘纯平, 张玲燕, 龚声蓉, 刘全. 基于时间窗的自适应核密度估计运动检测方法[J]. 通信学报, 2011, 32（3）:106-115

54. Fu Qi-ming, Liu Quan,Wang Xiao-yan, Zhang Le. Relevance feedback techniques and genetic algorithmfor image retrieval based on multiple features[J]. InternationalJournal Modeling, Identification and Control, 2011, 14(4): 279-285

55. Wang Xiao-yan, LiuQuan, Fu Qi-ming, Zhang Le. Double elite co-evolutionsry genetic algorithm[J]. International Journal Computer Science andEngineering, 2011, 6(1/2): 67-75

56. Chen Zhong-wen, LiuQuan. Convergence of Affine-scaling Interior-point Methods with Line Searchfor Box Constrained Optimization[J].Numerical Functional Analysis and Optimization, 2011, 32(2):1-22

（2）专著及教材

1. 刘全, 傅启明, 钟珊, 黄蔚. 大规模强化学习, 北京: 科学出版社, 2016.

2. 杨洋, 刘全. 软件系统分析与体系结构设计, 江苏: 东南大学出版社, 2017.

（3） 专利及软件著作权

1. 发明专利名称：一种控制数码提花机织造彩色图案的方法，专利号：201010267477.8

2. 发明专利名称：基于行动者-评论家方法的机器人运动控制方法和装置，专利号：201610232236.7

3. 发明专利名称：一种基于多智能算法及图象融合技术的图象检索方法，专利申请号：201110357386.8

4. 发明专利名称：一种基于强化学习的路面交通信号灯协调控制方法，专利号：2017041200590710

5. 发明专利名称：基于交通监控视频的路况实时获取方法，专利号：2017030800289510

6. 发明专利名称：一种基于模型学习的清洁机器人最优目标路径规划方法，专利号：20161017185918

7. 软件著作权：遗传算法仿真平台分析与实现软件, 登记号：2010SR069051

8. 软件著作权：图象数字水印处理技术, 登记号：2010SR056211

9. 软件著作权：基于PKI的电子签章软件, 登记号：2010SR056210

10. 软件著作权：时间差分学习方法仿真平台软件, 登记号：2011SR092527

11. 软件著作权：强化学习动态规划方法仿真平台软件, 登记号：2012SR0001000

荣誉奖励