头像

姓名:李正华

学位:

职称:教授

最新更新

4609 访问

教育经历

  • 2002.9-2013.4,哈工大计算机,本硕博

工作经历

  • 2013.8-,苏大计算机

社会职务

  • ACL-2023/2024 Area Chair; 2025 SAC

  • CCL-2022/2023 Evaluation Track Co-Chair

  • 中文信息学报责任编辑(2021年12期;2022年10期;2023年11期;2024年12期)


个人简介


李正华,男,苏州大学计算机科学与技术学院教授、博士生导师。哈尔滨工业大学本硕博。2010年在新加坡资讯通信研究院访学半年。2013年4月博士毕业,8月加入苏州大学。目前成果包括:在CCF-A/B类顶级会议和期刊上发表论文约70篇,其中14篇ACL长文,目前Google引用数~3K;获得COLING-2022 Best Long Paper(CCF-B类)NLPCC-2020最佳论文(CCF-C类)、EMNLP-2024论文获得CIPS-LMG-2024优秀海报;多次在国内外重要评测中取得第一名,如句法语义(CoNLL09、SemEval19、CoNLL19、CCL22、CCL23)、文本纠错(CTC21、CGED21、WAIC22、CAIL22、CCL23、CSIG24);主持国家自然科学基金项目4项;标注句法数据集CODT、语义数据集MuCPAD、文本纠错数据集MuCGEC、数据库问答Text2SQL数据集SeSQL;构建了汉语理解平台CUP、数据标注平台DAP、文献文本纠错平台(乐改lacorrect)。获得2023年CCF-NLPCC“青年新锐学者”。

科研方面,我最大的梦想是去回答:计算机是否可以理解人类语言?可以理解到什么程度?采用什么样的技术去理解?这些问题都很难回答。什么叫“理解”,本身就是一个问题。如何在计算机中表示句法、语义、常识、世界知识、垂直领域知识等,是人工智能最重要的挑战。也许终其一生,我也无法做出重大突破。然而,在未知的世界中,探索而来的点滴发现都令我欣喜;能够见证、理解别人的重要发现,也让我开心。

我的研究特点:钻研前沿技术、实际实用实干、数据和算法并重;不求成果数量,只求不断提高自己的能力和水平。教学方面,积累了大量笔记、板书照片、视频资源。研究生培养方面,3名博士生毕业,分别就职苏大、昆明理工、华为;约25名硕士生毕业;多人获得研究生国家奖学金;2人获得江苏省优秀硕士学位论文。

我的长远职业规划和梦想是:1)坚持第一线写代码、写论文,做有意思的科研,做一个优秀的科研工作者;2)认真上课,做一名合格的教师;3)认真指导研究生,培养出优秀的硕士和博士研究生;4)不断梳理自己掌握的知识,著书立说,用简单的文字和合适的例子,把东西讲出来。

人生苦短,珍惜时间和精力,尽量只做自己想做的,并全力做好。


邮箱联系方式:(zhli13 at suda dot edu dot cn) 

“语析LAGroup”微信公众号:1)个人思考;2)小组科研动态。



社会职务

  • ACL-2023/2024 Area Chair; 2025 SAC

  • CCL-2022/2023 Evaluation Track Co-Chair

  • 中文信息学报责任编辑(2021年12期;2022年10期;2023年11期;2024年12期)


研究领域

自然语言处理、机器学习


我近期的研究兴趣包括:

  • 基于大模型的推理;大模型知识萃取;大模型干预技术

  • 文本纠错(文本校对)

  • 词法句法分析

  • 语音文本信息融合的语言理解

  • PM2.5空气质量预测

  • 语义分析,如SRL、AMR等

  • 数据标注方法:语料库构建、语言资源构建




开授课程

zhenghua 2024-12-27: 直接编辑html


  • 2025秋

  • Linux操作系统 (网页,内含板书)

  • 2025秋

  • 研究生专业写作 (网页,内含板书)

  • 2025春

  • 信息检索综合实践 (网页,内含课件、作业、讲课视频)

  • 2024秋

  • Linux操作系统 (网页,内含板书)

  • 2024秋

  • 研究生专业写作 (网页,内含板书)

  • 2024春

  • Linux系统及应用 (2023级自考软工,网页,内含板书)

  • 2023秋

  • 研究生专业写作 (网页,内含板书)

  • 2023春

  • 2022秋

  • 研究生专业写作 (网页)

  • 2022春

  • 信息检索综合实践 (网页,内含课件、作业、讲课视频)

  • 2021秋

  • Linux系统及应用(2020级自考软工)

  • 2021春

  • 2020秋

  • Python程序设计 (网页,内含笔记、板书、讲课视频)

  • 2020春

  • Linux操作系统 (网页重新整理了2018春的视频和笔记

  • 2019秋

  • Linux操作系统 (文正学院9人,网页,内含板书)

  • 2019春

  • Linux操作系统 (网页,内含板书)

  • 2019春

  • 信息检索课程设计(网页,内含课件和作业)

  • 2018秋

  • 2018春

  • Linux操作系统 (网页,内含笔记、和视频百度云链接)

  • 2017秋

  • Python程序设计 (网页,录播课,建议看2020秋Python视频和笔记)

  • 2016秋

  • Python程序设计(网页,内含PPT)

  • 2016春

  • 信息检索课程设计 (网页,内含作业和数据)

  • 2015秋

  • 中文信息处理 (网页,内含讲义、作业和数据等,推荐看我主页中的新生编程基础练习)

  • 2015秋

  • Linux操作系统 (网页,内含PPT)



•2020-2021(2)本科计18计算机图灵Linux操作系统

•2021-2022(1)自考20自考软工3班业余Linux系统及应用

•2021-2022(2)本科计21计科信息检索综合实践

•2022-2023(1)研究生 22博士22硕士专业写作

•2022-2023(2)本科计20人工智能Linux操作系统

•2023-2024(1)研究生2023博士 2023硕士专业写作


科研项目

  • 1、基于大规模部分标注数据的依存句法分析,-2018.12 ,李正华,NSFC青年项目
  • 2、知识驱动的汉语网络文本依存句法分析,-2022.12,李正华,NSFC面上项目
  • 3、融合多源知识的跨领域汉语句子语义分析,-2025.12,李正华,NSFC面上项目
  • 4、基于大语言模型定制的汉语复杂文本错误纠正与解释,-2029.12,李正华,NSFC面上项目

论文

  • 1、http://hlt.suda.edu.cn/index.php/LA-paper-report-talk-etc,[请白天访问,或者VPN访问]
  • 2、https://scholar.google.ca/citations?user=faXAgZQAAAAJ&hl=en
  • 3、https://aclanthology.org/people/z/zhenghua-li/
  • 4、下面的网页我没有维护,可能掺杂其他人的论文
  • 5、https://www.semanticscholar.org/author/Zhenghua-Li/3221743
  • 6、https://dblp.uni-trier.de/pid/72/8937.html
  • 7、https://dblp.org/pid/72/8937.html

科技成果

软件著作
  • 1、计划45岁以后再考虑写书(目前专注在“语析LAGroup”微信公众号上写小文章)
专利
  • 1、一种数据标注方法及装置
  • 2、一种基于异构标注数据的快速序列标注方法及装置
  • 3、基于序列标注建模的多粒度分词方法及系统
  • 4、基于模式嵌入的自动树库转化方法
  • 5、基于多级词典的分词方法装置设备及可读存储介质
  • 6、基于树形循环神经网络的自动树库转化方法
  • 7、一种数据标注方法及装置
  • 8、序列标注方法、装置及序列标注模型的训练方法
  • 9、一种基于神经网络的中文分词模型的训练方法

荣誉及奖励

  • 1、钱伟长中文信息处理科学技术奖一等奖,2010
  • 2、博士生国家奖学金(哈尔滨工业大学),2012
  • 3、“NLPCC-2020最佳论文” 通讯作者(CCF-C类会议),2020
  • 4、“2021年江苏省优秀学术型硕士学位论文”指导老师,2021-11-02
  • 5、2022年苏州大学学生“我最喜爱的老师”,2022-06
  • 6、华为云"优秀创新合作团队",2022-07
  • 7、COLING-2022 Best Long Paper 通讯作者 (CCF-B类会议),2022-10-15
  • 8、“2022年江苏省优秀学术型硕士学位论文”指导老师,2022-12-14
  • 9、CCF-NLPCC“青年新锐学者”,2023-10-15
  • 10、阿里通义实验室“2024优秀学术合作项目奖”,2024-02
  • 11、第三届全国大模型智能生成大会(CIPS-LMG 2024)优秀海报奖,2024-11-30,中国中文信息学会大模型与生成专委会

招生信息

招生说明:HLT网站版本(需白天或vpn访问); github版本

NLP基础编程练习:HLT网站版本(需白天或vpn访问);github版本


请同学们邮件联系我之前,先读招生说明,并在邮件中明确“愿意接受6 天考察(每天 2 小时以上)”如果没有一定程度的科研追求(把技术搞清楚、专注做科研创新),那么不适合跟我读研究生。如果有较强的科研追求,研二可以考虑转博。

如果想要了解我,可以读:1)微信公众号“语析LAGroup”中的一些文章;2)我在研究所主页上写的一些思考(组内同学还可以看内部主页的相关思考)。

邮箱联系方式:zhli13 at suda dot edu dot cn

如果想通过我的学生了解相关情况,可以看一下我们组发表的论文,论文中有邮箱信息。

有时我一天内会收到很多申请读研究生的邮件,如果我24 小时内没有回复邮件,抓紧联系其他老师。

考察期间,如果同学担心最终没有被录取而错过其他老师,建议同时联系其他老师。


我希望在我的带领下,语析LAGroup这条小船可以在知识的海洋中不断前进,在努力做出高质量工作的同时,不断学习、消化、慎思新的知识(joy of understanding),不断追求真理。同时,我希望LAGroup的氛围是宽松的、自由的、尊重个性的、可持续发展的,而不是压榨式的、短视的。因为我相信只有这样,才能做出真正有价值的东西,且不会完全被世俗、潮流所左右。


语析LAGroup“文化”:尊重 (respect)、成长 (growth)、简单 (simplicity)、开放 (openness)创造、交流、传播知识的平台;师生不断取得个人成长的象牙塔。尊重是基础、成长是目标、简单是风格、开放是格局。】


求真、务实、独立、自由 【2024年12月之前的“组训”,有点沉重】



在读学生 (含研究课题)


2020级博士(1):

    刘亚慧(山东农大考研18硕、直博;语义分析)

2021级博士(1):

    周厚全(矿大保研19硕、直博、阿里实习;文本纠错)

2022级博士(2):

    侯    洋(苏大保研20硕、直博;句法分析)

    周仕林(苏大20硕、直博、上海AI Lab实习;语音文本融合处理)

2025级博士(1):

    周月驰(苏大保研23硕、直博)

2026级博士:

    欢迎有志于科研、有扎实基础的同学 发邮件联系。As Early As Possible. 求贤若渴;Yet 精挑细选,希望和我品性相匹配

2027级博士:

    同上

-----

2023级硕士(4):

    陈杰琳(国际关系学院、博世苏州实习;PM2.5预测)

    乔子恒(苏大保研、美团上海实习;文本纠错)

    王学彬(西南交通保研、小米武汉实习;语音文本融合处理)

    张紫岩(苏大、和龚晨老师共同指导、美团上海实习;句法分析)

2024级硕士(1):

    周昊喆(长安大学)

2025级硕士(2):

    吕    喆(天津科技保研)

    梅睿桐(昆明理工)

2026级硕士:

    请尽早联系。保研同学在拿到保研资格之前就可以联系。考研初试结束后,预估可以考上,就可以联系我。



毕业学生 (含学位论文题目)


2018级博士(2):

    龚    晨(苏大保研16硕、直博、苏大任教;汉语多粒度词语结构分析及其应用研究)[2022.6]

    夏庆荣(苏大保研16硕、直博、华为;句法感知的语义角色标注方法研究)[2022.6]

2017级博士(1):

    李    英(昆明理工考博、昆明理工任教;依存句法分析领域移植研究)[2022.6]

-----

2022级硕士(4):【共30名硕士毕业】

    辜仰淦(广东工业保研、港科大广州实习、外校读博;基于图的句法语义联合分析研究)

    蒋浩辰(苏大、微软苏州实习、百度;大模型知识增强的汉语文本纠错方法研究与系统实现)

    刘雨萌(江南大学保研、航天创新院实习、转正;融入多源知识的文本纠错研究

    马    溪(太原理工、小米实习、美团;基于片段建模的多粒度分词和命名实体识别研究)

2021级硕士(6):

    崔秀莲(苏大保研;基于实例的词性数据标注错误检测研究)

    窦晨晖(苏大、和龚晨老师共同指导、公务员;基于一体化建模的汉语词语层次化结构分析及应用技术

    黄赛豪(苏大保研、百度实习、得物;中文text-to-SQL数据集构建及解析方法研究)

    严福康(苏大、小米;基于词典释义的汉语词义消歧研究)

    张    磊(文正、美团实习、科沃斯;面向汉语分词的语音文本信息融合技术研究

    章    岳(苏大保研、阿里+腾讯实习、字节;中⽂⽂本纠错数据构建及建模⽅法研究)

2020级硕士(4+2):

    李嘉诚(燕山大学、字节实习、中国移动研究院西安;融入混淆集知识的中文语法纠错研究)

    李帅克(苏大保研、百度实习、创业;利用多源数据的零样本跨领域依存句法分析

    李    扬(苏大、华为实习、中国移动研究院苏州;基于条件随机场自编码器的无监督与低资源词性标注)

    刘泽洋(华北电力、百度实习、公务员;面向汉语数据库问答的数据标注平台和语义解析模型构建)

    侯    洋(苏大保研、直博)

    周仕林(苏大、直博)

2019级硕士(2+1):

    杨浩苹(苏大保研、唯品会实习、思必驰;句法驱动的跨领域汉语语义角色标注研究)

    周明月(苏大保研;多领域依存句法树库构建及模型训练方法研究)

    周厚全(矿大保研、直博)

2018级硕士(4+1):

    蒋    炜(苏大、华为实习、转正;句法驱动的基于UCCA表示的句子语义分析

    陆凯华(苏大、华为实习、上海银行;汉语词语上下位关系分类及挖掘研究)

    吴    锟(浙江理工、百度实习、转正、协助周夏冰老师指导;面向汉语知识库问答的语义解析方法研究)

    张    宇(苏大、阿里实习、读博 [导师:付国宏老师];基于树形条件随机场的高阶句法分析[江苏省优秀硕士论文]

    刘亚慧(山东农大、直博)

2017级硕士(3):

    黄德朋(苏科技、华为杭州实习、小红书;基于神经耦合序列标注的异构数据转化和融合

    彭    雪(山东农大、华为杭州实习、移动苏州;半监督汉语依存句法分析领域移植研究)

    章    波(苏大、阿里巴巴杭州达摩院实习、转正;面向依存句法的树库转化与应用研究[江苏省优秀硕士论文]

2016级硕士(3+2):

    郭丽娟(江西财经保研、科沃斯实习、狗尾草公司工作;汉语依存句法分析树库构建与应用研究)

    孙佳伟(北航、搜狗北京实习、微软苏州工作;汉语词语上下位关系分类研究)

    朱    运(山西大学、搜狗北京工作;融合多源特征和数据的汉语分词领域移植研究)

    龚    晨(苏大保研、直博)

    夏庆荣(苏大保研、直博)

2015级硕士(3):

    陈    伟(南阳理工、爱奇艺北京实习、转正、协助陈文亮老师指导;知识图谱的获取相关技术研究与开发)

    凡子威(滁州学院、科大讯飞北京实习、搜狗北京工作;数据驱动的浅层篇章结构分析研究)

    张    月(苏大保研、阿里巴巴杭州实习、转正;基于局部标注的依存句法分析研究)

2014级硕士(1)[2017春毕业]:

    巢佳媛(苏大、微软北京实习、阿里巴巴杭州工作;面向序列标注问题的异构数据融合