以chatgpt为代表的大模型的发展给软件质量保障带来了新机遇。本论坛重点关注国内在大模型时代下的软件质量保障问题上的最新进展,内容主要涵盖大模型赋能的软件质量保障研究(llm4qa),包括基于大模型的软件测试、代码优化、代码翻译、开源生态分析、多智能体协作等方面。欢迎软件工程、人工智能等学科的专家和学者前来参加。
01
论坛组织委员会
王赞(天津大学)
王莹(东北大学)
陈碧欢(复旦大学)
姚远(南京大学)
张敏灵(东南大学)
02
论坛议程

03
论坛报告嘉宾简介

张令明
报告题目:大模型时代的软件质量保证
报告摘要:
近年来,大语言模型(如gpt-4和claude-3.5等)在包括软件工程在内的各个领域下游应用中表现出色。在本次报告中,我将讨论代码大模型对软件质量保证这一重要问题的潜在影响,以及我们小组近几年的探索和经验。我将首先介绍大模型为真实大规模软件系统的更好质量保证所带来的新机会和可能性。接下来,我将讨论代码大模型本身以及深度学习带来的新的质量保证问题和挑战。最后我将简要探讨大模型时代我们软件工程研究者应如何定位自己,并如何与代码大模型乃至通用大模型互相赋能和共同演化。
报告人简介:
张令明现任美国伊利诺伊大学香槟分校(uiuc)计算机系副教授。博士毕业于美国德州大学奥斯汀分校(ut austin),并分别于北京大学和南京大学获得硕士及学士学位。主要从事软件工程、程序语言以及机器学习的交叉研究。首次提出了一系列基于大模型的软件系统测试和修复技术(如titanfuzz、alpharepair及chatrepair),并发布了一系列开源代码大模型(如starcoder2和magicoder)及其验证数据集(如evalplus),其中一些技术和数据集已经被多个业界最新代码大模型所采用(包括meta llama3.1和mistral large2等)。近期发布的agentless ai全自动程序员在swe-bench上所有开源方案中排名第一,并已被openai采用。近年来担任软件工程和程序语言领域多个国际会议的程序委员会共同主席或者副主席(ase 2025、oopsla 2024等),受邀为多个会议和研讨会做主题报告(issta 2024,湘南会议等),并创办了第一届代码大模型workshop(llm4code 2024)。详细信息请见:http://lingming.cs.illinois.edu/

梁广泰
报告题目:aigc时代下软件质量保障技术发展趋势与实践
报告摘要:
aigc时代下,软件研发模式、研发工具、软件形态及组成成分乃至研发组织结构都将会发生一系列变化。本报告将带领听众围绕aigc背景下的软件形态及研发模式变化趋势进行洞察分析,进而梳理归纳出aigc时代下的软件质量保障方面所面临的新型安全风险与挑战。
之后围绕上述风险与挑战,选取业界最新代表性工作及华为云近期工作(含开源漏洞智能精华、零日开源漏洞智能发现、代码问题智能修复等)等进行相关质量保障技术介绍与分享。最后,围绕aigc时代下的软件质量保障技术发展趋势、挑战及技术布局进行思考与展望。
报告人简介:
梁广泰,华为云软件分析lab负责人/代码智能分析技术专家,ccf高级会员,ccf软工专委常委,ccf开源发展委员会供应链安全工作组秘书。24年初获北京大学计算系博士学位,毕业后曾入职ibm中国研究院担任研究员职位。16年5月加入华为工作至今,已带领团队先后围绕代码缺陷检测与修复、开源成分分析与治理、代码智能同步/重构/移植/生成/剖析等方向成功孵化一系列智能化研发技术并规模化落地。至今已发表技术专利50 及学术论文35 (含icse/fse/ase/oopsla/issta等),曾获fse 2021、issta 2023等杰出论文奖等,先后担任一系列软工top会议或期刊pc member/chair等角色(含icse/oopsla/www/issre/icsme/软件学报等)。

何铁科
报告题目:大模型在代码优化任务的能力探究及改进方法
报告摘要:
代码优化任务作为自动化代码审查的关键环节,有助于提高开发效率和代码质量.随着大语言模型在软件工程领域中展现出远胜于传统小规模预训练模型的性能,本研究旨在探讨两类模型在自动代码优化任务的表现,以评估大语言模型的综合优势.通过使用传统代码质量评估指标对四种主流大语言模型和四种代表性小规模预训练模型在代码优化任务的表现进行评估,发现大语言模型在审查前代码优化子任务的优化质量劣于小规模预训练模型.由于现有代码质量评估指标难以解释上述现象,本研究提出基于unidiff的代码优化评估指标,量化优化过程中的变更操作,以解释劣势原因并揭示模型执行变更操作的倾向性:(1)审查前代码优化任务难度较大,模型执行正确变更操作的准确度极低,且大语言模型比小规模预训练模型表现更为“激进”,即倾向于执行更多的代码变更操作,导致其表现不佳;(2)相比小规模预训练模型,大语言模型在代码优化任务倾向于执行更多插入(add)和修改(modify)变更操作且add变更操作平均插入的代码行数较多,进一步证明其“激进”性.为缓解大语言模型在审查前优化任务中的劣势,本研究基于大语言模型和集成学习提出llm-voter方法,旨在集成不同基模型的优势以提升代码优化质量.实验证明:llm-voter方法能够在维持高em (exact match)值的同时获得优于所有基模型的优化质量,从而有效缓解大语言模型的劣势.
报告人简介:
何铁科,南京大学准聘副教授/特聘研究员,博士生导师。主要从事智能软件工程、知识图谱和问答系统等领域的研究工作。主持包括国家自然科学基金、科技部重点研发计划和中央军委装备发展部等多项省部级项目。其参与研制的基于知识图谱的复杂装备软件智能化测试系统有力保障了装备软件质量,研发的面向智能工厂的知识服务高效支撑了某飞机发动机的装配、测试与维保。在本领域一流国际期刊和顶级国际会议发表论文五十余篇,申请发明专利二十余项,部分研究成果已经在华为、百度、阿里等一流企业应用。主讲的本科生和研究生课程多次获南京大学软件学院毕业生好评课程。

徐子懋
报告题目:基于大语言模型的长方法分解
报告摘要:
长方法及其他类型的代码气味阻碍了软件应用程序达到最佳的可读性、可重用性和可维护性。因此,人们对长方法的自动检测和分解进行了广泛的研究。虽然这些方法极大地促进了分解,但其凯发k8登录的解决方案往往与最优方案存在很大差异。为此,我们调研公开真实长方法数据集中的可自动化部分,探讨了长方法的分解情况,并基于调研结果,在本文中提出了一种基于大语言模型的新方法(称为 lsplitter),用于自动分解长方法。对于给定的长方法,lsplitter会根据启发式规则和大语言模型将该方法分解为一系列短方法。然而,大语言模型经常会导致拆分出相似的方法,针对大语言模型的分解结果,lsplitter利用基于位置的算法,将物理上连续且高度相似的方法合并成一个较长的方法。最后对这些候选结果进行排序。我们对实际java项目中的2849个长方法进行了实验。实验结果表明,相较传统方法,lsplitter的命中率有大幅提升,相较纯基于大语言模型的方法,命中率提升了7.6%。
报告人简介:
徐子懋,北京理工大学计算机学院博士生,师从刘辉教授。研究方向主要侧重于软件重构。曾荣获三星奖学金等。

王路桥
报告题目:基于大语言模型的多智能体协作代码评审人推荐
报告摘要:
基于拉取请求(pull requests, prs)的软件开发机制是开源软件中的重要实践。合适的代码评审人能够通过代码审查帮助贡献者及时发现pr中的潜在错误,为持续开发和集成过程提供质量保障。然而,代码的变更和代码评审人固有的复杂性增加了评审人推荐的难度。现有方法主要聚焦于从pr中挖掘代码变更的语义信息,或基于审查历史构建评审人画像,然后通过多种静态策略组合进行推荐。然而,这些研究基于身份标识(id)交互的推荐范式,往往忽略了pr和代码评审人之间的内在关系,导致推荐方法性能不佳。鉴于此,提出一种基于智能体间相互协作的代码评审人推荐方法。该方法使用先进的大语言模型,精确捕捉pr和评审人丰富的文本语义。此外,ai智能体强大的规划、协作和决策能力使其在面对多种推荐偏好时,具有高度的灵活性和适应性。基于真实数据集进行实验分析,与基线评审人推荐方法相比,所提方法性能提升了4.45%至26.04%。此外,案例研究证明该方法在可解释性方面表现突出。
报告人简介:
王路桥,男,西安电子科技大学软件工程专业,智能软件与系统新技术研究所博士研究生,主要研究领域为代码评审人推荐,代码分析与重构,软件自适应演化。

王熙灶
报告题目:llm赋能的datalog代码翻译技术及增量程序分析框架
报告摘要:
datalog是一种声明式逻辑编程语言,在不同领域得到了广泛应用.近年来,学术界和工业界对datalog的兴趣高涨,设计并开发了多种datalog引擎和相应方言.然而,多方言带来的一个问题是以一种datalog方言实现的代码一般而言不能在另一种方言的引擎上执行.因此,当采用新datalog引擎时,需要将现有datalog代码翻译到新方言上.目前的datalog代码翻译技术可分为人工重写代码和人工设计翻译规则两类,存在耗时长、大量重复劳动、缺乏灵活性和可拓展性等问题.本文提出了一种大语言模型(llm)赋能的datalog代码翻译技术,利用llm强大的代码理解和生成能力,通过分治翻译策略、基于少样本提示和思维链提示的提示工程、基于检查-反馈-修复的迭代纠错机制,可以在不同datalog方言之间实现高精度代码翻译,减轻开发人员重复开发翻译规则的工作量.基于此代码翻译技术,设计并实现了一种通用的基于datalog的声明式增量程序分析框架.在不同datalog方言对上评估了所提出的llm赋能的datalog代码翻译技术的性能,评估结果验证了所提代码翻译技术的有效性.我们也在对通用声明式增量程序分析框架进行了实验评估,验证了基于所提代码翻译技术的增量程序分析的加速效果.
报告人简介:
王熙灶,南京大学计算机学院博士研究生, 导师为卜磊教授, 他于2018年本科毕业于南京大学计算机科学与技术系. 他的主要研究方向为软件分析与测试, 他的研究聚焦于开发面向现实复杂软件系统的的程序分析技术, 提高程序分析技术在现实复杂软件系统上的可用性. 其研究成果发表于icse、软件学报等国内外顶级会议和期刊上.

王毅博
报告题目:大模型生成代码的开源许可证违规风险洞察与分析
报告摘要:
代码大模型利用大量开源仓库代码进行训练, 能够高效完成代码生成等任务. 然而, 开源软件仓库中存在大量受开源许可证约束的代码, 这给大模型带来了潜在的开源许可证违规风险. 本研究聚焦于大模型生成代码与开源仓库的许可证违规风险, 基于代码克隆技术开发了支持大模型生成代码溯源与凯发k8登录的版权违规问题的检测框架. 通过实践调查三个研究问题:“大模型生成的代码多大程度克隆于开源软件仓库?”、“大模型生成的代码是否存在开源许可证违规风险?”、“真实开源软件中包含的大模型生成代码是否存在开源许可证违规风险?”, 探究大模型代码生成对开源软件生态的影响. 实验结果发现在使用功能描述和方法签名所生成代码中, 分别溯源到了68.5%和60.9%的代码存在克隆的开源代码片段. 其次, 92.7%的代码中没有开源许可证声明, 79.1%的代码存在开源许可证违规风险. 此外, 在github平台开发者使用大模型生成的代码中, 同样存在开源许可证违规风险.
报告人简介:
王毅博,目前为东北大学软件学院2022级博士研究生, 硕士于2022年毕业于东北大学软件学院,转博后继续跟随朱志良、王莹老师攻读博士学位。主要研究方向为智能化软件开发,ai大模型,开源软件大数据分析等。目前已在软件工程领域顶级会议和期刊发表4篇论文, 包括icse, esec/fse, ase, ieee tse。曾以第一作者的身份在esec/fse 2023发表学术论文, 并荣获esec/fse 2023的acm sigsoft distinguished paper award。曾获博士国家奖学金, 一等学业奖学金等。

虞圣呈
报告题目:基于大模型语义匹配的跨平台移动应用测试脚本录制回放
报告摘要:
gui测试是移动应用质量保障的重要手段之一。随着移动生态的不断发展,尤其是国产移动应用(如鸿蒙等)生态的强势崛起, gui测试脚本跨平台录制回放成为了当前gui测试的主要挑战之一。开发者需将传统平台中gui测试脚本迁移至新兴环境中,以保证应用质量可靠性与多平台用户体验一致性。然而,不同平台间的底层实现差异导致了移动应用测试跨平台迁移的重大障碍,这一挑战在面向新兴国产移动生态平台的测试迁移方面尤为突出。移动应用的跨平台测试脚本录制回放是确保应用在不同操作系统和设备上保持一致性和高质量用户体验的关键。现有技术仅解决了“一对一”事件匹配的情况,而由于平台间gui开发实践的不一致性,测试事件的回放并非完全一对一映射,而存在普遍的“多对多”映射情况,即若干测试事件所对应的业务流程在不同平台上对应数量不等的测试事件。为解决上述问题与挑战,本文提出了一种基于大模型语义匹配的跨平台移动应用测试脚本录制回放方法llmrr。这一方法结合图像匹配、文本匹配和大语言模型语义匹配技术,在录制阶段通过图像分割算法记录用户操作信息,并保存为录制测试脚本;在回放阶段,通过图像匹配和文本匹配模块在回放页面上找到对应的控件,执行操作,当无法匹配时,调用大模型语义匹配模块进行语义匹配,确保在不同平台上的高效运行。本文首次对国产鸿蒙应用的测试进行了探索,选择了20个应用共100个测试脚本,在ios、安卓和鸿蒙平台之间进行迁移测试,并与当前最先进跨平台测试脚本录制回放方法进行有效性对比。结果表明,llmrr方法在测试脚本录制回放中均表现出显著优势。
报告人简介:
虞圣呈,博士。分别于2020年与2024年获南京大学软件学院本科及博士学位。主要研究方向为基于知识增强的智能化软件测试,主要关注gui测试、众包测试等。在软件工程领域著名学术期刊/会议tse、tosem、icse、fse等发表10余篇ccf-a类论文。曾荣获ase2019会议acm学生研究竞赛本科生组冠军,同时也获得研究生国家奖学金、南京大学博士研究生校长奖学金、南京大学-hpi研究院奖学金等荣誉。参与多项国家自然科学基金项目、科技部重点研发计划,研究成果在华为鸿蒙、北汽新能源、国网南瑞等知名去也转化应用。

李晓鹏
报告题目:智能化芯片设计程序测试研究综述
报告摘要:
在当今智能化的时代背景下,芯片作为智能电子设备的核心组件,在人工智能、物联网、5g通信等诸多领域发挥着关键作用,保障芯片的正确性、安全性和可靠性至关重要。作为芯片设计制造的软件基础,芯片设计程序的质量直接影响了芯片的质量。因此,针对芯片设计程序的测试具有重要研究意义。近年来,越来越多的研究者致力于将机器学习、深度学习和大语言模型(llm)等智能化方法应用于芯片设计程序测试领域。该报告从测试输入生成、测试预言构造及测试执行优化三个角度对芯片设计程序智能化测试已有成果进行总结,重点关注芯片设计程序测试方法从机器学习阶段、深度学习阶段到大语言模型阶段的演化,探讨不同阶段方法在提高测试效率和覆盖率、降低测试成本等方面的潜力。同时,介绍芯片设计程序测试领域的研究数据集和工具,并展望未来的发展方向和挑战。
报告人简介:
李晓鹏,天津大学软件分析与智能实验室在读硕士研究生,导师为陈俊洁教授,于2023年获天津大学软件工程学士学位。主要研究方向为芯片设计程序测试,重点关注智能化方法在芯片设计程序测试领域的应用。承担相关企业合作项目,部分研究成果已在企业落地。
04
论坛组织委员会简介

论坛主席:王赞
个人简介:
王赞,天津大学教授、博士生导师。长期致力于人工智能质量保障、软件工程相关领域的研究,主要研究方向为:深度学习系统质量保障,基础软件测试等。近五年在软件工程领域内的国内外高水平会议及期刊(包括icse、fse、ase、tse、tosem及计算机学报、软件学报等)发表学术论文20余篇,其中fse2020的文章“deep learning library testing via effective model generation”获得acm sigsoft distinguished paper award。近五年作为负责人承担包括国家自然科学基金项目在内的多项课题。以第一完成人身份荣获天津市科技进步二等奖一项。主讲包括数据库原理、软件测试等课程,获得天津市教学成果二等奖两项。

论坛主席:王莹
个人简介:
王莹博士,现为东北大学软件学院副教授, ccf开源发展委员会委员, ccf 女工委委员。荣获微软研究院铸星计划访问学者(2020)、中国计算机学会优秀博士论文提名奖(2020)、辽宁省优秀博士论文奖(2021)、acm sigsoft 杰出论文奖(icse 2021、esec/fse 2023)。主要研究方向为智能软件开发技术、开源软件生态治理技术、软件供应链分析等。在多种程序语言软件生态(包括java/c#/python/go/javascript/android/rust等)治理方面发表系列学术成果,形成系列工具平台“英雄联盟”lol自动化监控开源软件生态的依赖缺陷。多项技术落地于华为、微软、龙芯等企业平台和openharmony开源社区。担任ieee transactions on software engineering期刊编委,chinasoft 2023-2024软件工程女性论坛主席,saner 2023 tool track联合主席,“计算之美”2021博士生论坛主席等,热衷参与学术活动鼓励计算机领域女性“研究媛”和“程序媛”坚持科研梦想。

论坛主席:陈碧欢
个人简介:
陈碧欢,复旦大学计算机科学技术学院副教授。主要研究方向包括软件供应链、智能网联汽车、ai系统工程等。主持两项国家自然科学基金项目和多项企业合作项目,参加科技创新2030-“新一代人工智能”重大项目。研究成果发表在icse、fse、s&p、sec、tse、tifs等国际会议和期刊,获nasac青年软件创新奖、3次acm sigsoft杰出论文奖(fse2016、ase2018、ase2022)、2次ieee tcse杰出论文奖(icsme2020、saner2023)。基于相关研究成果,研制了开源风险治理平台伏羲(http://www.se.fudan.edu.cn/fuxi/)。

论坛主席:姚远
个人简介:
姚远,南京大学计算机科学与技术系副教授。近年来研究兴趣主要关注机器学习技术及其在软件智能化等领域的应用。其研究工作获得了一系列国家重大、重点项目支撑,并在华为等企业中转化落地。相关研究共发表了论文60余篇,包括icse、ccs、s&p、ndss、iclr、neurips、kdd等相关领域的国际旗舰会议,工作受到了计算机业内权威媒体mit technology review报道。

论坛主席:张敏灵
个人简介:
张敏灵,东南大学计算机科学与工程学院教授,院长。主要研究领域为机器学习、数据挖掘。现任中国人工智能学会机器学习专委会副主任、江苏省人工智能学会副理事长等。现任《中国科学:信息科学》、《ieee trans. pami》、《acm trans. ist》、《frontiers of computer science》、《machine intelligence research》等期刊编委。应邀担任acml、pakdd指导委员会委员,pricai/ccf-icai/ccfai等国内外学术会议程序主席,以及kdd/ijcai/aaai/icdm等国际会议领域主席或资深程序委员60余次。曾获ccf - ieee cs青年科学家奖(2016)、国家杰出青年科学基金(2022)等。