"诚计划"第141期|申富饶教授主讲 "人工智能中的数据优化策略"
发布人:端木丹青 发布时间: 2025-03-24
2025年3月12日(周三)晚19:30-21:00,南京大学校友终身学习辅助计划"诚计划"第141期、AI系列第一讲《人工智能中的数据优化策略》,在南京大学"暾学堂"开讲。
本次讲座的主讲人是南京大学人工智能学院教授、博士生导师申富饶教授。申教授现负责南京大学人工智能学院教学和人才培养工作,是南京大学量子物理与人工智能特聘教授、赵世良讲席教授、科沃斯讲席教授,江苏省计算机学会理事,中国计算机学会杰出会员。主要研究方向包括神经网络、计算机视觉、机器人智能,发表学术论文130余篇,拥有30余项国家发明专利和4项国际发明专利,出版专著及译著10余部。
在本次讲座中,申富饶教授围绕数据在深度学习中的核心作用展开,探讨了数据增强及数据压缩的价值及其挑战,包括如何在不依赖训练效果的情况下评估数据增强方法、如何平衡数据一致性与多样性,以及数据增强策略的优化与可解释性等关键科研问题。同时,介绍了剪枝、量化、知识蒸馏等数据压缩核心技术,探讨在计算资源受限的环境下如何实现高效AI。
一、数据在深度学习中的核心作用
数据、模型、算力是推动AI发展的三大支柱,其中数据是模型训练的基石,直接影响AI性能。当今模型和算力的发展速度远超数据集,需通过数据优化提升数据效用。
数据优化有两大目标:1是数据增强,即通过变换现有数据生成新样本,提升模型泛化能力,解决数据不足和过拟合问题。2是数据压缩,通过剔除冗余和噪声数据,减少存储和训练成本,同时保持模型精度。
二、数据增强的核心技术与挑战
1. 数据增强方法分类
包括基本方法如图像变换(旋转、翻转)、图像擦除(遮盖部分区域)、图像混合(多图拼接),以及基于深度学习的方法如自动增强(强化学习搜索最优策略)、特征空间增强(避免图像噪声)、生成式模型(如GAN生成新样本)。先前的大多数增强方法依靠人工进行特定数据集增强策略的设计,但这种方法效率低下并且设计出来的策略不一定是最优的。目前主流的数据增强方法都采用自动搜索增强策略,如强化学习贝叶斯优化等等算法。这样搜索出来的策略效果较于人工设计的方法更佳。
2. 评估指标
既有传统方法,其依赖模型训练效果,通过亲和性与多样性来揭示不同增强方法的效果;亦有新方法,即与模型无关的量化指标,从相似性和多样性两个方面度量数据增强方法的性能,相似性用于评估增强数据与测试集的分布接近程度,多样性则用于评估数据分布的复杂度(如协方差矩阵主成分分析)。
3. 关键问题与解决方案
数据增强遇到的主要问题包括:1)平衡多样性与一致性,该问题可通过关键区域的结构化遮挡(如AdvMask),利用对抗攻击技术等定位图像中的关键区域。 2)高多样性增强的副作用,该问题可通过KeepAugment利用特征图保护关键区域信息,避免模型性能下降。
三、数据压缩的核心技术
申教授提到,模型的表现和数据量并不是高度正相关的,因为大型数据集中往往包含着冗余和噪声,可能会导致模型的性能下降,也可能影响模型的泛化能力。因此,数据压缩成为提升数据利用效率的关键策略。
数据压缩的主要目标是减少冗余数据,提升训练效率,同时保持模型精度。其核心方法包括剪枝、量化、知识蒸馏。
数据筛选策略包括:1)静态数据修剪:先于训练过程,基于样本贡献度,剔除对于训练效果贡献较少的样本。2)动态剪枝:在训练阶段动态剔除样本后对剩余数据进行训练,避免数据偏移。
需要关注的是,压缩率越大能够带来更显著的训练加速,但是由信息论可知,单个图片能包含的信息量存在上限,因此模型性能也存在瓶颈。
四、挑战与未来研究方向
申教授提到,尽管在图像数据增强研究方面已经做出了大量的努力来提高深度学习模型的性能,但是仍还有一些挑战亟待解决,例如数据增强多样性提高的同时带来的噪声问题、数据增强方法的评估指标、通用性的数据增强方法的设计等。专业领域的小样本数据集扩充、数据类别不平衡、数据冗余度的判断以及可信代表集的提取等,则是需进一步研究的方向。
数据增强的未来技术方向包括:1)自组织增量学习(SOINN),即动态提取大数据中的可信数据代表集;2)知识图谱嵌入:构建冗余特征的语义关联网络,提升可解释性。
五、应用案例
通过释迦果疾病检测系统,DeepDR糖尿病视网膜病变检测系统,Tesla自动驾驶系统等应用案例,介绍了数据增强、数据压缩以及多模态数据增强技术的实际应用场景。
讲座最后,申教授还详细解答了直播间校友们以及主持人的提问。
申富饶教授通过讲解详尽的数据优化方法以及生动的应用案例,展示了数据优化策略是提升AI性能的关键:数据增强通过多样性生成提升泛化能力;数据压缩通过去冗余加速训练并保持精度。未来需解决任务依赖性、小样本、可解释性等挑战,推动AI在农业、医疗、自动驾驶等领域的深度应用。
欢迎大家持续关注和学习,本期讲座回放地址:
PC端链接地址:https://wsp.njude.com.cn/next/learn/22247
长按下方识别小程序码进入暾学堂观看讲座回放:
往期推荐:
“诚计划”第139期 |张俊翔教授主讲"人机协同背景下高等外语教育的守正创新"
“诚计划”第138期 |卢明辉教授主讲“人工微结构声学材料——智能制造新质生产力塑造未来产业发展新动能”
“诚计划”第136期 | 董磊教授主讲"疾病,进化,生物材料与医药科技"
“诚计划”第135期 | 居为民教授主讲"陆地生态系统碳汇优化计算"
“诚计划”第134期 | 胡大平教授主讲"‘我’在超级现代性中的流失"
“诚计划”第133期 | 谷成教授主讲"无处不在的‘污染’——庞大的‘新污染物’家族揭秘"
“诚计划”第131期|沈卫威教授主讲"与鲁迅在江南水师、陆师学堂相遇"
“诚计划”第130期|王建文教授主讲 "《公司法》适用中的十个经典命题"
“诚计划”第129期|翟国方教授主讲"城市灾害及其韧性应对"
“诚计划”第128期|刘超教授主讲"大英博物馆百件文物中的世界历史"
“诚计划”第127期|李建新教授主讲"量子材料——从光说起"
“诚计划”第124期|鞠熀先教授主讲"生命分析化学的形成与发展"
“诚计划”第123期|王云骏教授主讲"制度中的‘政府’与‘市场’"
“诚计划”第121期|刘成教授主讲"和平学视域下的战争原因与冲突化解"
“诚计划”第118期|王海鲲教授主讲"气候与环境政策的生态健康效应评估"
“诚计划”第111期|顾海教授主讲"健康中国视角下的医疗保障制度建设"
“诚计划”第109期|陈天宇教授主讲"探秘深海:地球最后的边境"
“诚计划”第107期|苗怀明教授主讲"中国古代小说的人生智慧"
“诚计划”第105期|陈家建教授主讲“中国的社区与社区治理”
“诚计划”第103期 | 张亮教授主讲"中华优秀传统文化与当代的我们"
“诚计划”第102期 | 杨修群教授主讲"气候变异的可预测性与智慧预测"
供稿:梁惠惠