Welcome to the Rinc.Group !
数据分析与数据挖掘是南京大学机器人智能与神经计算研究组(RINC)的主要研究方向之一。数据挖掘旨在从大规模、多维度的数据中挖掘潜在的模式与知识,依托于高性能计算、深度学习、概率建模和自监督学习等先进技术手段。该过程融合了统计分析、信息检索、专家系统推理以及模式识别等多个交叉领域方法,致力于实现高效、可扩展的信息提取与知识发现。RINC主要涉及的是时间序列预测、声音雷达等信号处理、数据增强算法、数据异常检测分析等任务,力图通过构建通用且具备鲁棒性的模型框架,推动人工智能在实际场景中的应用落地。
时间序列预测关注对未来数据点的准确估计,广泛应用于金融市场分析、气象预报、设备故障预警等领域。课题组围绕长期依赖建模、多变量建模与因果推断等关键挑战,开展了系统研究。我们提出了基于注意力重要度的剪枝策略,在保持预测性能的同时大幅压缩模型参数;面向股票、传染病等多变量场景,构建了结合空间依赖的时空预测模型;在因果推断方面,针对处理变量与结果随时间动态变化的问题,融合深度学习与传统方法,提升了反事实预测准确性。这些研究成果提升了模型的精度、效率与可解释性,体现了课题组在智能时序建模领域的持续积累与创新能力。
数据增强在应对数据稀缺、提升模型鲁棒性等方面发挥着关键作用,核心目标是在不引入额外标注成本的前提下,通过扰动、重采样或合成生成多样性样本。合理设计数据增强能显著提升模型泛化能力,尤其适用于小样本和异常检测任务。本课题组围绕数据增强的有效性开展系统研究,首先对现有方法进行了全面调研,并提出了训练无关的相似性–多样性双维度指标体系,用于量化增强策略对数据分布与模型学习的影响。在此基础上,进一步设计了多种自适应增强方法,如EntAugment与AdaAugment,可依据样本复杂度和模型反馈动态调整增强强度,有效缓解过拟合与分布偏移问题。相关成果在ImageNet、CIFAR等多个基准任务中取得领先效果,推动了数据增强的理论建模与实用落地。
异常检测旨在识别偏离正常分布的数据样本,是保障系统稳定性与安全性的关键技术,已在工业监控、金融风控、网络安全等领域得到广泛应用。常见方法包括基于距离、统计特征、聚类等的传统算法。随着深度学习的发展,基于自编码器(AE)、生成对抗网络(GAN)、扩散模型(Diffusion Model)等方法因其强大的建模能力也被广泛应用于异常检测任务中。异常检测的核心难点在于异常样本稀缺、标签难以获取、误报率控制等。当前研究重点包括无监督异常检测、高维数据异常检测、异常检测算法评估,以及可解释性异常检测。
信号处理任务旨在从时序信号中提取有用信息,实现识别、定位或分类,广泛应用于声源定位、设备故障检测、水下目标识别等场景。我们构建了基于编解码理论的信号表示通用框架,设计多种面向脉冲与连续信号的轻量化模型,兼顾精度与实时性。针对复杂环境下水声信号识别难题,本组提出TDNN-attn网络,结合帧级注意力机制显著提升了船只辐射噪声识别效果,并基于VAE实现特征空间上的数据增强,有效缓解样本稀缺问题。此外,本组进一步提出“频域分析+数据增强+深度分类+域迁移”的多阶段处理策略,显著提升跨区域目标识别的鲁棒性和泛化能力。