Rinc.Group-DataMining

数据分析：以数为钥，开启智能之门

数据分析与数据挖掘是南京大学机器人智能与神经计算研究组（RINC）的主要研究方向之一。数据挖掘旨在从大规模、多维度的数据中挖掘潜在的模式与知识，依托于高性能计算、深度学习、概率建模和自监督学习等先进技术手段。该过程融合了统计分析、信息检索、专家系统推理以及模式识别等多个交叉领域方法，致力于实现高效、可扩展的信息提取与知识发现。RINC主要涉及的是时间序列预测、声音雷达等信号处理、数据增强算法、数据异常检测分析等任务，力图通过构建通用且具备鲁棒性的模型框架，推动人工智能在实际场景中的应用落地。

1. 时间序列预测

时间序列预测关注对未来数据点的准确估计，广泛应用于金融市场分析、气象预报、设备故障预警等领域。课题组围绕长期依赖建模、多变量建模与因果推断等关键挑战，开展了系统研究。我们提出了基于注意力重要度的剪枝策略，在保持预测性能的同时大幅压缩模型参数；面向股票、传染病等多变量场景，构建了结合空间依赖的时空预测模型；在因果推断方面，针对处理变量与结果随时间动态变化的问题，融合深度学习与传统方法，提升了反事实预测准确性。这些研究成果提升了模型的精度、效率与可解释性，体现了课题组在智能时序建模领域的持续积累与创新能力。

2. 数据增强算法

数据增强在应对数据稀缺、提升模型鲁棒性等方面发挥着关键作用，核心目标是在不引入额外标注成本的前提下，通过扰动、重采样或合成生成多样性样本。合理设计数据增强能显著提升模型泛化能力，尤其适用于小样本和异常检测任务。本课题组围绕数据增强的有效性开展系统研究，首先对现有方法进行了全面调研，并提出了训练无关的相似性–多样性双维度指标体系，用于量化增强策略对数据分布与模型学习的影响。在此基础上，进一步设计了多种自适应增强方法，如EntAugment与AdaAugment，可依据样本复杂度和模型反馈动态调整增强强度，有效缓解过拟合与分布偏移问题。相关成果在ImageNet、CIFAR等多个基准任务中取得领先效果，推动了数据增强的理论建模与实用落地。

3. 数据异常检测分析

异常检测旨在识别偏离正常分布的数据样本，是保障系统稳定性与安全性的关键技术，已在工业监控、金融风控、网络安全等领域得到广泛应用。常见方法包括基于距离、统计特征、聚类等的传统算法。随着深度学习的发展，基于自编码器（AE）、生成对抗网络（GAN）、扩散模型（Diffusion Model）等方法因其强大的建模能力也被广泛应用于异常检测任务中。异常检测的核心难点在于异常样本稀缺、标签难以获取、误报率控制等。当前研究重点包括无监督异常检测、高维数据异常检测、异常检测算法评估，以及可解释性异常检测。

4. 信号处理

信号处理任务旨在从时序信号中提取有用信息，实现识别、定位或分类，广泛应用于声源定位、设备故障检测、水下目标识别等场景。我们构建了基于编解码理论的信号表示通用框架，设计多种面向脉冲与连续信号的轻量化模型，兼顾精度与实时性。针对复杂环境下水声信号识别难题，本组提出TDNN-attn网络，结合帧级注意力机制显著提升了船只辐射噪声识别效果，并基于VAE实现特征空间上的数据增强，有效缓解样本稀缺问题。此外，本组进一步提出“频域分析+数据增强+深度分类+域迁移”的多阶段处理策略，显著提升跨区域目标识别的鲁棒性和泛化能力。