很多不错论文都引用了此篇论文,于是阅读了这篇06年论文。
Abstract
介绍数据挖掘中的10个具有挑战性的问题,分析数据挖掘问题出现位置的一份高级指南。
这篇文章是作者通过咨询一些最活跃的数据挖掘和机器学习研究人员(IEEE ICDM和ACM KDD会议的组织者),就他们对未来数据挖掘研究的重要和有价值的主题发表的意见。
1. Developing a Unifying Theory of Data Mining(统一的理论)
数据挖掘研究的当前状态太“特别”。许多技术都是针对个体问题设计的,如分类或聚类,但没有统一的理论。然而,统一不同数据挖掘任务(包括聚类,分类,关联规则等)以及不同数据挖掘方法(如统计,机器学习,数据库系统等)的理论框架将有助于该领域 并为未来的研究提供基础。
数据挖掘研究人员还有机会需要解决统计研究中一些长期存在的问题,例如避免虚假相关性的古老问题。 这有时与挖掘“深层知识”的问题有关,这是许多观察的隐藏原因。 例如,在香港发现,一颗特定明星的电视剧时间与香港发生的小型市场崩溃事件有很强的相关性。 然而,要得出这样的结论:这种相关性背后隐藏的原因太轻率了。另一个例子是:我们能否通过观察物体的运动来发现牛顿的定律?
2. Scaling Up for High Dimensional Data and High Speed Data Streams(高维数据&高速数据流)
一个挑战是如何设计分类器来处理超高维分类问题。如何数百万或者数十亿的特征构建分类器,特别是在文本和药物安全分析领域。
另一个问题是极大数据库中挖掘数据流。一是对于流数据的处理,另一方面数据挖掘应该是一个连续的在线过程,而不是一次就好。这种高速数据流,数据量巨大,如何增量挖掘和建立有效模型更新来保持当前流的精确建模?
3. Mining Sequence Data and Time Series Data(序列数据和时间序列数据)
如何有效地对序列数据和时间序列数据的趋势进行聚类,分类和预测仍然是一个重要的公开课题。
时间序列中噪音污染的问题。如何从噪音数据中学习有意义的数据。同时包括使用信号处理技术消除噪音带来的滤波后数据中引入了滞后的问题。如何克服滞后时间。含噪音的时间序列的关键问题包括:
- 信息/搜索代理获取信息:使用错误,太多或太少的搜索条件; 可能来自许多来源的信息不一致; (元)信息的语义分析; 将信息同化到预测代理的输入中。
- earner/miner修改信息选择标准:分配偏差以反馈; 制定搜索代理收集信息的规则; 制定信息代理人吸收信息的规则。
- 通过预测媒介来预测趋势:结合定性信息; 多目标优化不是封闭的形式。
4. Mining Complex Knowledge from Complex Data(复杂数据&复杂知识)
- 图形类复杂知识。如何从大数据中发现图形和结构化模式的主题。
- 非i.i.d数据(非独立同分布)。对象不是彼此独立的,并且不是单一类型的。如何挖掘对象间丰富的关系结构,如互联网页,社交网络,细胞中的代谢网络等。
- 如何挖掘非关系数据。 绝大多数组织的数据是文本形式,而不是数据库,以及更复杂的数据格式,包括图像,多媒体和Web数据。 因此,有必要研究超越分类和聚类的数据挖掘方法。包括如何更好地自动汇总文本以及如何识别Web和无线数据日志中的对象和人员的移动,以发现有用的空间和时间知识。
- 知识推理。如何整合数据挖掘和知识推理。如何将背景知识纳入数据挖掘。如何将挖掘结果与其影响的真实世界决策联系起来 - 挖掘者所能做的就是将结果交回 给用户。
- 挖掘用户感兴趣的主题。
5. Data Mining in a Network Setting(网络挖掘)
5.1. Community and social networks(社交网络)
- 识别社交网络的社区结构(如拓扑和集群)。
- 动态行为(如增长因素,健壮性和功能效率)。同样也存在于生物信息学研究中。
5.2. Mining in and for computer networks — high-speed mining of high-speed streams
计算机(通信)网络挖掘问题。 为了能够检测到异常情况(例如由于DoS(拒绝服务)攻击或灾难事件而导致的突发流量峰值),服务提供商需要能够以高链路速度捕获IP数据包,并分析大量数据(数百GB )的数据。 这里需要高度可扩展的解决方案。需要做到
- 检测DoS攻击,
- 追溯以找出攻击者是谁.
- 丢弃属于攻击流量的数据包。
6. Distributed Data Mining and Mining Multi-Age
如何挖掘多种异构数据源:多数据库和多关系挖掘。
adversary data mining. 数据挖掘系统如何故意操纵数据(如反恐,垃圾邮件领域)来破坏其对手(例如,使它们产生假阴性)。 如何将数据挖掘与博弈论相结合。
7. Data Mining for Biological and Environmental Problems(生物和环境)
如何挖掘生物数据,例如将数据挖掘应用与HIV疫苗的设计,其设计DNA、化学性质、三维结构和功能特征等方面。
如何理解和利用自然环境和资源。如采矿领域,检查气候,自主移动传感器网络。
自然环境设计到动态时间行为模式识别和预测问题:1). 非常大规模的系统(如全球气候变化和潜在的“禽流感”流行病)和2). 以人为中心的系统(例如用户适应的人机交互或P2P交易)。
总结这些问题,目前出现有三种挑战型应用:生物信息学,CRM /个性化和安全应用。
8. Data Mining Process-Related Problems
如何通过自动化改进数据挖掘工具和流程,包括如何自动化数据挖掘操作的构成,以及如何将方法构建到数据挖掘系统中,以帮助用户避免许多数据挖掘错误,减少人力成本。
- 如何自动清理数据。数据预处理占了大量人工成本,如何降低。
- how to perform systematic documentation of data cleaning.(如何执行数据清理的系统文档?)
- 将可视化交互和自动数据挖掘技术结合。可视化有助于更多地了解数据并定义/优化数据挖掘任务。
- 开发一种理论,支持对大/复杂数据集进行交互式解释。
9. Security, Privacy, and Data Integrity(安全,隐私和数据完整性)
数据挖掘中的隐私保护问题。
知识完整性评估问题。不仅要评估数据集合的知识完整性,还要制定评估个体模式知识完整性的措施。 其中问题包括:
- 比较数据多个版本的知识内容的算法。
- 如何估计数据修改对数据挖掘算法的影响。
10. Dealing with Non-Static, Unbalanced and Cost-Sensitive Data
处理非静态,不平衡和成本敏感的数据
- 数据不是静态的,如何让学习模型包含时间,或者纠正时间的偏差。
- 如何处理不平衡数据。对于有些数据集很小而且是高度不平衡的数据,如何处理。
- 成本敏感的数据。关于成本和收益的信息,如何建立整体的盈利和损失的模型。不同的例子构建不同的成本矩阵,但是多输出成本矩阵未知,如何通过部分的抽样获得整体的模型。
Reference
http://www.cs.uvm.edu/~icdm/10Problems/10Problems-06.pdf