日期:2019-04-25 14:25
数据仓库中的集合包含了大量特征,为了通过聚类分析发现潜在的运行模式,需要从序列数据中提取反映运行情况的重要特征向量。
这主要有两方面的工作:一方面为了让模型更容易理解,需要降低数据集的维度,删除不相关的特征并降低噪声,使大数据分析算法效果更好;另一方面通过创建新属性树,将一些旧属性合并或创建新的属性,这样可更有效地捕获数据集中的重要信息。
最常使用的特征集提取技术都是高度针对某一具体领域,一旦大数据分析用于其它领域,首要任务就是找到新的特征并进行特征提取。
3、数据预处理
由于待分析数据可能存在