位置:成都中公优就业IT培训机构 > 学校动态 > 怎样理解数据块消减技巧
以下是小编为大家整理大数据知识点怎样理解数据块消减技巧的内容。
数据块消减
数据块消减方法主要包括参数与非参数两种基本方法。
所谓参数方法就是利用一个模型来帮助获得原来的数据
因此只需要存储模型的参数即可(当然异常数据也需要存储)。
例如,线性回归模型就可以根据一组变量预测计算另一个变量。
而非参数方法则是存储利用直方图、聚类或取样而获得的消减后数据集。
下面介绍几种主要的数据块消减方法。
1. 回归与线性对数模型
回归与线性对数模型可用于拟合所给定的数据集。
线性回归方法是利用一条直线模型对数据进行拟合的,可以是基于一个自变量的,也可以是基于多个自变量的。
线性对数模型则是拟合多维离散概率分布的。
如果给定 n 维(例如,用 n 个属性描述)元组的集合,则可以把每个元组看作 n 维空间的点。
对于离散属性集,可以使用线性对数模型,基于维组合的一个较小子集,来估计多维空间中每个点的概率。
这使得高维数据空间可以由较低维空间构造。因此,线性对数模型也可以用于维归约和数据光滑。
回归与线性对数模型均可用于稀疏数据及异常数据的处理。但是回归模型对异常数据的处理结果要好许多。
应用回归方法处理高维数据时计算复杂度较大,而线性对数模型则具有较好的可扩展性。
2. 直方图
直方图是利用 Bin 方法对数据分布情况进行近似的,它是一种常用的数据消减方法。
属性 A 的直方图就是根据属性 A 的数据分布将其划分为若干不相交的子集(桶)的。
这些子集沿水平轴显示,其高度(或面积)与该桶所代表的数值平均(出现)频率成正比。
若每个桶仅代表一对属性值/频率,则这个桶就称为单桶。通常一个桶代表某个属性的一段连续值。
1)等宽方法
在一个等宽的直方图中,每个桶的宽度(范围)是相同的(如图 2 所示)。
2)等高方法
在一个等高的直方图中,每个桶中的数据个数是相同的。
3)V-Optimal 方法
若对指定桶个数的所有可能直方图进行考虑
该方法所获得的直方图是这些直方图中变化小的,即具有小方差的直方图。
直方图方差是指每个桶所代表数值的加权之和,其权值为相应桶中数值的个数。
4)MaxDiff 方法
该方法以相邻数值(对)之差为基础
一个桶的边界则是由包含有 β-1 个大差距的数值对所确定的,其中,β 为用户指定的阈值。
尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/3178/news/215831/违者必究! 以上就是成都中公优就业IT培训机构 小编为您整理 怎样理解数据块消减技巧的全部内容。