博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
curse of dimensionality维数灾难
阅读量:6114 次
发布时间:2019-06-21

本文共 904 字,大约阅读时间需要 3 分钟。

或者翻译成维度的咒语,这个咒语出现在很多方面:

sampling采样

如果数据是低维的,所需的采样点相对就比较少;如果数据是高维的,所需的采样点就会指数级增加,而实现中面对高维问题时往往无法获得如此多的样本点(即使获得了也无法处理这么庞大数据量),样本少不具有代表性自然不能获得正确的结果。

combinatorics组合数学

由于每个维度上候选集合是固定的,维度增加后所有组合的总数就会指数级增加。

machine learning机器学习

在机器学习中要求有相当数量的训练数据含有一些样本组合。给定固定数量的训练样本,其预测能力随着维度的增加而减小,这就是所谓的Hughes影响Hughes现象。

data mining数据挖掘

在组织和搜索数据时有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。

距离在高维环境下失去意义

在某种意义上,几乎所有的高维空间都远离其中心,或者从另一个角度来看,高维单元空间可以说是几乎完全由超立方体的“边角”所组成的,没有“中部”。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。这对于理解卡方分布是很重要的直觉理解。

卡方分布:若N个随机变量服从标准正态分布,那么它们的平方和(注意在计算欧氏距离时就要用到各个变量的平方和)构成的新的变量服从卡方分布,N是自由度。下面是其概率密度图:

自由度越大(维度越高)时,图形越”平阔“。

然而,也由于的存在,其概念是指任意低维数据空间可简单地通过增加空余(如复制)或随机维将其转换至更高维空间中,相反地,许多高维空间中的数据集也可削减至低维空间数据,而不必丢失重要信息。这一点也通过众多方法的有效性反映出来,如应用广泛的方法。针对距离函数和最近邻搜索,当前的研究也表明除非其中存在太多不相关的维度,带有维数灾难特色的数据集依然可以处理,因为相关维度实际上可使得许多问题(如聚类分析)变得更加容易。另外,一些如或共享最近邻搜索方法经常在其他方法因为维数过高而处理棘手的数据集上表现得很好。

转载地址:http://jhdka.baihongyu.com/

你可能感兴趣的文章
shiro入门示例
查看>>
Spring实现封装自定义注解@Trimmed清除字符串前后的空格
查看>>
bootstrap-datepicker应用
查看>>
Linux如何实现开机启动程序详解(转)
查看>>
使用js冒泡实现点击空白处关闭弹窗
查看>>
通过经纬度坐标计算距离的方法(经纬度距离计算)ZZ
查看>>
Requests: 让 HTTP 服务人类
查看>>
Android:ImageView控件显示图片
查看>>
I.MX6 Linux 3.0.35 SD boot
查看>>
Anaconda
查看>>
Linux中挂载新的磁盘到指定目录或分区
查看>>
Failed to load ApplicationContext
查看>>
详谈如何定制自己的博客园皮肤
查看>>
html怎样可是使文本框内容不可修改
查看>>
Redis在本地测试没有问题,上传的服务器后出现错误
查看>>
Mybatis常见面试题(转)
查看>>
Getting started with OpenCL and GPU Computing
查看>>
Django通过pycharm创建后,如何登录admin后台?
查看>>
高压缩文件是如何实现的?
查看>>
POJ 3210 : Coins
查看>>