所有产品

和记娱乐基于从高维空间映射到低维空间的映射

  网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码。这里有个 GitHub 项目整理了使用实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA、LDA、MDS、LLE、TSNE 等,并附有相关资料、展示效果;非常适合机器学习初学者和刚刚入坑数据挖掘的小伙伴。一、为什么要进行数据降维?

  所谓降维,即用一组个数为 d 的向量 Zi 来代表个数为 D 的向量 Xi 所包含的有用信息,其中 d《D,通俗来讲,即将高维度下降至低维度;将高维数据下降为低维数据。通常,我们会发现大部分数据集的维度都会高达成百乃至上千,而经典的 MNIST,其维度都是 64。

  MNIST 手写数字数据集但在实际应用中,我们所用到的有用信息却并不需要那么高的维度,而且每增加一维所需的样本个数呈指数级增长,这可能会直接带来极大的「维数灾难」;而数据降维就可以实现:

  去除噪音一旦我们能够正确处理这些信息,正确有效地进行降维,这将大大有助于减少计算量,进而提高机器运作效率。而数据降维,也常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。

  往往高维空间的数据会出现分布稀疏的情况,所以在降维处理的过程中,我们通常会做一些数据删减,这些数据包括了冗余的数据、无效信息、重复表达内容等。例如:现有一张 1024*1024 的图,除去中心 50*50 的区域其它位置均为零值,这些为零的信息就可以归为无用信息;而对于对称图形而言,对称部分的信息则可以归为重复信息。

  因此,大部分经典降维技术也是基于这一内容而展开,其中降维方法又分为线性和非线性降维,非线性降维又分为基于核函数和基于特征值的方法。

  基于特征值的非线性降维方法(流型学习)——ISOMAP、LLE、LE、LPP、LTSA、MVU

  哈尔滨工业大学计算机技术专业的在读硕士生 Heucoder 则整理了 PCA、KPCA、LDA、MDS、ISOMAP、LLE、TSNE、AutoEncoder、FastICA、SVD、LE、LPP 共 12 种经典的降维算法,并提供了相关资料、代码以及展示,下面将主要以 PCA 算法为例介绍降维算法具体操作。

  PCA 是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出,属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致,但过程侧重点则不同。

  最大方差理论降维原理将一组 N 维向量降为 K 维(K 大于 0,小于 N),其目标是选择 K 个单位正交基,各字段两两间 COV(X,Y) 为 0,而字段的方差则尽可能大。因此,最大方差即使得投影数据的方差被最大化,在这过程中,我们需要找到数据集 Xmxn 的最佳的投影空间 Wnxk、协方差矩阵等,其算法流程为:

  将特征值按照从大到小的排序,选择其中最大的 k 个,然后将其对应的 k 个特征向量分别作为列向量组成特征向量矩阵 Wnxk;

  计算 XnewW,即将数据集 Xnew 投影到选取的特征向量上,这样就得到了我们需要的已经降维的数据集 XnewW。和记娱乐

  最小误差理论降维原理而最小误差则是使得平均投影代价最小的线性投影,这一过程中,我们则需要找到的是平方错误评价函数 J0(x0) 等参数。

  最终,我们将得到降维结果如下。其中,如果得到当特征数 (D) 远大于样本数 (N) 时,可以使用一点小技巧实现 PCA 算法的复杂度转换。

  PCA 降维算法展示当然,这一算法虽然经典且较为常用,其不足之处也非常明显。它可以很好的解除线性相关,但是面对高阶相关性时,效果则较差;同时,PCA 实现的前提是假设数据各主特征是分布在正交方向上,因此对于在非正交方向上存在几个方差较大的方向,PCA 的效果也会大打折扣。

  KPCA 是核技术与 PCA 结合的产物,它与 PCA 主要差别在于计算协方差矩阵时使用了核函数,即是经过核函数映射之后的协方差矩阵。引入核函数可以很好的解决非线性数据映射问题。kPCA 可以将非线性数据映射到高维空间,在高维空间下使用标准 PCA 将其映射到另一个低维空间。

  KPCA 降维算法展示详细内容可参见 《Python机器学习》之特征抽取——kPCA:代码地址:

  LDA(LinearDiscriminant Analysis)LDA 是一种可作为特征抽取的技术,其目标是向最大化类间差异,最小化类内差异的方向投影,以利于分类等任务即将不同类的样本有效的分开。LDA 可以提高数据分析过程中的计算效率,对于未能正则化的模型,可以降低维度灾难带来的过拟合。

  LDA 降维算法展示详细内容可参见《数据降维—线性判别分析(LDA)》:代码地址:

  MDS(multidimensional scaling)MDS 即多维标度分析,它是一种通过直观空间图表示研究对象的感知和偏好的传统降维方法。该方法会计算任意两个样本点之间的距离,使得投影到低维空间之后能够保持这种相对距离从而实现投影。由于 sklearn 中 MDS 是采用迭代优化方式,下面实现了迭代和非迭代的两种。

  ISOMAPIsomap 即等度量映射算法,该算法可以很好地解决 MDS 算法在非线性结构数据集上的弊端。MDS 算法是保持降维后的样本间距离不变,Isomap 算法则引进了邻域图,样本只与其相邻的样本连接,计算出近邻点之间的距离,然后在此基础上进行降维保距。

  文章出处:【微信号:tyutcsplab,微信公众号:通信信号处理研究所】欢迎添加关注!文章转载请注明出处。

  物联网设备的多功能性改变了业务运营,但物联网设备的安全性、部署和管理方面的关键挑战仍然是IT领导者关....

  虚拟仪器的设计方法和实现步骤与一般软件的设计方法和实现步骤基本相同,只不过虚拟仪器设计时要考虑硬件部....

  例如,您可以向工人提供上下文化信息,如特定于角色的说明。这可以降低工作的复杂性,特别是对于经验不足的....

  视频记录与判读系统是靶场红外测量设备的重要组成部分,用来实时记录目标视频图像并完成对测量目标的定位和....

  SDAIA总裁阿卜杜拉·本·沙拉夫·加姆迪(Abdullah bin Sharaf Al Ghamd....

  卫星数据模拟源是一种能够模拟遥感卫星产生相关卫星数据信号的信号源。主要用于遥感卫星记录系统的系统故障....

  面对多云的必然趋势,企业会根据自身需求和业务特点,对数据安全性、可扩展、可管理、成本效应、存储性能和....

  智能门锁技术使人们可以使用手机开关门锁。可以通过WIFI或蓝牙功能将智能门锁软件与手机连接。通过使用....

  物联网传感器网络可以成为学校管理供暖和制冷以满足各种需求的一种经济高效的方式。连接性是收集此数据并对....

  IT领域中比较普遍的一个特定领域是数据保护,尤其是数据备份和恢复,在这些领域中,人工任务长期以来一直....

  注意看到Main里面需要用到Demo的实例,因此,需要硬编码,即静态绑定(在编译期间就需要绑定),这....

  不需要诊断数据时,电磁阀“Valve Module”的“Valves (16 coils)”或者“V....

  WebEye正是抓住了数字营销的变革与机遇,如今已发展成为一个超过400人的团队,拥有智能化投放平台....

  统计局表示,由于每年符合条件的规上企业数量会发生变化,故同比百分比和累计百分比的数据按照今年符合条件....

  政务外网上承载了众多职能单位,承载了众多业务系统。按照信息安全的要求,各单位的办公业务只有授权的本单....

  上述的这些优势,可以使物联网成为这项新技术的最大受益者,尤其是那些体积更小、功耗更低的设备。5G更高....

  物联网化建设过程中LM400TU LoRa无线 Zigbee模块的区别

  近年来物联网的使用已然成为社会热点,被大量使用在各个领域 ,如智能电网、公共交通、智慧工厂等,数字油....

  据综合彭博社、路透社消息,美国国务卿蓬佩奥5日再次以所谓“国家安全”为由,宣称美国正在加紧努力从美国....

  2020年8月6日,北京联通隆重召开了“聚焦5G 融合CTIT “5G智能运营平台发布会。正式对外发....

  我有个电子作品,这个作品的数据被我放到内存卡里了,每次运行时,会读取内存卡里的数据,但是数据要一个月一更新,每次都要拿回...

  参数设置完毕后,应对无人机进行试飞,检查飞行过程中相机拍摄情况、飞行路径执行情况、影像数据存储情况及....

  进制也就是进位制。进行加法运算时逢X进一(满X进一),进行减法运算时借一当X,这就是X进制,这种进制....

  函数指针,形如: #define PMYFUN (void*)(int,int) ,可以用在大量分支....

  连通性对于实现此目标至关重要:构建系统必须协同工作并进行沟通才能有效。 OpenBlue在设计时考虑....

  这里就想到了用中断的方式,进行采样。无法用规则模式,因为只能用单次采样触发中断。由于无法确定第一个通....

  中国对于创新药的研发有着非常强烈的需求,但对创新药研发历史较短,经验不足,而且研发投入的巨额资金和长....

  尽管有了这些发展,但从性能和成本的角度来看,仍然不希望将发布于世界各地的多个设备生成的所有信息收集到....

  最近的危机使人们越来越关注将自动机器人用于实际利益。我们已经看到机器人,运送食物和药品,甚至对患者进....

  而除了讯号的兼容之外,也需要转换器来转换不同的针脚和电气规格,这就是转换器的主要功能。为了对应所有的....

  随着流量热点位置的改变,新热点区域的耗电量将会增加。基于AI技术和数据/语音建模,甚至可以实现“一个....

  DIRECTV NOW的排名为150万,其次是YouTube TV,为100万。现在人们知道,Pla....

  “将数据转化为一切(Data-to-Everything)”平台提供商 Splunk 公司(纳斯达克....

  预计:到2025年,物联网设备生成的数据将从2019年的13.6ZB增长到79.4Z

  “尽管物联网正在成为各个应用领域的可接受术语,但管理和归档从连接的设备生成的数据是行业成功的关键因素....

  另外,人工智能虽然强大但是普及性有限,并没有人工智能成为一个平台可以直接使用。每一个传统企业都有客制....

  根据The Verge的说法,仍处于无限计划中的Verizon的大多数客户不再与合同签订。那些仍在签....

  配合经纬 M200 V2 系列飞行平台,单次作业时间长达32min,巡航里程可达20km。旨在进一步....

  一般而言,高管和讲师对未来制造业采取以人为本的综合观点。也就是说,考虑到操作员的接受程度,相关安全要....

  作为一款云存储产品,天翼云盘目前已服务了中国电信3.4亿的移动用户和1.8亿的宽带用户。满足用户日益....

  英特尔智能边缘创新日在线日,上海主题为智能边缘,IN领未来的英特尔智能....

  基于大数据,通过应用及集成先进算法和云信息技术,远景自主研发了“格林威治风电场设计产品”,具备集中式....

  待扫描完成后,软件自动进入“恢复文件选择界面”,如下图所示。深度恢复模式下,搜索到的文件将会按照文件....

  随着信号速率和带宽的提高,信号采集的速率也相应地不断提高。如今模数转换器的速率已经达到1 GS/s。....

  在生产工程、汽车工业或航空工程等领域,不同的测试与测量应用对模块化、耐用性和EMC特性的要求也不同。....

  企业跨界入局,行业格局初具雏形智慧灯杆配套设施涉及产业链繁多,盈利模式多元化引导入局企业类型丰富,行....

  空气质量微观监测站自动实时监测上报平台,统计分析 ,数据超标报警,历史报警记录,实时曲线查看, AP....

  收集到的一些信息将是地标,标牌和道路细节,这些信息将被整合到Apple Maps中。苹果公司在美国以....

  2.4G无线模块与电脑通讯, 我想用电脑发数据给通过2.4g传输到单片机以及单片机用2.4g发数据给电脑,但看了许多资料都不知道如何...

  整个过程中的一个主要问题是,黑客是否可以使用我们已知已受到破坏的帐户(Elon Musk,Bill ....

  在自然灾害的救援和恢复工作中,实时洪水映射至关重要。它使政府能够将救济直接用于最需要的地区。为了帮助....

  健身房智能魔镜就是把多种科技运用到传统的健身运动当中,让健身房变得更智能和便捷,其中显示运动数据这一....

  这个方案,对几家合作厂商而言是在实践物联网+区块链融合创新。对下游厂商而言,已然是一种全新的物联网体....

  该地震预警应用程序名为“MyShake”。通过该APP,用户可以在附近地震引起的地面开始摇晃之前,提....

  由于IO口得使用紧张,打算把板子上的RXD和TXD(即PA9、PA10)同时用作数据传输,也就是PA8~PA15用作为8位数据位...

  我可以获得任何参考设计,用于解码来自传入视频的嵌入式同步,1080 * 1920输入视频已同步SAV / EAV代码,我需要从SOF,...

  原子你好,请问怎样屏蔽低8位口(PD0-PD7),读取高8位数据呢?(PD8-PD15)...

  使用ise14.6 forVirtex7xc7vx690t-ffg1761设计它与消息映射失败的原因?

  我正在使用ise14.6 forVirtex7xc7vx690t-ffg1761设计。 它与消息映射失败: 错误:指南:63 - 指南设计 ...与目标设计相比,...

  如标题所示,各种仪器仪表进行串口通讯,都可能遇到运行后发现串口数据出错,接收到的都是乱码,不知道是哪个环节出了问题,...

  我想用二进制表示一些数,写成: EvaRegs.GPTCONA.all = 0b; 但是编译的时候报告: error: extra text...