UMBRELLA

未雨绸缪,举重若轻

主成分分析(PCA)

现在您已经了解了投影的概念,让我们看看PCA如何使用它来降低数据集的维度。如下图所示,每个点代表一个不同的观测值,由两个以位置为图形的特征​​组成。降低此数据的维度意味着将图形为平面点的二维数据转变为图形为一条线的一维数据。该集合不是以原点(0,0)为中心,现在让我们看看如果投影到轴上会发生什么?

阅读全文 »

线性变换

线性代数—张成

一组向量的张成(span)就是沿着这些向量的方向以任意组合移动到达的点的集合。例如,您已经看到这两个向量的张成(span)是平面,因为您可以通过沿着这两个方向移动到达平面上的任何点。同样,这两个向量的张成(span)也是平面。到达这些点可能需要一段时间,但可以只使用这两个方向。然而,这两个向量并不跨越平面。因为正如您之前所看到的,并非每个点都可以通过沿着这两个方向移动到达,它们是同一个方向。它们跨越哪一侧?那么这条线上的任何一点都可以通过沿着向量的方向移动到达,因此这两个向量的张成(span)就是那条线。

阅读全文 »

介绍

数据科学是一门跨学科的领域,结合了统计学计算机科学和领域知识,以从数据中提取有价值的信息。数学在数据科学中起着至关重要的作用,以下是数据科学中一些关键的数学基础。

  • 线性代数矩阵和向量—线性代数是数据科学的基础,特别是在机器学习和数据分析中。矩阵和向量用于表示和操作数据集;矩阵分解—如特征值分解奇异值分解(SVD),这些技术在降维数据压缩中非常重要。
  • 微积分导数和积分微积分用于优化算法,尤其是梯度下降法,这是训练机器学习模型的核心技术;偏导数和多变量微积分—在复杂模型中,涉及多个变量的优化问题需要用到这些概念。
  • 概率与统计基本概率—包括概率分布期望值方差,这些是理解随机过程和不确定性的重要工具;统计推断—如假设检验置信区间贝叶斯统计,用于从样本数据中推断总体特征。
  • 最优化线性规划和非线性规划—用于解决资源分配决策问题;凸优化—许多机器学习算法的基础,通过优化目标函数来找到最佳参数。
    阅读全文 »

介绍

SAM2(Segment Anything Model 2)Meta AI最新发布的图像和视频分割模型,是Segment Anything Model(SAM)的下一代模型。SAM2是一个统一的模型,可以同时处理图像视频分割任务。这种统一的架构简化了部署,并在不同媒体类型中实现了一致的性能。SAM2采用了提示式视觉分割(Promptable Visual Segmentation, PVS)的方法。用户可以通过点击边界框掩码等方式在视频的任何帧上提供提示,模型会立即生成相应的分割掩码,并将其传播到整个视频中。

阅读全文 »

介绍

联邦学习(Federated Learning,FL)是一种分布式机器学习技术,旨在保护数据隐私的同时,利用分散在多个边缘设备或服务器上的本地数据进行模型训练。该方法由谷歌在2016年首次提出,主要用于解决数据孤岛隐私保护问题。它本质上是一种保护隐私的多方协作机器学习框架,它允许参与方建立一个联合训练模型,但参与方均在本地维护其底层数据而不将原始数据进行共享。联邦学习的核心思想是将模型训练过程分布在多个本地设备上,而不是将所有数据集中到一个中央服务器。每个设备在本地使用其数据进行模型训练,然后将模型参数(而非原始数据)发送到中央服务器进行聚合。通过这种方式,联邦学习能够有效保护数据隐私,减少数据传输的风险和成本。

阅读全文 »

介绍

MixLoRA是一种用于优化大规模语言模型(LLMs)微调的新方法,结合了LoRA(Low-Rank Adaptation)和专家混合(Mixture of Experts, MoE)技术。大规模语言模型的微调通常需要大量的计算资源和显存。LoRA通过引入低秩适配器,显著减少了微调时的参数数量和显存需求。然而,LoRA在多任务学习场景中的性能仍有提升空间。专家混合模型(MoE)在多任务学习中表现出色,但其资源需求对普通消费者级GPU来说是一个挑战。

阅读全文 »

介绍

LLM基准如何运作?从本质上讲,LLM基准测试遵循一个相当简单的原则:给模型一个任务,看看它表现如何,然后测量评估结果。但是,在评估可靠性方面存在一些细微差别。运行基准测试有以下几种方法:

  • 零样本:模型在没有任何先前示例或提示的情况下接受任务。这展示了其理解和适应新情况的原始能力。
  • 少量样本:在要求LLM解决类似任务之前,会先给其一些如何完成任务的示例。这揭示了其从少量数据中学习的能力。
  • 微调:在这种情况下,LLM专门针对与基准任务相关的数据进行训练,目的是最大限度地提高其在该特定领域的熟练程度。如果微调有效,它将展示模型在任务中的最佳性能。
    阅读全文 »

介绍

可解释机器学习是指使机器学习系统的行为和预测可以被人类理解的方法和模型。数据集是包含机器学习数据的表格。数据集包含特征和要预测的目标。当用于建立模型时,数据集称为训练数据实例是数据集中的一行。“实例”的其他名称是:(数据)点、示例。实例由特征值组成以及目标结果。特征是用于预测或分类的输入。特征是数据集中的一列。特征被认为是可解释的,这意味着很容易理解它们的含义,例如某一天的温度或一个人的身高。特征的可解释性是一个很大的假设。但如果很难理解输入特征,那么理解模型的作用就更难了。目标是机器学习预测的信息。在数学公式中,对于单个实例来说,目标通常称为或者机器学习任务是具有特征的数据集和目标的组合。根据目标的类型,任务可以是分类、回归、聚类或异常值检测等。预测是机器学习模型根据给定的特征“猜测”目标值应该是什么。模型预测表示为或者

阅读全文 »
0%