UMBRELLA

未雨绸缪,举重若轻

介绍

在语音识别中,您将获得一个输入音频片段,并被要求将其映射到文本转录。这里的输入和输出都是序列数据,因为是一个音频片段,因此它会随时间播放而输出是一个单词序列。音乐生成是序列数据问题的另一个例子。在这种情况下,只有输出是一个序列,输入可以是空集,也可以是一个整数,可能指的是您想要生成的音乐类型,也可能是您想要的音乐的前几个音符。但这里的可以是零,也可以只是一个整数,而输出是一个序列。

阅读全文 »

逻辑回归

线性回归不是解决分类问题的算法。另一种称为逻辑回归的算法。它是当今最流行和使用最广泛的学习算法之一。确定电子邮件是否为垃圾邮件的示例。您要输出的答案要么是“否”,要么是“是”。能否判断这笔交易是否是欺诈性的、试图将肿瘤分类为恶性还是非恶性。在每个问题中,你想要预测的变量只能是两个可能值中的一个。否或是。这种只有两个可能输出的分类问题称为二元分类二元这个词指的是只有两个可能的类或两个可能的类别。它们基本上是同一个意思。

阅读全文 »

梯度下降

我们看到了成本函数的可视化,以及如何尝试选择不同的参数。如果我们有一种更系统的方法来找到的值,从而得到的最小成本。事实证明,有一种称为梯度下降的算法可实现这一点。梯度下降在机器学习中随处可见,不仅用于线性回归,还用于训练一些最先进的神经网络模型,也称为深度学习模型

阅读全文 »

介绍

机器学习如今正在创造巨大的经济价值。我认为,当今机器学习创造的经济价值的99%是通过一种机器学习实现的,这种机器学习被称为监督学习

阅读全文 »

介绍

离散去噪扩散模型(Discrete Denoising Diffusion Models, DDMs)是一种用于生成合成数据深度学习模型,近年来因其在隐私保护方面的潜力而受到关注。随着对数据隐私的日益重视,研究人员开始探索这些模型在生成合成数据时的隐私保护能力。在生成合成数据的过程中,传统的隐私保护方法往往无法有效应对数据泄露的风险。离散去噪扩散模型通过逐步引入噪声并在后续步骤中去噪,生成与原始数据分布相似的合成数据。尽管已有实证研究评估了这些模型的性能,但对其隐私保护能力的数学表征仍存在较大缺口。

阅读全文 »

主成分分析(PCA)

现在您已经了解了投影的概念,让我们看看PCA如何使用它来降低数据集的维度。如下图所示,每个点代表一个不同的观测值,由两个以位置为图形的特征​​组成。降低此数据的维度意味着将图形为平面点的二维数据转变为图形为一条线的一维数据。该集合不是以原点(0,0)为中心,现在让我们看看如果投影到轴上会发生什么?

阅读全文 »

线性变换

线性代数—张成

一组向量的张成(span)就是沿着这些向量的方向以任意组合移动到达的点的集合。例如,您已经看到这两个向量的张成(span)是平面,因为您可以通过沿着这两个方向移动到达平面上的任何点。同样,这两个向量的张成(span)也是平面。到达这些点可能需要一段时间,但可以只使用这两个方向。然而,这两个向量并不跨越平面。因为正如您之前所看到的,并非每个点都可以通过沿着这两个方向移动到达,它们是同一个方向。它们跨越哪一侧?那么这条线上的任何一点都可以通过沿着向量的方向移动到达,因此这两个向量的张成(span)就是那条线。

阅读全文 »

介绍

数据科学是一门跨学科的领域,结合了统计学计算机科学和领域知识,以从数据中提取有价值的信息。数学在数据科学中起着至关重要的作用,以下是数据科学中一些关键的数学基础。

  • 线性代数矩阵和向量—线性代数是数据科学的基础,特别是在机器学习和数据分析中。矩阵和向量用于表示和操作数据集;矩阵分解—如特征值分解奇异值分解(SVD),这些技术在降维数据压缩中非常重要。
  • 微积分导数和积分微积分用于优化算法,尤其是梯度下降法,这是训练机器学习模型的核心技术;偏导数和多变量微积分—在复杂模型中,涉及多个变量的优化问题需要用到这些概念。
  • 概率与统计基本概率—包括概率分布期望值方差,这些是理解随机过程和不确定性的重要工具;统计推断—如假设检验置信区间贝叶斯统计,用于从样本数据中推断总体特征。
  • 最优化线性规划和非线性规划—用于解决资源分配决策问题;凸优化—许多机器学习算法的基础,通过优化目标函数来找到最佳参数。
    阅读全文 »
0%