UMBRELLA

未雨绸缪,举重若轻

介绍

几十年前,神经网络刚被发明时,最初的动机是编写能够模仿人类大脑或生物大脑学习和思考方式的软件。尽管如今,神经网络(有时也称为人工神经网络)已经变得与我们对大脑实际看法大不相同。一些生物学动机仍然保留在我们今天对人工神经网络计算机神经网络的看法中。让我们先来看看大脑是如何工作的,以及它与神经网络的关系。人类大脑,或者更广泛地说,生物大脑表现出更高水平或更强大的智能神经网络的初衷是试图构建软件来模仿大脑。

阅读全文 »

自注意力

要将自注意力CNN一起使用,需要计算自注意力,即为输入句子中的每个单词创建基于注意力的表示。示例Jane, visite, l'Afrique, en, septembre,我们的目标是为每个单词计算一个基于注意力的表示。最终会得到五个,因为句子有五个单词。即。然后对句子中的各个单词进行计算。表示l'Afrique的一种方法是查找l'Afrique的词嵌入。根据对l'Afrique的理解,可以选择不同的方式来表示它()。它将查看周围的单词,试图弄清楚在这个句子中的含义,并找到最合适的表示。就实际计算而言,它与之前在RNN上下文中看到的注意力机制没有太大区别,只是并行计算句子中所有单词的表示。

阅读全文 »

介绍

假设您要输入一个法语句子,如Jane visite I'Afrique Septembre,并且要将其翻译成英语句子,Jane is visiting Africa in September。我们使用来表示单词和输入序列,我们将使用来表示输出序列中的单词。您如何训练神经网络来输入序列并输出序列?首先,让我们建立一个网络,称之为编码器网络,将其构建RNN,这可能是GRULSTM,一次一个单词地输入法语单词。在获取输入序列后,RNN会输出一个表示输入句子的向量。之后,您可以构建一个解码器网络编码器网络的编码输出作为输入,然后可以训练一次一个单词地输出翻译。最后,识别出序列的结尾和解码器停止的句子标记,这样它们在使用语言模型合成文本时保持在之前的序列中。深度学习最显著的成果之一是模型有效性。给定足够多的法语和英语句子对,如果你训练一个模型来输入法语句子并输出相应的英语翻译,这很有效。这个模型只使用一个编码器网络,找到输入法语句子的编码,然后使用一个解码器网络生成相应的英语翻译。

阅读全文 »

介绍

我们一直在使用词汇表来表示单词,词汇表可能有10,000个单词。我们一直在使用1-hot向量(1-Hot编码是一种用于表示分类数据的技术,广泛应用于机器学习和深度学习中。它将每个类别转换为一个二进制向量,向量的长度等于类别的总数。每个向量中只有一个元素为1,其余元素均为0。)来表示单词。例如,如果man是本词典中的第5391个单词,那么你可以用一个在位置5391处为1的向量来表示。我还将使用来表示这个因子,其中O代表1-hot。如果woman是第9853个单词,那么你可以用来表示,它在位置9853处只有一个1,其他地方都是0。然后其他单词king、queen、apple、orange将同样用1-hot向量表示。这种表示的缺点之一是它将每个单词视为一个独立的事物,并且它不允许算法概括交叉单词。

阅读全文 »

介绍

在语音识别中,您将获得一个输入音频片段,并被要求将其映射到文本转录。这里的输入和输出都是序列数据,因为是一个音频片段,因此它会随时间播放而输出是一个单词序列。音乐生成是序列数据问题的另一个例子。在这种情况下,只有输出是一个序列,输入可以是空集,也可以是一个整数,可能指的是您想要生成的音乐类型,也可能是您想要的音乐的前几个音符。但这里的可以是零,也可以只是一个整数,而输出是一个序列。

阅读全文 »

逻辑回归

线性回归不是解决分类问题的算法。另一种称为逻辑回归的算法。它是当今最流行和使用最广泛的学习算法之一。确定电子邮件是否为垃圾邮件的示例。您要输出的答案要么是“否”,要么是“是”。能否判断这笔交易是否是欺诈性的、试图将肿瘤分类为恶性还是非恶性。在每个问题中,你想要预测的变量只能是两个可能值中的一个。否或是。这种只有两个可能输出的分类问题称为二元分类二元这个词指的是只有两个可能的类或两个可能的类别。它们基本上是同一个意思。

阅读全文 »

梯度下降

我们看到了成本函数的可视化,以及如何尝试选择不同的参数。如果我们有一种更系统的方法来找到的值,从而得到的最小成本。事实证明,有一种称为梯度下降的算法可实现这一点。梯度下降在机器学习中随处可见,不仅用于线性回归,还用于训练一些最先进的神经网络模型,也称为深度学习模型

阅读全文 »

介绍

机器学习如今正在创造巨大的经济价值。我认为,当今机器学习创造的经济价值的99%是通过一种机器学习实现的,这种机器学习被称为监督学习

阅读全文 »

介绍

离散去噪扩散模型(Discrete Denoising Diffusion Models, DDMs)是一种用于生成合成数据深度学习模型,近年来因其在隐私保护方面的潜力而受到关注。随着对数据隐私的日益重视,研究人员开始探索这些模型在生成合成数据时的隐私保护能力。在生成合成数据的过程中,传统的隐私保护方法往往无法有效应对数据泄露的风险。离散去噪扩散模型通过逐步引入噪声并在后续步骤中去噪,生成与原始数据分布相似的合成数据。尽管已有实证研究评估了这些模型的性能,但对其隐私保护能力的数学表征仍存在较大缺口。

阅读全文 »

主成分分析(PCA)

现在您已经了解了投影的概念,让我们看看PCA如何使用它来降低数据集的维度。如下图所示,每个点代表一个不同的观测值,由两个以位置为图形的特征​​组成。降低此数据的维度意味着将图形为平面点的二维数据转变为图形为一条线的一维数据。该集合不是以原点(0,0)为中心,现在让我们看看如果投影到轴上会发生什么?

阅读全文 »
0%