机器学习(ML)(四) — 探析
深度学习(DL)(四) — 探析
自注意力
要将自注意力与CNN
一起使用,需要计算自注意力,即为输入句子中的每个单词创建基于注意力的表示。示例Jane, visite, l'Afrique, en, septembre
,我们的目标是为每个单词计算一个基于注意力的表示。最终会得到五个,因为句子有五个单词。即l'Afrique
的一种方法是查找l'Afrique
的词嵌入。根据对l'Afrique
的理解,可以选择不同的方式来表示它(RNN
上下文中看到的注意力机制没有太大区别,只是并行计算句子中所有单词的表示。
深度学习(DL)(三) — 探析
介绍
假设您要输入一个法语句子,如Jane visite I'Afrique Septembre
,并且要将其翻译成英语句子,Jane is visiting Africa in September
。我们使用RNN
,这可能是GRU
或LSTM
,一次一个单词地输入法语单词。在获取输入序列后,RNN
会输出一个表示输入句子的向量。之后,您可以构建一个解码器网络。编码器网络的编码输出作为输入,然后可以训练一次一个单词地输出翻译。最后,识别出序列的结尾和解码器停止的句子标记,这样它们在使用语言模型合成文本时保持在之前的序列中。深度学习最显著的成果之一是模型有效性。给定足够多的法语和英语句子对,如果你训练一个模型来输入法语句子并输出相应的英语翻译,这很有效。这个模型只使用一个编码器网络,找到输入法语句子的编码,然后使用一个解码器网络生成相应的英语翻译。
深度学习(DL)(二) — 探析
介绍
我们一直在使用词汇表来表示单词,词汇表可能有10,000
个单词。我们一直在使用1-hot
向量(1-Hot
编码是一种用于表示分类数据的技术,广泛应用于机器学习和深度学习中。它将每个类别转换为一个二进制向量,向量的长度等于类别的总数。每个向量中只有一个元素为1
,其余元素均为0
。)来表示单词。例如,如果man
是本词典中的第5391
个单词,那么你可以用一个在位置5391
处为1
的向量来表示。我还将使用O
代表1-hot
。如果woman
是第9853
个单词,那么你可以用9853
处只有一个1
,其他地方都是0
。然后其他单词king、queen、apple、orange
将同样用1-hot
向量表示。这种表示的缺点之一是它将每个单词视为一个独立的事物,并且它不允许算法概括交叉单词。