GPT模型探析(LLM)(Numpy)
GPT
代表生成式预训练Transformer
(Generative Pre-trained Transformer
)。这是一类基于Transformer
的神经网络架构。生成式(Generative
):GPT
可以生成文本;预训练(Pre-trained
):GPT
基于来自于书本、互联网等来源的海量文本进行训练;Transformer
:GPT
是一个decoder-only
的Transformer
神经网络结构。
GPT
代表生成式预训练Transformer
(Generative Pre-trained Transformer
)。这是一类基于Transformer
的神经网络架构。生成式(Generative
):GPT
可以生成文本;预训练(Pre-trained
):GPT
基于来自于书本、互联网等来源的海量文本进行训练;Transformer
:GPT
是一个decoder-only
的Transformer
神经网络结构。
人与人之间需要交流。出于人类这种基本需要,每天都有大量的书面文本产生。 比如,社交媒体、聊天应用、电子邮件、产品评论、新闻文章、研究论文和书籍中的丰富文本,使计算机能够理解它们以提供帮助或基于人类语言做出决策变得至关重要。自然语言处理是指研究使用自然语言的计算机和人类之间的交互。要理解文本,我们可以从学习它的表示开始。利用来自大型语料库的现有文本序列,自监督学习(self-supervised learning
)已被广泛用于预训练文本表示,例如通过使用周围文本的其它部分来预测文本的隐藏部分。通过这种方式,模型可以通过有监督地从海量文本数据中学习,而不需要昂贵的标签标注!
优化算法对于深度学习非常重要。一方面,训练复杂的深度学习模型可能需要数小时、几天甚至数周。优化算法的性能直接影响模型的训练效率。另一方面,了解不同优化算法的原则及其超参数的作用将使我们能够以有针对性的方式调整超参数,以提高深度学习模型的性能。
灵长类动物的视觉系统接受了大量的感官输入,这些感官输入远远超过了大脑能够完全处理的程度。然而,并非所有刺激的影响都是相等的。意识的聚集和专注使灵长类动物能够在复杂的视觉环境中将注意力引向感兴趣的物体,例如猎物和天敌。只关注一小部分信息的能力对进化更加有意义,使人类得以生存和成功。自19
世纪以来,科学家们一直致力于研究认知神经科学领域的注意力。基于注意力机制的Transformer
架构,该架构中使用了多头注意力(multi-head attention
)和自注意力(self-attention
)。自2017
年横空出世,Transformer
一直都普遍存在于现代的深度学习应用中,例如语言、视觉、语音和强化学习领域。
我们讨论了如何在循环神经网络中计算梯度,以及矩阵连续乘积可以导致梯度消失或梯度爆炸的问题。下面我们简单思考一下这种梯度异常在实践中的意义:
在学术界已经提出了许多方法来解决这类问题。其中最早的方法是“长短期记忆”(long-short-term memory,LSTM
),门控循环单元(gated recurrent unit,GRU
)是一个稍微简化的变体,通常能够提供同等的效果,并且计算的速度明显更快。
我们学习了
简言之,如果说卷积神经网络可以有效地处理空间信息(图片),循环神经网络(recurrent neural network,RNN
)则可以更好地处理序列信息(文本)。循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而可以确定当前的输出。
ResNet
极大地改变了如何参数化深层网络中函数的观点。稠密连接网络(DenseNet
)在某种程度上是ResNet
的逻辑扩展。让我们先从数学上了解一下。