UMBRELLA

未雨绸缪,举重若轻

介绍

  • 处理现实世界数据集中常见的数据类型(缺失值、分类变量)。
  • 设计管道以提高机器学习代码的质量。
  • 使用先进的技术进行模型验证(交叉验证)。
  • 构建最先进的模型,广泛用于赢得Kaggle比赛(XGBoost)。
  • 避免常见且重要的数据科学错误(泄漏)。

缺失值(Missing Values)

您将学习三种处理缺失值的方法。然后,您将在现实数据集上比较这些方法的有效性。

阅读全文 »

模型见解的用例

许多人说机器学习模型是“黑匣子”,从某种意义上说,它们可以做出很好的预测,但你无法理解这些预测背后的逻辑。这种说法是正确的,因为大多数数据科学家还不知道如何从模型中提取见解。

  • 模型认为数据中哪些特征最重要?
  • 对于模型的任何单个预测,数据中的每个特征如何影响该特定预测?
  • 每个特征如何从大的角度影响模型的预测(考虑大量可能的预测时,其典型效果是什么)?
    阅读全文 »

基础数据探索

Pandas

任何机器学习项目的第一步都是熟悉数据。 为此,您将使用Pandas库。 Pandas是数据科学家用于探索和操作数据的主要工具。大多数人在代码中将pandas缩写为pd。我们用命令来做到这一点。

1
import pandas as pd
阅读全文 »

人工智能领域正在快速发展,算法不断发展以匹配甚至超越人类的能力,例如ChartGPT及其最近发布的新功能。我们今天使用的大多数人工智能工具,例如谷歌翻译等虚拟协助机器人,都是基于深度学习框架构建。深度学习(DL)是机器学习的高级子领域。深度学习模型可以自行演化,无需持续编程。深度学习网络具有无限的学习能力,可以理解数量惊人的数据,并为全新的分析水平打开大门。这些算法可以增强计算机视觉、语音识别、自然语言处理和分析任务,其应用范围从自动驾驶汽车到医学研究和诊断。

阅读全文 »

众所周知,数据挖掘、机器学习以及深度学习等,在学习与运用过程中,会涉及到大量的数学公式,而公式的编辑往往比较繁琐。LaTeX公式有两种,一种是用在正文中的,一种是单独显示的。正文中的公式如下:

1
$...$

单独一行显示的时候使用如下命令:

1
$$...$$

其中,$符号中间包含的三个点表格的是LaTex的公式命令。

阅读全文 »

随机森林

  • 随机森林原理:随机森林,是一种基于决策树的集成学习算法。它通过构建多棵决策树,并将它们的预测结果进行投票或平均,从而提高预测的准确性和稳定性。每棵树都是在随机抽取的数据样本和特征上构建的,因此可以有效减少过拟合,提高模型的泛化能力。
  • 应用场景:随机森林在许多领域都有广泛应用,如金融领域的信用评分、医疗领域的疾病预测、电商领域的推荐系统等它能够处理高维数据和缺失值,对异常值具有较强的鲁棒性,因此在实际问题中表现出色。
    阅读全文 »

反向传播

想象一下,你正在玩一个猜数字的游戏,你需要猜一个数字,这个数字是正确答案。每次猜完后,都会有人告诉你猜的数字是偏大还是偏小了。根据这个反馈,你可以调整你的猜测,直到猜正确为止。这就是反向传播算法的基本思想。反向传播是一种用于训练神经网络的算法。它通过计算损失函数关于网络参数的梯度,从而对网络参数进行更新,以达到减小损失函数值的目的。这个过程中,算法会从输出层开始,逐层计算每一层的梯度,知道输入层。这个例子中,我们定义了一个简单线性模型,并使用随机梯度下降法进行训练。在每次迭代中,我们首先进行前向传播,计算输出和损失;然后进行反向传播,计算梯度;最后更新模型参数。通过这个例子,我们可以看到反向传播算法在神经网络训练中的重要作用。

阅读全文 »
0%