UMBRELLA

未雨绸缪,举重若轻

特征交叉 - 因式分解机(FM)

假设有个特征,记作,这是个线性模型,记作,其中是偏移项,叫做bias,第二项个特征的连加,其中表示每个特征的权重,是线性模型的输出,它是对目标的预估。这个线性模型有个参数,是权重,是偏移项。线性模型的预测是特征的加权和。特征之间没有交叉,在推荐系统中,特征交叉是很有必要的,可以让模型的预测更准正确。

阅读全文 »

排序 - 多目标模型

我们先回顾一下推荐系统的链路,分为召回,粗排、精排、重排。有很多条召回通道,从几亿个物品选出几千个物品,做完召回之后,要从中选出用户最感兴趣的物品,这就要用到粗排和精排,粗排会给召回的物品逐一打分,保留分数最高的几百个物品,然后使用精排模型给粗排选中的几百个物品打分但不做截断,让几百个物品全都带着精排分数进入重排,最后一步是重排,做多样性抽样,并且把相似内容打散,最终由几十个物品被选中展示给用户。

阅读全文 »

召回 - 双塔模型

训练双塔模型需要正样本和负样本,选对正、负样本大于改进模型结构。选择正样本:如果物品给用户曝光之后,会有点击行为,就说明用户对物品感兴趣。把用户和物品二元组作为作为正样本,但是选取正样本有个问题需要解决,就是少部分物品占据了大部分点击,正样本是有点击的物品,导致正样本属于热门物品。拿过多的热门物品作为正样本,会对冷门物品不公平,这样会使热门物品更热,冷门物品更冷。解决方案是:对冷门物品过采样,或降采样热门物品。过采样(up-sampling):一个样本出现多次;降采样(down-sampling):一些样本被抛弃,以一定概率抛弃一些样本。抛弃的概率与样本的点击次数正相关。

阅读全文 »

概念介绍

推荐系统(Recommendation system)的链路包括两个重要的步骤:检索(称召回)和排名(分为粗排精排重排检索召回主要用于衡量系统从全量信息中找出相关内容的能力。它的核心目的是在用户查询的背景下,尽可能多地返回与之相关的信息。如下图所示:

阅读全文 »

介绍

推荐系统(Recommendation system)的商业影响和实际使用案例数量甚至远远超过学术界的关注程度。每次你访问京东app、淘宝app、美团app等或腾讯视频等电影流媒体网站,或者访问提供短视频(抖音、快手)应用时,这类应用都会向你推荐他们认为你可能想买的东西、他们认为你可能想看的电影或他们认为你可能想尝试的餐馆。对于许多公司来说,很大一部分销售额是由他们的推荐系统(Recommendation system)推动的。因此,对于许多公司来说,推荐系统(Recommendation system)带来的经济效益或价值非常大。因此,我们很有必要深入了解一下什么是推荐系统(Recommendation system)。

阅读全文 »

因子分析(Factor Analysis)

因子分析(Factor Analysis)是一种统计方法,旨在通过识别潜在的变量(因子)来解释观测变量之间的相关性。它广泛应用于心理学、社会科学、市场研究和其他领域,以简化数据结构、减少维度和发现潜在的关系。因子分析(Factor Analysis)原理是将多个观测变量归结为少数几个潜在因子。这一过程通常包括以下步骤:1.数据收集与准备,收集相关的数据集,确保数据的质量和适用性;2.相关矩阵计算,计算观测变量之间的相关矩阵,以了解变量之间的关系;3.因子提取,使用统计方法(如主成分分析最大似然估计)提取因子;因子旋转,为了使因子更易于解释,通常会对提取的因子进行旋转。旋转方法包括正交旋转(如Varimax)和斜交旋转(如Promax);因子解释,根据因子的载荷(即每个观测变量与因子的关系)来解释每个因子的含义;模型评估,通过各种统计指标(如KMO检验和Bartlett球形检验)评估模型的适用性和有效性。

阅读全文 »

密度估计

密度估计(Density Estimation)是一种用于估计随机变量的概率密度函数(PDF)的非参数统计方法。它通过对样本数据进行分析,提供一个平滑的函数,以表示数据在不同值上的分布情况。密度估计(Density Estimation)在数据分析机器学习信号处理等多个领域中具有广泛应用。

阅读全文 »

介绍

无监督机器学习使用的是自学习算法,在学习时无需任何标签,也无需事先训练。相反,模型会获得不带标签的原始数据。自学习规则,并根据相似之处、差异和模式来建立信息结构,且无需向该模型提供关于如何处理各项数据的明确说明。无监督机器学习更适合处理复杂的任务。它能够很好的识别出数据中以前未检测到的模式,并且有助于识别用于数据分类的特征。假设有一个关于天气的大型数据集,无监督学习算法会分析数据并识别数据点中的模式。例如,它可能会按温度或类似的天气模式对数据进行分组。虽然算法本身无法根据之前提供的任何信息来理解这些模式,但可以查看数据分组情况,并根据对数据集的理解并对其进行分类。例如天气模式被划分为不同类型的天气,如雨、雨夹雪或雪。

阅读全文 »

介绍

什么是决策树?学习算法输出的模型看起来像一棵树。这里有一个新的测试示例,有一只猫,耳朵形状尖尖的,脸形圆润,有胡须。该模型学习此示例并做出分类决策,从树的最顶端节点开始,这称为树的根节点,然后查看写在里面的特征,即耳朵形状。根据此示例的耳朵形状的值向左或向右走。耳朵形状的值是尖的,所以将沿着树的左边分支向下走,最后到达椭圆形节点。然后查看脸部形状,脸部是圆形的,所以将沿着这里的箭头向下走。算法会推断这是一只猫。树中最上面的节点称为根节点。所有这些节点都称为决策节点。它们之所以是决策节点,是因为它们会查看特定特征,然后根据特征的值,来决策是沿着树向左走还是向右走。最后,这些底部的节点称为叶节点。它们会做出预测

阅读全文 »

偏差和方差

开发机器学习系统的典型工作流程是什么?当训练机器学习模型时。在给定数据集,如果想用直线去拟合它,可能做得并不好。我们说这个算法有很高的偏差,或者它对这个数据集的拟合不足,也可以称为欠拟合。如果要拟合一个四阶多项式,那么它有很高的方差,或者称为过拟合。如果拟合一个二次多项式,那么它看起来相当不错。如下图所示:

阅读全文 »
0%