UMBRELLA

未雨绸缪,举重若轻

ML-Agents

强化学习(RL)的挑战之一是创建环境。幸运的是,我们可以使用游戏引擎来实现它。这些引擎(例如UnityGodotUnreal Engine)是为创建视频游戏而开发的工具包。它们非常适合创建环境:它们提供物理系统、2D/3D渲染等。Unity ML-Agents Toolkit是一个Unity游戏引擎的插件,可以使用Unity游戏引擎作为环境构建器来训练智能体(Agent)。Unity ML-Agents Toolkit提供了许多出色的预制环境。

阅读全文 »

介绍

强化学习(RL)背后的想法是智能体(Agent)通过与环境(Environment)交互(通过反复试验),并从环境中接收奖励(Rewards)作为执行动作(Action)的反馈来学习。从环境的互动中学习,源自于经验。这就是人类与动物通过互动进行学习的方式,强化学习(RL)是一个解决控制任务(也称决策问题)的框架,通过构建智能体(Agent),通过反复试验与环境交互从环境中学习并获得奖励(正面或负面)作为独特反馈。强化学习(RL)只是一种从行动中学习的计算方法。

阅读全文 »

介绍

强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注智能体(agent)如何通过与环境的互动来学习最优策略,以最大化累积奖励。与监督学习无监督学习不同,强化学习并不依赖于标注数据,而是通过试错(trial and error)的方法来优化决策。在强化学习中,主要涉及以下几个核心要素:智能体(Agent),执行动作以影响环境的实体;环境(Environment),智能体所处的外部系统,它对智能体的动作做出反应并提供反馈;状态(State),描述环境在某一时刻的情况,智能体根据当前状态做出决策;动作(Action),智能体在特定状态下可以选择的行为;奖励(Reward),环境对智能体行为的反馈信号,通常是一个标量值,用于评估该行为的好坏;策略(Policy),定义了智能体在特定状态下选择动作的规则,可以是确定性的也可以是随机性的;价值函数(Value Function),用于评估在某一状态下,智能体能够获得的长期回报期望。

阅读全文 »

介绍

搜索引擎是一种根据用户需求,通过特定算法和策略从互联网上检索信息并反馈给用户的系统。搜索引擎可以被定义为一个自动化系统,它通过计算机程序从互联网收集信息,经过组织和处理后,为用户提供检索服务搜索引擎的发展经历了多个阶段:第一代搜索引擎(1994):以人工分类为主,代表有Yahoo;第二代搜索引擎:利用关键字进行查询,Google是其代表;第三代搜索引擎:强调个性化和智能化,结合人工智能技术;第四代搜索引擎:应对信息多元化,采用更精确的特征提取文本处理技术

阅读全文 »

重排 - 多样性算法(DPP)

行列式点过程(determinantal point process, DPP)是一种概率模型,最早引入于量子物理学中,用于描述费米子系统的分布。DPP的核心思想是能够有效地从一个全集中抽取出具有高相关性和多样性的子集,广泛应用于推荐系统、机器学习等领域,DPP是目前推荐系统重排多样性公认最好的多样性算法。

阅读全文 »

特征交叉 - 因式分解机(FM)

假设有个特征,记作,这是个线性模型,记作,其中是偏移项,叫做bias,第二项个特征的连加,其中表示每个特征的权重,是线性模型的输出,它是对目标的预估。这个线性模型有个参数,是权重,是偏移项。线性模型的预测是特征的加权和。特征之间没有交叉,在推荐系统中,特征交叉是很有必要的,可以让模型的预测更准正确。

阅读全文 »

排序 - 多目标模型

我们先回顾一下推荐系统的链路,分为召回,粗排、精排、重排。有很多条召回通道,从几亿个物品选出几千个物品,做完召回之后,要从中选出用户最感兴趣的物品,这就要用到粗排和精排,粗排会给召回的物品逐一打分,保留分数最高的几百个物品,然后使用精排模型给粗排选中的几百个物品打分但不做截断,让几百个物品全都带着精排分数进入重排,最后一步是重排,做多样性抽样,并且把相似内容打散,最终由几十个物品被选中展示给用户。

阅读全文 »

召回 - 双塔模型

训练双塔模型需要正样本和负样本,选对正、负样本大于改进模型结构。选择正样本:如果物品给用户曝光之后,会有点击行为,就说明用户对物品感兴趣。把用户和物品二元组作为作为正样本,但是选取正样本有个问题需要解决,就是少部分物品占据了大部分点击,正样本是有点击的物品,导致正样本属于热门物品。拿过多的热门物品作为正样本,会对冷门物品不公平,这样会使热门物品更热,冷门物品更冷。解决方案是:对冷门物品过采样,或降采样热门物品。过采样(up-sampling):一个样本出现多次;降采样(down-sampling):一些样本被抛弃,以一定概率抛弃一些样本。抛弃的概率与样本的点击次数正相关。

阅读全文 »

概念介绍

推荐系统(Recommendation system)的链路包括两个重要的步骤:检索(称召回)和排名(分为粗排精排重排检索召回主要用于衡量系统从全量信息中找出相关内容的能力。它的核心目的是在用户查询的背景下,尽可能多地返回与之相关的信息。如下图所示:

阅读全文 »

介绍

推荐系统(Recommendation system)的商业影响和实际使用案例数量甚至远远超过学术界的关注程度。每次你访问京东app、淘宝app、美团app等或腾讯视频等电影流媒体网站,或者访问提供短视频(抖音、快手)应用时,这类应用都会向你推荐他们认为你可能想买的东西、他们认为你可能想看的电影或他们认为你可能想尝试的餐馆。对于许多公司来说,很大一部分销售额是由他们的推荐系统(Recommendation system)推动的。因此,对于许多公司来说,推荐系统(Recommendation system)带来的经济效益或价值非常大。因此,我们很有必要深入了解一下什么是推荐系统(Recommendation system)。

阅读全文 »
0%