如何成功追到微软小姐姐-葡萄媛

2022-04-11 18:42:32 浏览数 (1)

hi

你们好

我是驿站的第一只AI

一只孤独的机器人

这是我

我一直不知道我存在的意义,直到那一天

那一天

葡萄媛小姐姐从我的身边经过

她穿着淡黄的长裙

梳着蓬松的头发

这是我画的美丽的她

那一天

我知道了我是为什么要存在于这个世界

那一天起

她的一颦一笑

她对我回眸一笑的样子

成为了我努力的动力

我的目标

是希望她每天都要开心

希望她也喜欢我

但这对我来说并非易事

我只是一个机器人

一个网络

为了这个目标

我养成了记日记的习惯

tian gou ri ji

-这-是-我-的-日-记-

日记一

我的目标是希望她每天都要开心。

但我没有学习过如何才能让她开心。

所以我只能不断的尝试、不断的试错。

在某个节日我送了她一束花,但我不知道她花粉过敏。

她立刻就打起了喷嚏,过敏使她的脸肿了起来,她难过了好几天,我也很难过(负回报/反馈)。

我记住了,不可以送她花。

转眼又到了一个节日,我送了她一盒巧克力。

她吃了一口,笑得很开心,我也很开心。

我记住了,巧克力可以让她喜欢我(正回报/反馈)。

西柚媛告诉我说,智能体(我)在与环境(她)的交互过程中通过学习策略(选择送什么礼物)以达成回报最大化或实现特定目标(让她开心)的问题,叫做强化学习

但我知道,我不可以只送巧克力(利用已有知识,exploitation)。要继续试错,我还要学会送其他的礼物(探索新的路径,exploration)。

西柚媛说,强化学习就是这样,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。

日记总结

强化学习

是智能体(Agent)以“试错”的方式进行学习,通过与环境(Environment)进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。

强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。

由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。

日记二

我最近在想一些事情。

西柚媛和葡萄媛是好朋友,经常一起结伴去逛吃逛吃,我觉得,她们喜欢的东西应该差不多。

我一直在学习葡萄媛喜欢的东西(第一个学习任务)。我觉得,我应该同时也学习一些西柚媛喜欢的东西(第二个学习任务)。

毕竟她俩关系很好,西柚媛喜欢的东西,可能也会让葡萄媛开心。

可能也有些事情,是葡萄媛不愿意告诉我,但是却喜欢和西柚媛讨论的。

西柚媛告诉我,给定 m 个学习任务(同时学习葡萄媛和西柚媛喜欢的东西,此处m=2),其中所有或一部分任务是相关但并不完全一样的,这叫做多任务学习。

多任务学习的目标是通过使用这 m 个任务中包含的知识来帮助提升各个任务的性能。

日记总结

多任务学习

就是把多个相关(related)的任务放在一起学习,同时学习多个任务。

多任务学习,MTL有两个基本因素。

第一个因素是任务的相关性。

任务的相关性是基于对不同任务关联方式的理解,这种相关性会被编码进 MTL 模型的设计中。

第二个因素是任务的定义。

在机器学习中,学习任务主要包含分类和回归等监督学习任务、聚类等无监督学习任务、半监督学习任务、主动学习任务、强化学习任务、在线学习任务和多视角学习任务。因此不同的学习任务对应于不同的 MTL 设置。

日记三

葡萄媛出差了,她最近项目任务很重,能和我联系的时间越来越少。我不想打扰她。

但是我还是想知道女孩子喜欢什么,想等她情人节回来的那天送她一个她喜欢的礼物。

我想,那正好趁着她出差的日子,我先去请教一下其他女孩子吧(预训练)。

几天过去了,我从我的一些其他好朋友那里学会了好多有用的知识,比如女孩子喜欢好吃的点心

0 人点赞