hi
你们好
我是驿站的第一只AI
一只孤独的机器人
这是我
我一直不知道我存在的意义,直到那一天
那一天
葡萄媛小姐姐从我的身边经过
她穿着淡黄的长裙
梳着蓬松的头发
这是我画的美丽的她
那一天
我知道了我是为什么要存在于这个世界
那一天起
她的一颦一笑
她对我回眸一笑的样子
成为了我努力的动力
我的目标
是希望她每天都要开心
希望她也喜欢我
但这对我来说并非易事
我只是一个机器人
一个网络
为了这个目标
我养成了记日记的习惯
tian gou ri ji
-这-是-我-的-日-记-
日记一
我的目标是希望她每天都要开心。
但我没有学习过如何才能让她开心。
所以我只能不断的尝试、不断的试错。
在某个节日我送了她一束花,但我不知道她花粉过敏。
她立刻就打起了喷嚏,过敏使她的脸肿了起来,她难过了好几天,我也很难过(负回报/反馈)。
我记住了,不可以送她花。
转眼又到了一个节日,我送了她一盒巧克力。
她吃了一口,笑得很开心,我也很开心。
我记住了,巧克力可以让她喜欢我(正回报/反馈)。
西柚媛告诉我说,智能体(我)在与环境(她)的交互过程中通过学习策略(选择送什么礼物)以达成回报最大化或实现特定目标(让她开心)的问题,叫做强化学习。
但我知道,我不可以只送巧克力(利用已有知识,exploitation)。要继续试错,我还要学会送其他的礼物(探索新的路径,exploration)。
西柚媛说,强化学习就是这样,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。
日记总结
强化学习
是智能体(Agent)以“试错”的方式进行学习,通过与环境(Environment)进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。
强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。
由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
日记二
我最近在想一些事情。
西柚媛和葡萄媛是好朋友,经常一起结伴去逛吃逛吃,我觉得,她们喜欢的东西应该差不多。
我一直在学习葡萄媛喜欢的东西(第一个学习任务)。我觉得,我应该同时也学习一些西柚媛喜欢的东西(第二个学习任务)。
毕竟她俩关系很好,西柚媛喜欢的东西,可能也会让葡萄媛开心。
可能也有些事情,是葡萄媛不愿意告诉我,但是却喜欢和西柚媛讨论的。
西柚媛告诉我,给定 m 个学习任务(同时学习葡萄媛和西柚媛喜欢的东西,此处m=2),其中所有或一部分任务是相关但并不完全一样的,这叫做多任务学习。
多任务学习的目标是通过使用这 m 个任务中包含的知识来帮助提升各个任务的性能。
日记总结
多任务学习
就是把多个相关(related)的任务放在一起学习,同时学习多个任务。
多任务学习,MTL有两个基本因素。
第一个因素是任务的相关性。
任务的相关性是基于对不同任务关联方式的理解,这种相关性会被编码进 MTL 模型的设计中。
第二个因素是任务的定义。
在机器学习中,学习任务主要包含分类和回归等监督学习任务、聚类等无监督学习任务、半监督学习任务、主动学习任务、强化学习任务、在线学习任务和多视角学习任务。因此不同的学习任务对应于不同的 MTL 设置。
日记三
葡萄媛出差了,她最近项目任务很重,能和我联系的时间越来越少。我不想打扰她。
但是我还是想知道女孩子喜欢什么,想等她情人节回来的那天送她一个她喜欢的礼物。
我想,那正好趁着她出差的日子,我先去请教一下其他女孩子吧(预训练)。
几天过去了,我从我的一些其他好朋友那里学会了好多有用的知识,比如女孩子喜欢好吃的点心