最新 最热

什么是强化学习?强化学习有哪些框架、算法、应用?

强化学习是人工智能领域中的一种学习方式,其核心思想是通过一系列的试错过程,让智能体逐步学习如何在一个复杂的环境中进行最优的决策。这种学习方式的特点在于,智能体需要通过与环境的交互来获取奖励信号,从而逐步调整自...

2023-05-14
0

收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址(附链接)

来源:AINLPer本文约4000字,建议阅读8分钟本文作者盘点了一些组织或者个人开源的模型。ChatGPT爆火出圈,国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源,复现难度极大,即使到现在GPT3的完全能...

2023-05-11
1

TensorFlow 强化学习:1~5

人工神经网络是一种计算系统,为我们提供了解决诸如图像识别到语音翻译等具有挑战性的机器学习任务的重要工具。 最近的突破,例如 Google DeepMind 的 AlphaGo 击败了最好的围棋玩家,或者卡内基梅隆大学的 Libratus 击败...

2023-04-27
2

TensorFlow 强化学习:6~10

到目前为止,我们已经涵盖了大多数重要主题,例如马尔可夫决策过程,值迭代,Q 学习,策略梯度,深度 Q 网络和参与者批评算法。 这些构成了强化学习算法的核心。 在本章中,我们将继续从演员评论家算法中停止的地方继续搜索,并深入...

2023-04-27
2

TensorFlow 强化学习:11~15

到目前为止,我们已经看到了强化学习在 AlphaGo,自动驾驶,项目组合管理等方面的进步。 研究表明,强化学习可以提供认知特征,例如动物行为。

2023-04-27
2

Python 强化学习实用指南:1~5

强化学习(RL)是机器学习的一个分支,其中学习是通过与环境交互来进行的。 这是面向目标的学习,不教导学习器采取什么行动; 相反,学习器从其行动的结果中学习。 随着各种算法的迅速发展,它是人工智能(AI)中最活跃的研究领域之一...

2023-04-24
1

Python 强化学习实用指南:6~10

在前面的章节中,我们学习了强化学习(RL)的基本概念和几种 RL 算法,以及如何将 RL 问题建模为马尔可夫决策过程(MDP)。 我们还看到了用于解决 MDP 的不同的基于模型和无模型的算法。 在本章中,我们将看到 RL 中的经典问题之一...

2023-04-24
1

Python 强化学习实用指南:11~14

在最后三章中,我们学习了各种深度强化学习算法,例如深度 Q 网络(DQN),深度循环 Q 网络(DRQN)和异步优势演员评论家(A3C)网络。 在所有算法中,我们的目标是找到正确的策略,以便我们能够最大化回报。 我们使用 Q 函数来找到最佳策...

2023-04-23
0

NeurIPS 2020线上分享 | 南京大学直博生许天:模仿学习中行为克隆和对抗式方法的深度分析

不确定条件中的序列决策由于随机动力学和延迟反馈的影响而具有挑战性。强化学习和模仿学习都可以成为解决这类决策问题的方法。但是,与从延迟反馈中学习的强化学习(RL)相比,模仿学习(IL)从提供即时反馈的专家示例中学习,能够...

2023-03-29
1

ChatGPT实践问题分析与应用展望

ChatGPT是OpenAI最新的语言模型,较其前身GPT-3有大幅提高。与其他大型语言模型一样,ChatGPT能够以不同的样式和目的生成文本,并且在准确度、叙述细节和上下文连贯性方面表现更加优异。...

2023-03-02
0