机器学习｜深度学习认识

概念认识

深度学习是机器学习的一个分支

深度学习是一类问题以及解决这类问题的方法

深度学习采用的模型一般比较复杂，指样本的原始输入到输出目标之间的数据流经过多个线性或非线性的组件。每个组件都对信息进行加工，并进而影响后续的组件。

深度学习输出最后结果时，每个组件贡献多少，并不清楚。这个问题叫-【贡献度分配问题，CAP】

人工神经网络是一种解决贡献分配问题的模型

人工神经网络简称“神经网络”

人工神经网络是受人脑神经系统的工作方式启发而构建的数学模型

人脑神经系统是一个由生物神经元组成的高度复杂网络，是一个并行的非线性信息处理系统。

人脑神经系统可以将声音，视觉等信号经过多层的编码，从最原始的底层特征不断加工，抽象，最终得到原始信号的语义表示。

人工神经网络是由人工神经元以及神经元之间的连接构成，其中有类特殊的神经元，一类用来接收外部的信息，另一类用来输出信息。

神经网络可以看作是信息从输入到输出的信息处理系统。

神经网络的参数可以通过机器学习的方式从数据中学习。

神经网络模型一般比较复杂，从输入到输出的信息传递路径一般比较长，所以复杂神经网络的学习可以看成是一种深度的机器学习，即为深度学习。

神经网络不等同于深度学习。

深度学习可以采用神经网络，也可以采用其他模型

大语言 Large Language Models

大型语言模型是一种机器学习模型，它在大型文本数据语料库上进行训练，为各种自然语言处理 (NLP)任务生成输出，例如文本生成、问答和机器翻译。

大型语言模型通常基于深度学习神经网络（例如 Transformer 架构），并根据大量文本数据进行训练，通常涉及数十亿个单词。较大的模型，例如 Google 的 BERT 模型，使用来自各种数据源的大型数据集进行训练，这使它们能够为许多任务生成输出。

WuDao 2.0	Beijing Academy of Artificial Intelligence	1.75 trillion
MT-NLG	Nvidia and Microsoft	530 billion
Bloom	Hugging Face and BigScience	176 billion
GPT-3	OpenAI	175 billion
LaMDA	Google	137 billion
ESMFold	Meta AI	15 billion
Gato	DeepMind	1.18 billion

Transformer

https://research.aimultiple.com/large-language-model-training/
https://research.aimultiple.com/large-language-models-examples/
https://blogs.nvidia.com/blog/2023/01/26/what-are-large-language-models-used-for/#:~:text=A large language model, or,successful applications of transformer models.
https://blogs.nvidia.com/blog/2022/03/25/what-is-a-transformer-model/
https://d2l.ai/chapter_attention-mechanisms-and-transformers/transformer.html

0 人点赞