Clustering (聚类)是常见的unsupervised learning (无监督学习)方法,简单地说就是把相似的数据样本分到一组(簇),聚类的过程,我们并不清楚某一类是什么(通常无标签信息),需要实现的目标只是把相似的样本聚到一起,即只是利用样...
向量数据库其实最早在传统的人工智能和机器学习场景中就有所应用。在大模型兴起后,由于目前大模型的token数限制,很多开发者倾向于将数据量庞大的知识、新闻、文献、语料等先通过嵌入(embedding)算法转变为向量数据,然后存...
附注:除了以上两大类模型,还有半监督学习和强化学习等其他类型的机器学习模型。半监督学习是指在有部分标签数据的情况下,结合监督学习和无监督学习的方法进行模型训练。强化学习是指通过让计算机自动与环境交互,学习出如...
决策树算法是机器学习领域的基石之一,其强大的数据分割能力让它在各种预测和分类问题中扮演着重要的角色。从它的名字便能窥见其工作原理的直观性:就像一棵树一样,从根到叶子的每一分叉都是一个决策节点,指引数据点最终归...
在机器学习的众多子领域中,聚类算法一直占据着不可忽视的地位。它们无需预先标注的数据,就能将数据集分组,组内元素相似度高,组间差异大。这种无监督学习的能力,使得聚类算法成为探索未知数据的有力工具。DBSCAN(Density-Ba...
最近对大型语言模型(例如ChatGPT和GPT-4)进行的评估工作主要侧重于在基本自然语言任务上的能力,以及模型生成用于解决单句用户指令的API的工具使用能力,却忽略了在理解复杂多模态环境中使用API完成用户指令的难题。...
如果想让机器人帮助你,你通常需要下达一个较为精准的指令,但指令在实际中的实现效果不一定理想。如果考虑真实环境,当要求机器人找某个特定的物品时,这个物品不一定真的存在当前的环境内,机器人无论如何也找不到;但是环境当...
在这个问题中,我们使用 Go 语言来解决一个散列(Hash)表的问题,该问题需要我们使用链接法解决冲突。我们的散列函数为 h(k) = k mod 9,也就是说,我们使用关键字除以9的余数作为散列地址。...
利用已知的样本点在图示的坐标轴上画出了绿色的曲线,表示源数据的大致分布状况。假设我们使用后面要学习的线性回归去解决样本点拟合问题, 比如用多项式表示线性回归模型:...
目前采用的主流相机畸变矫正模型基本都是Brown-Conrady模型,原论文:Decentering Distortion of Lenses