B站2021算法笔试题，选择题部分剖析（三）

作者 | 梁唐

出品 | 公众号：Coder梁（ID：Coder_LT）

大家好，我是梁唐。

今天我们接着之前，继续看B站2021算法岗校招笔试题选择题的最后一个部分。

题目来源于牛客网，感兴趣的同学可以点击阅读原文跳转。

第一题

分布式系统的CAP原则指分布式系统在三个要素中只能兼顾两点。下列不属于三要素中的是

这道题考察的是对分布式系统基本的了解，CAP是分布式系统当中的基本原则。

其中的C指的是consistency，即一致性，A指的是availability，即可用性，P指的是partition tolerance，即分区容错性。

事务性并不是CAP中的要素，别和数据库ACID四原则弄混。

第二题

对于n个带权样本的随机有放回带权采样，采样m次。最优时间复杂度为？

表面上来看，这题考的是时间复杂度，其实本质上是在考察算法。

加权有放回采样速度最快的算法叫做alias采样算法，它的时间复杂度分为两个部分，预处理部分和采样的部分。其中预处理部分的复杂度是O(n) ，每次采样的复杂度是O(1) ，加起来的复杂度是O(n m) ，故选B。

简单介绍一下算法，显然，所有样本被抽中的概率和是1。算法上来会先对每一个样本的概率乘上N（样本总数），这样得到的概率和就是N。我们把每个样本的概率分布画出来：

其中有些大于1，也有一些小于1，但是均值肯定是等于1的。

接着我们把这个柱状图进行均摊，将长度超出1的部分分摊到其他柱上。确保每个小方格面积为1，并且每个小方格内最多只有两个样本，分摊之后得到的图如下：

这样一来我们会得到两个数组，一个数组存的是事件i占据比例prob，在这个例子当中就是[2/3, 1, 1/3, 1/3]。第二个数组存的是填充的样本编号alias，在这个例子当中就是[1, null, 0, 0]。

我们在采样的时候会出两个随机数，第一个随机数在0-n之间，用来选择列。第二个随机数在0-1之间，如果它小于prob[i]，那么选择样本ii，否则选择样本alias[i]。

大家感兴趣可以算一算，看看这样得到的结果是不是符合预期。

第三题

关于机器学习中FM算法(Factorization Machines) 与MF算法(Matrix Factorization)，以下说法正确的是?

这道题考察的是对FM算法和MF算法的理解。

这两个算法都涉及向量交叉，有一些相似的地方，存在一些迷惑性。其中FM算法核心思想是使用向量交叉来计算二阶参数的系数，是推荐系统中的经典模型。MF算法是用来分解大规模的矩阵，将一个长和宽都非常巨大的矩阵分解成三个规模更小矩阵的乘积，达到压缩存储空间，以及表示user和item向量的效果，也是推荐系统中的经典算法。

从目的上来看，两者的目的完全不同，可以排除选项A。

选项B很有迷惑性，它的前半句是正确的，FM算法的确引入了二阶交叉特征。但后半句不对，FM算法本身的初衷正是为了解决二阶样本过于稀疏的问题，所以B也可以排除。

C算法是正确的，FM算法给每一个特征赋予了向量，用向量之间的内积来计算交叉特征的权重，MF算法则将user-item的庞大矩阵拆解成user向量和item向量，都可以看成是一种embedding。