面经 | NLP算法岗(腾讯)

2022-04-11 18:10:15 浏览数 (1)

今年腾讯大部分hc留给提前批实习转正,建议尽早准备。

提前批投递时可以自主选择部门,有些部门的hc几乎全都留给实习生转正,建议无法实习的童鞋们,提前做好调研,避开这些部门。

部门选错了就直接凉了哦(手动微笑脸)

体验总结

a. 面试内容很全面,会涉及相关领域的前沿工作,并且会问的相当深入

b. 项目问的非常细节,我们的项目面试官基本都有了解,不会出现面试官不懂项目的情况

c. 不会问特别难的算法(比如线段树,公共祖先),感觉腾讯更注重基础

一面

  • 自我介绍 项目
  • 序列标注常见算法有什么
    • 之前常见的序列标注问题的解决方案都是借助于HMM模型,最大熵模型,CRF模型
  • CRF HMM 区别
    • HMM是有向图,CRF是无向图
    • HMM是生成式模型(要加入对状态概率分布的先验知识)
    • CRF是判别式模型(完全数据驱动)
    • CRF解决了标注偏置问题,去除了HMM两个不合理的假设等等。
  • 多分类序列标注怎么做
  • 如何构建想要的词表
  • 指针与引用的区别
  • TransformerXL是什么?为了什么而提出
    • XL是“extra-long”的意思,即Transformer-XL做了长度延伸的工作;
    • Transformer规定输入大小为512,原始的输入需要进行裁剪或填充,即将一个长的文本序列截断为几百个字符的固定长度片段,然后分别处理每个片段。
    • 这存在着文章跨片段依赖不能学习到的问题,也限制了长距离依赖。为了解决这一问题,Transformer-XL被提出。
    • 那么Transformer XL进行了什么改进呢?
    • 使用分段RNN(segment-level recurrence mechanism)且存储上一次处理的片段信息;使用了相对位置编码方案(relative positional encoding scheme))
  • BERT ELMO XLNET 区别
    • 模型结构
    • 自回归和自编码语言模型在生成方面的问题
    • XLNet维持了表面看上去的自回归语言模型的从左向右的模式,这个Bert做不到。这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。
  • 一道编程题:全排列,一般难度

二面

  • 自我介绍 项目
  • 项目
  • 项目现在再看可以怎么改进
  • 项目的学习率怎么调的
  • 发没发论文,毕业前是否有发论文的打算
  • 根据项目引申了很多

三面

  • 自我介绍 项目
  • BERT warm-up
  • BERT都有什么改进
  • ERNIE 怎么做的
    • 把bert的单字mask改为词mask,直接对语义知识进行建模,增强了模型语义表示能力。
    • 引入多源数据语料进行训练;
    • 引入了论坛对话类数据,利用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力;
    • 通过在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 5 个公开的中文数据集合上进行效果验证,ERNIE 模型相较 BERT 取得了更好的效果。
    • 继1.0后,ERNIE英文任务方面取得全新突破,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。
  • ERNIE 2.0相对于1.0有什么改进
    • 百度提出可持续学习语义理解框架 ERNIE 2.0。该框架支持增量引入词汇( lexical )、语法 ( syntactic ) 、语义( semantic )等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。
  • 算法题:
    • n分解成最少多少个平方数的和
    • n个串的最大公共前缀
    • 树后序遍历非递归(要求空间时间复杂度,并不断改进)

作者:西柚媛

编辑:西柚媛

本文来自程序媛驿站,未经授权不得转载.

0 人点赞