今年腾讯大部分hc留给提前批和实习转正,建议尽早准备。
提前批投递时可以自主选择部门,有些部门的hc几乎全都留给实习生转正,建议无法实习的童鞋们,提前做好调研,避开这些部门。
部门选错了就直接凉了哦(手动微笑脸)
体验总结
a. 面试内容很全面,会涉及相关领域的前沿工作,并且会问的相当深入
b. 项目问的非常细节,我们的项目面试官基本都有了解,不会出现面试官不懂项目的情况
c. 不会问特别难的算法(比如线段树,公共祖先),感觉腾讯更注重基础
一面
- 自我介绍 项目
- 序列标注常见算法有什么
- 之前常见的序列标注问题的解决方案都是借助于HMM模型,最大熵模型,CRF模型
- CRF HMM 区别
- HMM是有向图,CRF是无向图
- HMM是生成式模型(要加入对状态概率分布的先验知识)
- CRF是判别式模型(完全数据驱动)
- CRF解决了标注偏置问题,去除了HMM两个不合理的假设等等。
- 多分类序列标注怎么做
- 如何构建想要的词表
- 指针与引用的区别
- TransformerXL是什么?为了什么而提出
- XL是“extra-long”的意思,即Transformer-XL做了长度延伸的工作;
- Transformer规定输入大小为512,原始的输入需要进行裁剪或填充,即将一个长的文本序列截断为几百个字符的固定长度片段,然后分别处理每个片段。
- 这存在着文章跨片段依赖不能学习到的问题,也限制了长距离依赖。为了解决这一问题,Transformer-XL被提出。
- 那么Transformer XL进行了什么改进呢?
- 使用分段RNN(segment-level recurrence mechanism)且存储上一次处理的片段信息;使用了相对位置编码方案(relative positional encoding scheme))
- BERT ELMO XLNET 区别
- 模型结构
- 自回归和自编码语言模型在生成方面的问题
- XLNet维持了表面看上去的自回归语言模型的从左向右的模式,这个Bert做不到。这个有明显的好处,就是对于生成类的任务,能够在维持表面从左向右的生成过程前提下,模型里隐含了上下文的信息。
- 一道编程题:全排列,一般难度
二面
- 自我介绍 项目
- 项目
- 项目现在再看可以怎么改进
- 项目的学习率怎么调的
- 发没发论文,毕业前是否有发论文的打算
- 根据项目引申了很多
三面
- 自我介绍 项目
- BERT warm-up
- BERT都有什么改进
- ERNIE 怎么做的
- 把bert的单字mask改为词mask,直接对语义知识进行建模,增强了模型语义表示能力。
- 引入多源数据语料进行训练;
- 引入了论坛对话类数据,利用 DLM(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力;
- 通过在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 5 个公开的中文数据集合上进行效果验证,ERNIE 模型相较 BERT 取得了更好的效果。
- 继1.0后,ERNIE英文任务方面取得全新突破,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。
- ERNIE 2.0相对于1.0有什么改进
- 百度提出可持续学习语义理解框架 ERNIE 2.0。该框架支持增量引入词汇( lexical )、语法 ( syntactic ) 、语义( semantic )等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。
- 算法题:
- n分解成最少多少个平方数的和
- n个串的最大公共前缀
- 树后序遍历非递归(要求空间时间复杂度,并不断改进)
作者:西柚媛
编辑:西柚媛
本文来自程序媛驿站,未经授权不得转载.