最新 最热

iotop

DISK READ and DISK WRITE are the block I/O bandwidth used during the sampling

2022-05-10
0

预训练语言模型合辑~

针对有两个及两个以上连续字组成的词,随机mask字割裂了连续字之间的相关性,使模型不太容易学习到词的语义信息。比如一句话:‘北京是中国的首都,是一座美丽的城市’,在bert的随机mask LM任务中,可能是把‘京’mask掉在再做...

2022-05-10
0

[NewLife.XCode]批量添删改操作(提升吞吐率)

NewLife.XCode是一个有15年历史的开源数据中间件,支持netcore/net45/net40,由新生命团队(2002~2020)开发完成并维护至今,以下简称XCode。

2022-05-10
1

[论文翻译] 分布式训练 Parameter sharding 之 ZeRO

Parameter sharding 就是把模型参数等切分到各个GPU之上,以此达到使用较少GPU实现大规模模型训练的目的。本系列会以 Google,微软和Facebook的论文,博客以及代码来对parameter sharding 进行分析,大约有 5~6篇文章。...

2022-05-09
0

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(1)

“Bagua“ 是快手和苏黎世理工(ETH Zürich)联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法,实现算法和系统层面的联合优化,力图极致化分布式训练的效率。其特点是:...

2022-05-09
0

广告行业中那些趣事系列47:NLP中对比学习SOTA必学模型ESimCSE

摘要:本篇从理论到实践分享了当前NLP中对比学习SOTA模型ESimCSE。首先回顾了无监督SimCSE以及存在的两个问题;然后重点详解了ESimCSE,包括ESimCSE介绍、通过词重复优化正例构建、通过动量对比优化负例构建和模型实验效果...

2022-05-05
0

广告行业中那些趣事系列18:RoBERTa-wwm-ext模型为啥能带来线上效果提升?

摘要:本篇主要分享能带来线上文本分类效果有效提升的RoBERTa-wwm-ext模型。首先介绍背景,RoBERTa-wwm-ext模型不管在公共数据集上还是在我们线上真实分布数据集上都能带来不错的效果提升,需要重点分析下效果提升的原因。...

2022-05-05
0

多图详解kafka生产者消息发送过程

KafkaProducer通过解析producer.propeties文件里面的属性来构造自己。 例如 :分区器、Key和Value序列化器、拦截器、RecordAccumulator消息累加器 、元信息更新器、启动发送请求的后台线程...

2022-04-30
0

Object Detection-YOLOv2 Input And Output Encoding

本文主要学习在PASCAL VOC2012数据集上训练YOLOv2时的Input Encoding和Output Encoding。

2022-04-28
0

机器翻译的Attention机制

在机器翻译(Neural Machine Translation)中,Seq2Seq模型将源序列映射到目标序列,其中Encoder部分将源序列编码为Context Vector传递给Decoder,Decoder将Context Vector解码为目标语言的序列。...

2022-04-28
1