手机版 欢迎访问it开发者社区(www.mfbz.cn)网站

当前位置: > 开发

effective_transformer

时间:2021/6/2 9:58:32|来源:|点击: 次

对字节跳动 effective_transformermer的理解

transformer模型在self-attention的时候,需要用到统一输入batch的长度。但是其他模块不需要。因此,在其他模块(FF模块)可以移除pad token

 

Copyright © 2002-2019 某某自媒体运营 版权所有