文章目录
- 预备工作
- 背景
- 模型架构
-
- Encoder部分和Decoder部分
-
- Encoder
- Decoder
- Attention
- 模型中Attention的应用
- 基于位置的前馈网络
- Embeddings and Softmax
- 位置编码
- 完整模型
- 训练
-
- 批处理和掩码
- Training Loop
- 训练数据和批处理
- 硬件和训练时间
- Optimizer
- 正则化
-
- 标签平滑
- 实例
-
-
<
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/34115.html
如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!