Transformer 基础
Transformer 模型架构 主要组成: Encoder, Decoder, Generator.
Encoder (编码器)
由 N N N 层结构相同(参数不同)的 EncoderLayer 网络组成. In : [ b a t c h _ s z , s e q _ l e n , d m o d e l ] \textbf{In}: [batch\_sz, seq\_len, d_{model}] I…
全概率公式是概率论中的一个公式,用于计算一个事件的期望值(Expectation)。期望值是随机变量的平均值,它反映了随机变量的中心趋势。 对于离散随机变量 X ,其全概率公式为: E ( X ) ∑ i 1 n x i P ( X …