X 的维度为 [L, D],其中包含 L 个 D维的向量。Q = XW^Q — Q 的维度是 [L, d]K = XW^K — K 的维度是 [L, d]V = XW^V — V 的维度是 [L, d]Attention(Q, K, V) = softmax((QK^T) / sqrt(d)) * V[L, L]W^O 进行变换(合并来自各头的信息),产生维度为 [L, D] 的最终输出。

假设查询向量 $q$ 和键向量 $k$ 的维度是 $d$ ,
且它们的元素是独立同分布的随机变量,均值为0,方差为1。
独立性:方便方差求和,对于多个独立的随机变量,和的方差=方差的和 同分布:便于计算总的期望、方差
那么它们的点积 $q \cdot k$ 可以表示为:
$q \cdot k = \sum_{i=1}^d q_i k_i$
由于每个 $q_i$ 和 $k_i$ 是独立同分布的随机变量,它们的乘积 $q_i k_i$ 也是随机变量。对于每个 $q_i k_i$ ,其期望值为0,方差为1。
因此,点积 $q \cdot k$ 的期望值为:
$\mathbb{E}[q \cdot k] = \mathbb{E} \left[ \sum_{i=1}^d q_i k_i \right] = \sum_{i=1}^d \mathbb{E}[q_i k_i] = 0$
而其方差为: