Attention的计算

Untitled

Untitled

问题:为什么除根号d

首先,进行假设看一下qk的分布情况


假设查询向量 $q$ 和键向量 $k$ 的维度是 $d$ ,

且它们的元素是独立同分布的随机变量,均值为0,方差为1。

独立性:方便方差求和,对于多个独立的随机变量,和的方差=方差的和 同分布:便于计算总的期望、方差

那么它们的点积 $q \cdot k$ 可以表示为:

$q \cdot k = \sum_{i=1}^d q_i k_i$

由于每个 $q_i$ 和 $k_i$ 是独立同分布的随机变量,它们的乘积 $q_i k_i$ 也是随机变量。对于每个 $q_i k_i$ ,其期望值为0,方差为1。

因此,点积 $q \cdot k$ 的期望值为:

$\mathbb{E}[q \cdot k] = \mathbb{E} \left[ \sum_{i=1}^d q_i k_i \right] = \sum_{i=1}^d \mathbb{E}[q_i k_i] = 0$

而其方差为: