为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
别急!大家看到的是基本型,但真正的构型共有53种!这是中国空...
0 前言不久前曾经对 golang 原生的 net 网络库(...
搬运一些,简单翻译 SlashData和Stack Over...
我妈应该不上知乎,她应该也不认识我的ID,问题不大。 反正都...
Alist已死,咱们来用Openlist吧Alist已经确认...
虽说如今新大模型发布必须有点拿得出手的干货,但MiniMax...
白色衣服透明度相对于其他颜色要高,在挑选内衣时需要讲究 首先...
一定是后端好找工作。 哪怕后端团队都每天工作3小时摸鱼5小...
现在是2025年,Mac 版新QQ仍然有这个网络在线状态,只...
车检大家都知道吧,六年上次检测线盖章,8年12123网上领贴...