为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
先上结论:很遗憾,美国不会下场,虽然大家伙很希望美帝踩进中东...
拍个照给你们看,这是我公司隔壁的拳馆。 里面有个泰拳女...
最近 Gemini 2.X 的报告 (广告贴?)放出来了,来...
最近北京、上海、西安、哈尔滨等地兴起一种名为“***装上班”...
你这算什么,我比你严重多了。 到现在整整10年,一样活的好好...
空调抽真空的时间不仅要15分钟,而是每匹10分钟。 当然了,...
1. 老板:Office软件太贵了,能不能用别家的? IT:...
不请自来,首发购买iPhone16Pro后,为了保护脆弱的侧...
就是欺负老实人呗。 某高校的附小,是真的办过爸爸家长会的,...
最近买了M4,蓝色,不说其他,单说颜值,这个主观性很强,我想...