为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
tim最近的***访就特别搞笑,他说自己今天的成就与父亲思想...
刚遇到一个: 小区周边的市政路上,不知道哪个脑回路奇葩的大神...
坦白局…你们的冬天真的都不穿内衣啊?是这样的,今天不小心碰到...
盘点一下这些年PHP在桌面应用方面的解决方案今天作者给大家盘...
前段时间有同事离职,一口气面试了十来个人。 我最喜欢问的问...
我家楼下的快递站,原来负责人是一个男人婆,每次快递车到了,司...
这是我同学单位多年前的一件真事。 某区法院新来了一位年轻的...
Next.js + Mantine + tRPC + Pri...
坦白说,我第一次听说 Cloudflare 是因为他们提供的...
我有一个超低成本的爱好,这个爱好就是养鱼,字面意思上的养鱼,...