为什么我还是无法理解transformer?

2025-06-25 00:05:17

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?
广告位810*200
相关阅读
仰望u9明明技术实力更强,为什么纽北的成绩没有小米su7ultra好?

仰望u9明明技术实力更强,为什么纽北的成绩没有小米su7ultra好?

一款能把板车压到翘起来的车能纽北跑到七分半以内不出事已经是B...

2025-06-21
女生真正的完美身材是什么样子?

女生真正的完美身材是什么样子?

最近在想,女生所谓的“完美身材”到底是什么。 我以前以...

2025-06-21
女性为什么不普遍跟男性那样只留个几毫米或2-3厘米短发,女性不觉得长发麻烦吗?

女性为什么不普遍跟男性那样只留个几毫米或2-3厘米短发,女性不觉得长发麻烦吗?

我的头发到我屁股,夏天每三天洗一次。 洗头的顺序是先用控油...

2025-06-21
江西通报救护车 800 公里收费 2.8 万「不合理,暂停医院转运服务」,该医院要承担怎样的法律责任?

江西通报救护车 800 公里收费 2.8 万「不合理,暂停医院转运服务」,该医院要承担怎样的法律责任?

公告里的一句话看的我一身冷汗,就是这句:经家属请求,诊治医生...

2025-06-21
为什么面向对象编程这么困难?

为什么面向对象编程这么困难?

因为面向过程编程,最符合人类直觉。 毕竟我们刚开始学习编程语...

2025-06-21