2024.3.12 Self-Attention和Attentiond的区别

注意力机制是一个很宽泛(宏大)的一个概念,QKV相乘就是注意力,但是他没有规定QKV是怎么来的

通过一个查询变量Q,去找到V里面比较重要的东西

假设K==V,然后QK相乘求相似度A,然后AV相乘得到注意力值Z,这个Z就是V的另外一种形式的表示

Q可以是任何东西,V也是任何一种东西,K往往是等同于V的(同源),K和V不同源不相等可不可以

他没有规定QKV怎么来,他只规定了QKV怎么做(注意力机制)

注意力机制

自注意力机制

自注意力机制特别狭隘,是属于注意力机制的,注意力机制包括了自注意力机制的

自注意力机制本质上QKV可以看作是相等的

对于一个词向量(不一定准确),做的是空间上的对应(一种线性表达)$k_1$,乘上了参数矩阵,依然代表了X

自注意力机制不仅规定了QKV同源,而且规定了QKV的做法(如上图那样)

交叉注意力机制

Q和V不同源,但是K和V同源

cyd注意力机制

Q和V同源,Q和K不同源

或者自己命名一种(xxx注意力机制)

如:Q必须为1,K和V不同源

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。