본문 바로가기
(시퀀스길이, 배치크기, 임베딩크기)로 하는 이유 (Transformer) #인공지능(LLM·Vision)

보통 (배치크기, 시퀀스길이, 임베딩크기)로 하는 편이 인식적으로 좋은데 

굳이 (시퀀스길이, 배치크기, 임베딩크기)로 입력하는 이유는 RNN에서 그렇게 처리해 왔던 것 때문에 그렇다. 

RNN에서 이렇게 처리했던 이유는 시퀀스 길이가 가변일 수 있어야 해서 그렇게 처리 했었음. 

 

#G24SO6
torch transformer의 입력이 (시퀀스길이, 배치크기, 임베딩크기)가 되는 것이 맞나요?
https://www.perplexity.ai/search/torch-transformeryi-ibryeogi-s-hunXUNRNQu2xsZvQB8D2nA

댓글