보통 (배치크기, 시퀀스길이, 임베딩크기)로 하는 편이 인식적으로 좋은데
굳이 (시퀀스길이, 배치크기, 임베딩크기)로 입력하는 이유는 RNN에서 그렇게 처리해 왔던 것 때문에 그렇다.
RNN에서 이렇게 처리했던 이유는 시퀀스 길이가 가변일 수 있어야 해서 그렇게 처리 했었음.
#G24SO6
torch transformer의 입력이 (시퀀스길이, 배치크기, 임베딩크기)가 되는 것이 맞나요?
https://www.perplexity.ai/search/torch-transformeryi-ibryeogi-s-hunXUNRNQu2xsZvQB8D2nA
댓글