본문 바로가기
Transformer/ GPT/ BERT 동작 원리 #인공지능(LLM·Vision)

Transformer

 

디코더의 입력은 

디코더 출력 + 인코더 출력임. 

시작은 <sos> + 인코더 출력

끝은 <eos>가 나오면 끝. 

 

GPT (비지도)

토큰화된 텍스트 시퀀스와 위치 인코딩은 GPT 모델의 입력 처리 과정이며, 이는 인코더의 기능과 유사하지만 GPT에서는 인코더-디코더 구조의 인코더 부분이 없음. 대신, 이 과정은 GPT의 디코더 부분에서 직접 수행함
GPT 모델의 입력 처리 과정:
토큰화: 입력 텍스트를 토큰으로 분리
임베딩: 각 토큰을 벡터로 변환
위치 인코딩: 토큰의 순서 정보를 임베딩에 추가
이 과정은 GPT 모델의 첫 번째 단계로, 디코더 내에서 이루어짐.

 

모델은 주어진 시퀀스의 각 단계에서 다음 토큰을 예측하도록 학습/ 예측된 토큰과 실제 다음 토큰 사이의 차이를 최소화하는 방향으로 모델 파라미터를 조정함. 


GPT의 학습 과정을 좀 더 자세히 설명하면:
입력 시퀀스: [w1, w2, w3, w4, w5]
학습 단계:
[w1] → 예측: w2, 실제(레이블): w2
[w1, w2] → 예측: w3, 실제(레이블): w3
[w1, w2, w3] → 예측: w4, 실제(레이블): w4
[w1, w2, w3, w4] → 예측: w5, 실제(레이블): w5

 

그렇지만 이것을 보면, 나는 사과를 좋아한다를 데이터로 했을 때에는 나는 사과를 좋아한다는 말이 정답지이다. 

하지만, 여러가지 입력의 variation을 주고, 
"나는 사과를"이라는 입력이 주어졌을 때, 모델은 "좋아한다", "먹었다", "닦았다"와 같은 여러 가능한 다음 단어 중에서 문맥에 가장 적합한 것을 선택하도록 학습함.
학습 데이터는
나는 사과를 닦았다
나는 사과를 먹었다
나는 사과를 좋아한다 를 모두 넣어서 학습시켰을 때 그런 식으로 학습을 할 수 있다는 뜻임. 

 

BERT는 주로 텍스트 이해와 분석에 특화된 모델이며, 텍스트 생성 능력은 제한적

양방향 문맥 이해: BERT는 입력 문장의 앞뒤 문맥을 모두 고려하여 단어의 의미를 파악
인코더 구조: BERT는 트랜스포머의 인코더 부분만을 사용하는 모델로, 디코더가 없어 텍스트 생성에 최적화되어 있지 않음.
학습 방식: BERT는 'masked language modeling(MLM)'을 사용하여 마스킹된 단어를 예측하는 방식으로 학습
주요 용도: BERT는 텍스트 분류, 개체명 인식, 질문 응답 등 텍스트 이해와 분석 작업에 주로 사용됨. 

 

트랜스포머의 인코더와 디코더를 모두 사용하는 모델은
인코더-디코더 모델 (Sequence-to-sequence 모델): 이 모델은 트랜스포머 아키텍처의 인코더와 디코더 부분을 모두 사용
기계 번역 모델: 원문을 이해하고 번역된 문장을 생성하는 데 인코더와 디코더를 모두 활용
텍스트 요약 모델: 긴 문서를 입력으로 받아 요약된 텍스트를 생성하는 데 사용
대화 시스템: 사용자의 입력을 이해하고 적절한 응답을 생성하는 데 인코더-디코더 구조를 활용 (이건 gpt가 더 잘함)

한마디로 입력 시퀀스를 다른 형태의 출력 시퀀스로 변환하는 특정 작업에 사용, 입력과 출력의 구조가 크게 다른 작업(예: 번역)에 더 적합함.

 

 

#7ME0D2
트랜스포머 입력은 한번에 넣나요?
https://www.perplexity.ai/search/teuraenseupomeo-ibryeogeun-han-wj_k326bQJe4GeVQ1MBXxw

 

댓글