terminators = [
pipeline.tokenizer.eos\_token\_id,
pipeline.tokenizer.convert\_tokens\_to\_ids("<|eot\_id|>")
]
이런 식의 Open LLM의 Terminotor들은 어디에서 확인할 수 있을까.
이러한 terminator 설정은 Llama 3 모델의 특성에 따른 것임. Llama 3 Instruct 모델은 기존 Llama 모델과 다른 종료 토큰을 사용함
구체적으로:
1. pipeline.tokenizer.eos_token_id는 토크나이저의 기본 종료 토큰 ID
2. <|eot_id|>는 Llama 3 Instruct 모델에서 특별히 사용되는 종료 토큰임
이 정보는 다음과 같은 곳에서 확인할 수 있음.
1. 모델의 공식 문서나 예제 코드 (https://flonelin.wordpress.com/2024/05/21/huggingface%EC%97%90%EC%84%9C-llm%EC%9D%84-%EA%B0%84%EB%8B%A8%ED%95%98%EA%B2%8C-quantization%ED%95%98%EA%B8%B0/).
2. 모델의 tokenizer.json 파일
3. 모델 개발자나 커뮤니티의 토론 및 이슈 게시판
Llama 3 모델을 사용할 때는 이러한 특정 종료 토큰을 명시적으로 설정하는 것이 함. 그렇지 않으면 모델이 텍스트 생성을 적절히 종료하지 못할 수 있음 [5](https://stackoverflow.com/questions/78736616/llama-3-70b-with-pipeline-cannot-generate-new-tokens-texts).
*** modelfile을 꼭 참고할 것. 그곳에는 학습을 시킨 Prompt가 있는 경우가 많음
LLM 모델의 Terminator는 어떻게 확인함? #인공지능(LLM·Vision)
댓글