'GPT-3' 태그의 글 목록

본문 바로가기

GPT-3

[NLP] OpenAI GPT-3 에서 토큰을 선택하는 방식 (feat. 샘플링) 최근 대규모 언어 모델(LLM)을 사용하여 서비스를 내놓는 스타트업이 많아지고 있다. 우리 팀에서도 문장 생성을 위한 서비스를 준비하고 있고, 따라서 gpt-3와 hyperCLOVA로 퓨샷러닝, 프롬프트 튜닝을 진행하며 테스트를 수행하고 있다. 그 과정에서 내가 수행중인 태스크에 대해 최적의 결과를 내기 위해 프롬프트 튜닝 및 파라미터 조정을 진행하면서 공부한 것들에 대해 기록하고자 한다. GPT가 문장을 생성하는 과정 GPT 모델은 기본적으로 여러 트랜스포머 레이어를 통해 연산을 진행한다. 트랜스포머에서 인코더를 제외하고 디코더만 사용하며, 결과로 산출되는 벡터를 이용하면 다음 위치에 적합한 각 단어들이 지니는 확률 값을 추출해 낼 수 있게 된다. 확률값 추출 과정 마지막 레이어의 Hidden stat.. 더보기

이전 1 다음

티스토리툴바