본문 바로가기

AI

HuggingFace Autotrain - 단 한 줄의 코드로 LLM 파인튜닝하기 🤗 AutoTrain Huggingface의 AutoTrain은 자연어 처리(NLP) 작업, 컴퓨터 비전(CV) 작업, 음성 작업, 표 형식 작업 등을 위한 최첨단 모델을 훈련하기 위한 코드가 필요 없는 툴입니다. 코드 없이 UI에서 스페이스를 생성하여 사용할수도 있고, 개발자는 autotrain-advanced 패키지를 설치하고 파이썬 API를 사용하여 최소한의 코드로 학습을 진행할 수 있습니다. 이번 글에서는 제가 autotrain으로 학습 가능한 다양한 태스크 중 LLM Finetuning을 수행한 과정에 대해 공유하고자 합니다. LLM Finetuning AutoTrain을 사용하면 자체 데이터에서 대규모 언어 모델(LLM)을 쉽게 미세 조정할 수 있습니다. AutoTrain은 아직 CLM의 파인.. 더보기
PrivateGPT - local 문서 기반 채팅 시스템 구축하기 프라이빗 챗 GPT의 개념 private chat gpt는 특정 기업이나 조직에서만 사용하는 기업용 챗 GPT 입니다. 최근 기업의 내부 데이터를 활용한 채팅 시스템이 많이 나오고 있습니다. openai에서는 ChatGPT Enterprise 버전을 출시했습니다. gpt4를 무제한으로 사용할 수 있으며, 보안이 보장되어있습니다. MS에서도 애저 오픈AI 서비스로 프라이빗 챗 gpt서비스를 출시했습니다. 고객의 프롬프트나 데이터를 교육에 사용하지 않고 사전 학습된 모델에만 의존하여 데이터 유출에 민감한 서비스의 경우 100% private하게 사용 가능하다는 이점이 있습니다. 위와 같은 유료 서비스를 이용하면 보안, 속도, 무제한 컨텍스트와 같은 이점이 있지만, 비용 측면에서 빅테크 모델들은 큰 부담이므로.. 더보기
[Mamba 이해하기] Part1 - 구조화된 상태공간 모델 (S4)을 이용한 긴 시퀀스의 효율적 모델링 개요 시퀀스가 ​​길어지면 효율성이 떨어지는 기존의 트랜스포머 기반 모델의 문제점을 개선하기 위해, Mamba라는 새로운 아키텍처가 등장하였습니다. Transformers와 달리 Mamba 모델은 다른 접근 방식을 취합니다. Transformers는 더 복잡한 Attention 메커니즘을 사용하여 긴 시퀀스 문제를 처리하는 반면 Mamba는 선택적 상태 공간을 사용하여 더 많은 컴퓨팅을 제공합니다. 맘바에 대해 이해하기 위해 우선 선행연구에 대한 이해가 필요합니다. 1. S4라고 불리는 구조화된 상태공간 모델에 대해 이해하고 왜 지금까지 S4가 사용되지 못했는지, 그 문제점을 짚어보겠습니다. 2. 그 다음 S4 모델의 한계를 극복한 맘바 아키텍처와 트랜스포머의 대안으로서의 가능성을 확인하도록 하겠습니다... 더보기
[DBSCAN] k-dist 함수 기반 엡실론 지정 방식에 대한 문제 및 한계 DBSCAN(Density-Based Spatial Clustering of Application with Noise)은 오랫동안 클러스터링 알고리즘 영역의 주요 요소였으며 데이터 세트에서 밀집된 영역을 식별하는 효과적인 방법을 제공했습니다. DBSCAN의 핵심에는 Epsilon(ε)과 최소 포인트(MinPts)라는 두 가지 중요한 매개변수가 있습니다. 엡실론(eps): 인접한 점을 찾을 수 있는 데이터 포인트 주변의 반경 최소 포인트(MinPts): 밀집 영역을 형성하는 데 필요한 최소 데이터 포인트 수 이번 글에서는 제가 DBSCAN의 파라미터 지정을 자동화하기 위한 방법을 고안하던 중, DBSCAN 논문에서 제안된 엡실론 지정 휴리스틱 방법의 한계점에 대해 발견하고 이에 대해 조사한 부분을 공유하고.. 더보기
Multimodal Transformer Toolkit - 텍스트 데이터에 멀티모달 데이터를 통합하기 위한 툴킷 Multimodal Transformer? 트랜스포머 기반 모델은 비정형 데이터인 텍스트 데이터를 다루는 데 큰 변화를 가져옴 실제 환경에서 텍스트 데이터는 풍부한 정형 데이터 또는 오디오나 시각 정보와 같은 비정형 데이터와 함께 지원되는 경우가 많음 예를 들어 이커머스 리뷰의 경우, 리뷰 텍스트 외에도 판매자, 구매자, 제품에 대한 정보가 종합적으로 학습될 경우 더 좋은 성능을 기대할 수 있음 인간도 하나의 개념을 이해하기 위해 시각, 미각, 촉각, 텍스트까지 여러가지 감각을 통합하여 인식 이처럼 AI가 인간이 학습하는 방식과 유사하게 학습하기 위해 여러 채널의 모달리티(양식)를 받아들여 학습하는 방법을 '멀티모달' 이라고 함 Multimodal Toolkit 위와 같은 이유로 개발된 멀티 모달 트랜스.. 더보기
[NLP] hdbscan으로 키워드 클러스터링하기 클러스터링은 데이터 내에서 패턴과 관계를 식별하기 위한 강력한 기술입니다. 유사한 데이터 포인트를 유사성에 따라 클러스터로 그룹화하는 작업이 포함됩니다. 이번 글에서는 밀도 기반 클러스터링 알고리즘인 HDBSCAN을 사용하여 검색어 데이터를 클러스터링하는 방법에 중점을 둘 것입니다. 밀도 기반 클러스터링 계층적 클러스터링, k-means 및 밀도 기반 클러스터링을 포함하여 다양한 클러스터링 모델을 사용할 수 있습니다. 키워드 클러스터링의 경우 노이즈 및 이상값을 잘 처리할 수 있는 밀도 기반 클러스터링이 가장 적합한 선택입니다.이 알고리즘의 주요 장점은 k-means와는 달리 클러스터의 개수를 미리 지정할 필요가 없다는 점입니다. 클러스터의 정의 그렇다면 어디서부터 어디까지를 하나의 군집으로 봐야할까요?.. 더보기
[NLP] 텍스트 내의 명사구를 추출하는 방법 텍스트에서 명사구가 가지는 의미 명사구는 문장에서 중요한 역할을 하며, 주어와 서술어를 이루는 요소 중 하나입니다. 또한, 명사구는 문맥에 따라 다른 의미를 가질 수 있으며, 이는 해당 문장의 전체 의미를 해석하는 데에 중요한 역할을 합니다. 텍스트 데이터에서 명사구를 추출하면 텍스트에서 다루는 주요 주제와 주제에 대한 통찰력을 얻을 수 있으며, 문서 요약, 토픽 모델링 등 다양한 자연어 처리 기술에 적용할 수 있을 것입니다. SEO 측면에서의 활용 가능성 현재 저희 팀은 SEO(검색 엔진 최적화)를 위한 컨텐츠 작성 툴을 개발하고 있습니다. 컨텐츠가 검색 결과의 상위에 위치하려면, 검색어와 관련성이 있으면서 유용한 정보를 포함하고 있어야 합니다. 검색 결과 중 첫 번째 페이지의 결과가 바로 사람들의 검.. 더보기
[NLP] OpenAI GPT-3 에서 토큰을 선택하는 방식 (feat. 샘플링) 최근 대규모 언어 모델(LLM)을 사용하여 서비스를 내놓는 스타트업이 많아지고 있다. 우리 팀에서도 문장 생성을 위한 서비스를 준비하고 있고, 따라서 gpt-3와 hyperCLOVA로 퓨샷러닝, 프롬프트 튜닝을 진행하며 테스트를 수행하고 있다. 그 과정에서 내가 수행중인 태스크에 대해 최적의 결과를 내기 위해 프롬프트 튜닝 및 파라미터 조정을 진행하면서 공부한 것들에 대해 기록하고자 한다. GPT가 문장을 생성하는 과정 GPT 모델은 기본적으로 여러 트랜스포머 레이어를 통해 연산을 진행한다. 트랜스포머에서 인코더를 제외하고 디코더만 사용하며, 결과로 산출되는 벡터를 이용하면 다음 위치에 적합한 각 단어들이 지니는 확률 값을 추출해 낼 수 있게 된다. 확률값 추출 과정 마지막 레이어의 Hidden stat.. 더보기