본문 바로가기

전체 글

[리뷰] Udemy - Langchain으로 LLM 기반 어플리케이션 개발하기 들어가며 LLM을 애플리케이션에 적용하려면 개발자는 프롬프트를 보내고 기다리는 것 외에도 고려해야할 많은 작업이 있습니다. LLM이 이전의 대화 내용을 기억하게 하기 위해 기록을 유지해야하고, 토큰의 한도를 지키는 전략을 취하면서 프롬프트 및 응답의 적절성을 판단하고 조정하는 등 상당한 노력을 필요로 합니다. 랭체인은 이러한 수고를 덜어주며 언어 모델 기반의 애플리케이션을 개발하도록 돕는 SDK입니다. 이번 글에서는 글또 9기 활동 중 유데미로부터 강의 쿠폰을 지원받아 【한글자막】 랭체인 - LangChain 으로 LLM 기반 애플리케이션 개발하기 강좌를 수강하고 느낀 점과 새롭게 알게된 점에 대해 간단히 정리한 부분을 남겨보려합니다. 강의에 대한 간단한 개요와 장단점은 아래와 같습니다. 목표: 실제 L.. 더보기
HuggingFace Autotrain - 단 한 줄의 코드로 LLM 파인튜닝하기 🤗 AutoTrain Huggingface의 AutoTrain은 자연어 처리(NLP) 작업, 컴퓨터 비전(CV) 작업, 음성 작업, 표 형식 작업 등을 위한 최첨단 모델을 훈련하기 위한 코드가 필요 없는 툴입니다. 코드 없이 UI에서 스페이스를 생성하여 사용할수도 있고, 개발자는 autotrain-advanced 패키지를 설치하고 파이썬 API를 사용하여 최소한의 코드로 학습을 진행할 수 있습니다. 이번 글에서는 제가 autotrain으로 학습 가능한 다양한 태스크 중 LLM Finetuning을 수행한 과정에 대해 공유하고자 합니다. LLM Finetuning AutoTrain을 사용하면 자체 데이터에서 대규모 언어 모델(LLM)을 쉽게 미세 조정할 수 있습니다. AutoTrain은 아직 CLM의 파인.. 더보기
PrivateGPT - local 문서 기반 채팅 시스템 구축하기 프라이빗 챗 GPT의 개념 private chat gpt는 특정 기업이나 조직에서만 사용하는 기업용 챗 GPT 입니다. 최근 기업의 내부 데이터를 활용한 채팅 시스템이 많이 나오고 있습니다. openai에서는 ChatGPT Enterprise 버전을 출시했습니다. gpt4를 무제한으로 사용할 수 있으며, 보안이 보장되어있습니다. MS에서도 애저 오픈AI 서비스로 프라이빗 챗 gpt서비스를 출시했습니다. 고객의 프롬프트나 데이터를 교육에 사용하지 않고 사전 학습된 모델에만 의존하여 데이터 유출에 민감한 서비스의 경우 100% private하게 사용 가능하다는 이점이 있습니다. 위와 같은 유료 서비스를 이용하면 보안, 속도, 무제한 컨텍스트와 같은 이점이 있지만, 비용 측면에서 빅테크 모델들은 큰 부담이므로.. 더보기
[Mamba 이해하기] Part1 - 구조화된 상태공간 모델 (S4)을 이용한 긴 시퀀스의 효율적 모델링 개요 시퀀스가 ​​길어지면 효율성이 떨어지는 기존의 트랜스포머 기반 모델의 문제점을 개선하기 위해, Mamba라는 새로운 아키텍처가 등장하였습니다. Transformers와 달리 Mamba 모델은 다른 접근 방식을 취합니다. Transformers는 더 복잡한 Attention 메커니즘을 사용하여 긴 시퀀스 문제를 처리하는 반면 Mamba는 선택적 상태 공간을 사용하여 더 많은 컴퓨팅을 제공합니다. 맘바에 대해 이해하기 위해 우선 선행연구에 대한 이해가 필요합니다. 1. S4라고 불리는 구조화된 상태공간 모델에 대해 이해하고 왜 지금까지 S4가 사용되지 못했는지, 그 문제점을 짚어보겠습니다. 2. 그 다음 S4 모델의 한계를 극복한 맘바 아키텍처와 트랜스포머의 대안으로서의 가능성을 확인하도록 하겠습니다... 더보기
[DBSCAN] k-dist 함수 기반 엡실론 지정 방식에 대한 문제 및 한계 DBSCAN(Density-Based Spatial Clustering of Application with Noise)은 오랫동안 클러스터링 알고리즘 영역의 주요 요소였으며 데이터 세트에서 밀집된 영역을 식별하는 효과적인 방법을 제공했습니다. DBSCAN의 핵심에는 Epsilon(ε)과 최소 포인트(MinPts)라는 두 가지 중요한 매개변수가 있습니다. 엡실론(eps): 인접한 점을 찾을 수 있는 데이터 포인트 주변의 반경 최소 포인트(MinPts): 밀집 영역을 형성하는 데 필요한 최소 데이터 포인트 수 이번 글에서는 제가 DBSCAN의 파라미터 지정을 자동화하기 위한 방법을 고안하던 중, DBSCAN 논문에서 제안된 엡실론 지정 휴리스틱 방법의 한계점에 대해 발견하고 이에 대해 조사한 부분을 공유하고.. 더보기
[Text Is All You Need: Learning Language Representations for Sequential Recommendation] 논문 리뷰 개요 Amazon이 제안한 Recformer는 기존의 추천 시스템에서의 고질적인 문제인 cold-start 문제에 대한 대안으로 아이템의 id를 사용하는 것이 아닌 아이템을 설명하는 텍스트만을 사용한 방법에 대한 논문입니다. 기본 아이디어는 유저의 과거 아이템 선택에 대한 텍스트 시퀀스를 입력으로 받아 언어 이해도를 기반으로 다음 아이템을 예측하도록 합니다. 이때, Bert류의 양방향 트랜스포머 언어모델을 동일하게 사용하면서도 임베딩에서 몇 가지 변화를 주어서 아이템간의 구분이 가능하게 하였습니다. 언어 이해와 추천을 모두 고려하기 위해 사전학습 과정은 (1)마스크 언어 모델링과 (2)아이템-아이템 contrastive learning 두 가지 태스크로 이루어집니다. 순차적 추천이란 추천 시스템에서도 사.. 더보기
2023 회고라고 쓰고 반성문이라고 읽는다. 회사 업무 [기존 프로젝트 유지보수] 임베딩 모델 성능 향상을 위한 전처리 방식 변경 적용 redis / rdb 데이터 교체 적용하여 배포 API 스웨거 문서 생성 연관검색어 추천 매일 삭제되는 검색어를 추천에서 제외하도록 엘라스틱 서치 일간 동기화 작업 CDJ(고객구매여정) 분류 모델 성능 향상 최대한 완성된 문장만 사용하도록 전처리 방식 수정 데이터의 라벨 확인하여 애초에 잘못 분류된 데이터 보정 [분석 업무] 서프 의미론적 임베딩 서프 임베딩 기반 클러스터링 수행 원본 / 차원축소 결과 비교(umap / tsne) t-sne로 차원축소 및 텐서보드 시각화 텍스트 내에서 검색어로서 가능성이 있는 명사구 추출 검색결과 상위 페이지에서 검색어의 후보를 추출하기 위함 검색어의 품사 패턴 분석 및 명사구 패.. 더보기
Multimodal Transformer Toolkit - 텍스트 데이터에 멀티모달 데이터를 통합하기 위한 툴킷 Multimodal Transformer? 트랜스포머 기반 모델은 비정형 데이터인 텍스트 데이터를 다루는 데 큰 변화를 가져옴 실제 환경에서 텍스트 데이터는 풍부한 정형 데이터 또는 오디오나 시각 정보와 같은 비정형 데이터와 함께 지원되는 경우가 많음 예를 들어 이커머스 리뷰의 경우, 리뷰 텍스트 외에도 판매자, 구매자, 제품에 대한 정보가 종합적으로 학습될 경우 더 좋은 성능을 기대할 수 있음 인간도 하나의 개념을 이해하기 위해 시각, 미각, 촉각, 텍스트까지 여러가지 감각을 통합하여 인식 이처럼 AI가 인간이 학습하는 방식과 유사하게 학습하기 위해 여러 채널의 모달리티(양식)를 받아들여 학습하는 방법을 '멀티모달' 이라고 함 Multimodal Toolkit 위와 같은 이유로 개발된 멀티 모달 트랜스.. 더보기