본문 바로가기

클러스터링

[DBSCAN] k-dist 함수 기반 엡실론 지정 방식에 대한 문제 및 한계 DBSCAN(Density-Based Spatial Clustering of Application with Noise)은 오랫동안 클러스터링 알고리즘 영역의 주요 요소였으며 데이터 세트에서 밀집된 영역을 식별하는 효과적인 방법을 제공했습니다. DBSCAN의 핵심에는 Epsilon(ε)과 최소 포인트(MinPts)라는 두 가지 중요한 매개변수가 있습니다. 엡실론(eps): 인접한 점을 찾을 수 있는 데이터 포인트 주변의 반경 최소 포인트(MinPts): 밀집 영역을 형성하는 데 필요한 최소 데이터 포인트 수 이번 글에서는 제가 DBSCAN의 파라미터 지정을 자동화하기 위한 방법을 고안하던 중, DBSCAN 논문에서 제안된 엡실론 지정 휴리스틱 방법의 한계점에 대해 발견하고 이에 대해 조사한 부분을 공유하고.. 더보기
[NLP] hdbscan으로 키워드 클러스터링하기 클러스터링은 데이터 내에서 패턴과 관계를 식별하기 위한 강력한 기술입니다. 유사한 데이터 포인트를 유사성에 따라 클러스터로 그룹화하는 작업이 포함됩니다. 이번 글에서는 밀도 기반 클러스터링 알고리즘인 HDBSCAN을 사용하여 검색어 데이터를 클러스터링하는 방법에 중점을 둘 것입니다. 밀도 기반 클러스터링 계층적 클러스터링, k-means 및 밀도 기반 클러스터링을 포함하여 다양한 클러스터링 모델을 사용할 수 있습니다. 키워드 클러스터링의 경우 노이즈 및 이상값을 잘 처리할 수 있는 밀도 기반 클러스터링이 가장 적합한 선택입니다.이 알고리즘의 주요 장점은 k-means와는 달리 클러스터의 개수를 미리 지정할 필요가 없다는 점입니다. 클러스터의 정의 그렇다면 어디서부터 어디까지를 하나의 군집으로 봐야할까요?.. 더보기