본문 바로가기

위키피디아

[Python/NLP] 위키피디아 덤프 데이터에서 하이퍼링크(anchor text) 추출하기 wiki의 dump 데이터에서 plain text를 추출하기 위한 도구로써 wiki extractor를 패키지가 존재합니다. 해당 방법에 대한 포스트는 다음 글에서 자세히 설명하고, 이번 글에서는 html태그를 포함한 plain text가 준비되었다는 전제 하에 앵커 텍스트를 추출하는 방법에 대해 소개하고자 합니다. Anchor text (앵커 텍스트) anchor text는 HTML 하이퍼 링크에서 볼 수 있고 클릭 가능한 텍스트입니다. "anchor"라는 용어는 현재 a 요소 또는 라고하는 HTML 사양의 이전 버전에서 사용되었습니다. 위키 페이지 내에서는 파란색으로 나타나는 텍스트가 anchor text 이며, 해당 텍스트는 위키 내에서 자신만의 고유한 페이지가 존재 합니다. 위의 섹션을 개발자 도.. 더보기
[NLP/논문 리뷰] 위키피디아 기반 개체명 사전 반자동 구축 방법 Abstract 목적: 본 연구에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 방법: 1. 능동 학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 2. 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 3. 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 1. 서론 기존의 개체명 인식 방법은 크게 규칙 기반과 확률 기반 두 가지로 나뉜다. 1. 규칙기반 방법 2. 확률기반 방법 규칙 기반 방법 정규표현식과 같은 패턴과 개체명 사전을 이용하는 방법 좋은 패턴의 생성 방법과 개체명 사전의 크기가 성능 향상을 위한 요건이 된다. 확률 기반 방법 대용량의 개체명이 태깅된 말뭉치(corpus).. 더보기