위키데이터 활용 썸네일형 리스트형 [Python/NLP] 위키피디아 덤프 데이터에서 하이퍼링크(anchor text) 추출하기 wiki의 dump 데이터에서 plain text를 추출하기 위한 도구로써 wiki extractor를 패키지가 존재합니다. 해당 방법에 대한 포스트는 다음 글에서 자세히 설명하고, 이번 글에서는 html태그를 포함한 plain text가 준비되었다는 전제 하에 앵커 텍스트를 추출하는 방법에 대해 소개하고자 합니다. Anchor text (앵커 텍스트) anchor text는 HTML 하이퍼 링크에서 볼 수 있고 클릭 가능한 텍스트입니다. "anchor"라는 용어는 현재 a 요소 또는 라고하는 HTML 사양의 이전 버전에서 사용되었습니다. 위키 페이지 내에서는 파란색으로 나타나는 텍스트가 anchor text 이며, 해당 텍스트는 위키 내에서 자신만의 고유한 페이지가 존재 합니다. 위의 섹션을 개발자 도.. 더보기 이전 1 다음