본문 바로가기

NLP

[NLP/논문 리뷰] 위키피디아 기반 개체명 사전 반자동 구축 방법 Abstract 목적: 본 연구에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 방법: 1. 능동 학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 2. 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 3. 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 1. 서론 기존의 개체명 인식 방법은 크게 규칙 기반과 확률 기반 두 가지로 나뉜다. 1. 규칙기반 방법 2. 확률기반 방법 규칙 기반 방법 정규표현식과 같은 패턴과 개체명 사전을 이용하는 방법 좋은 패턴의 생성 방법과 개체명 사전의 크기가 성능 향상을 위한 요건이 된다. 확률 기반 방법 대용량의 개체명이 태깅된 말뭉치(corpus).. 더보기
[WIL] 2021년 9월 셋째 주 WIL 📝 9월 13일 (월) ▪️ MediaWiki 미디어위키 텍스트 원문 보기 원래 주소 뒤에 action=raw를 추가 https://도메인/wiki/글제목?action=raw Ex) 위키백과의 삼성 갤럭시 버즈 페이지 ?action=raw를 추가하여 원문 확인한 결과 https://ko.wikipedia.org/wiki/삼성_갤럭시_버즈?action=raw Ref. https://zetawiki.com/wiki/미디어위키_텍스트_원문_보기 wiki extractor에서 개체명의 language템플릿을 보존하여 text 추출하기 wiki extractor를 이용하여 plain text 추출 시 개체명의 외국어 명이 담긴 language template은 제거되어버리는 issue가 있었다. 삼성 갤럭시 버즈.. 더보기