AI 썸네일형 리스트형 [NLP/논문리뷰] How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings Kawin Ethayarajh - Stanford University Accepted to EMNLP 2019 https://arxiv.org/abs/1909.00512 Abstract 본 논문은 “Contextualized Word Representation이 얼마나 문맥적인가?” 에 대한 분석 및 실험을 진행한다. 논문의 주요 포인트는 다음과 같다. Mesures of Contextuality Contextuality 에 대한 정량적인 평가 기준을 제시한다. Findings: Static vs. C.. 더보기 [NLP] 텍스트 마이닝의 개념과 전체적인 프로세스에 대하여 해당 글은 텍스트 분석 강의를 바탕으로 작성하였습니다. 첫 번째 강의인 Text Analytics는 텍스트 분석의 전체적인 개요와 프로세스에 대한 설명으로 이루어져있으며, 목차는 다음과 같다. 01 Text Analytics: Overview 강의 링크: https://www.youtube.com/watch?v=UInnl60pzkA&list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm Background 80% 이상의 새로 생기는 데이터들은 비정형 데이터이고, 그중에서도 text data가 큰 비중을 차지한다. 검색어에 맞는 문서를 반환(retrieval) 해주는 것 만으로는 충분하지 않다. 즉, 새로운 지식을 찾아내는 것이 요구된다는 것이다. Definition Text Data를 다.. 더보기 [NLP/논문 리뷰] 위키피디아 기반 개체명 사전 반자동 구축 방법 Abstract 목적: 본 연구에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 방법: 1. 능동 학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 2. 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 3. 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 1. 서론 기존의 개체명 인식 방법은 크게 규칙 기반과 확률 기반 두 가지로 나뉜다. 1. 규칙기반 방법 2. 확률기반 방법 규칙 기반 방법 정규표현식과 같은 패턴과 개체명 사전을 이용하는 방법 좋은 패턴의 생성 방법과 개체명 사전의 크기가 성능 향상을 위한 요건이 된다. 확률 기반 방법 대용량의 개체명이 태깅된 말뭉치(corpus).. 더보기 이전 1 2 다음