본문 바로가기

word2vec

Python(41)- 워드 임베딩 시각화 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 네이버 영화 리뷰 데이터셋총 200,000개의 리뷰로 구성된 데이터로 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋 리뷰가 긍정인 경우 1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음!sudo apt-get install -y fonts-nanum!sudo fc-cache -fv!rm ~/.cache/matplotlib -rfimport urllib.requestimport pandas as pd# 깃허브에 올라온 파일을 가져오기 위해선, filename = ''설정해줘야 함.urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/.. 더보기
Python(40)- 워드 임베딩 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 워드 임베딩(Word Embedding)단어를 컴퓨터가 이해하고 효율적으로 처리할 수 있도록 단어를 벡터화하는 기술단어를 밀집 벡터의 형태로 표현하는 방법워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터라고 부름워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 계산이 가능하며, 모델에 입력으로 사용할 수 있음1-1. 희소 표현(Sparse Representation)원 핫 인코딩을 통해서 나온 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에 전부 0으로 표현되는 벡터 표현 방법에 의해 만들어지는 벡터를 희소 벡터라고 함Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략.. 더보기