본문 바로가기

분류 전체보기

ELMo (Deep contextualized word representations) 논문 리뷰 Abstract(초록)deep contextualized word representations 학습, 적용문맥에 따른 단어 다른 임베딩 학습 제시동의어다의어학습방법으로 bidirectional을 LSTM방식으로 활용한 biLM 제시unlabeling된 text corpus pretrain, 작업에 맞게 labeling된 text corpus를 downstream model에 학습하는 방법인 semi-supervision을 NLP에 사용question answering, textual entailment, sentiment analysis등 6개의 task에서 state of the art의 성능 증명1 Introduction기존 NLP의 Pre-trained model이 word representatio.. 더보기
Sequence to sequence learning with neural networks 논문 리뷰 1. Introduction (소개)기계 번역과 같은 자연어 처리 작업에서는 입력 시퀀스를 출력 시퀀스로 변환하는 문제가 중요한데, 기존의 모델들은 복잡한 구조와 많은 사전 지식을 요구합니다. "Sequence to Sequence Learning with Neural Networks" 논문에서는 이를 해결하기 위해 인코더-디코더 구조를 사용하는 Seq2Seq 모델을 제안합니다. 이 모델은 입력 시퀀스를 고정된 크기의 벡터로 인코딩한 다음, 이를 디코더가 사용하여 출력 시퀀스를 생성합니다. 이는 통계적 기계 번역 시스템보다 더 간단하고 효과적인 접근법입니다.2. Model Architecture (모델 구조)Seq2Seq 모델은 두 부분으로 구성됩니다:인코더 (Encoder): 입력 시퀀스를 고정된 크기.. 더보기
Python(46)- 문장 임베딩 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 문장 임베딩2017년 이전의 임베딩 기법들은 대부분 단어 수준의 모델단어 수준 임베딩 기법은 자연어의 특성인 모호성, 동음이의어를 구분하기 어렵다는 한계가 있음2017년 이후에는 ELMo(Embeddings from Language Models)와 같은 모델이 발표되고 트랜스포머와 같은 언어 모델에서 문장 수준의 언어 모델링을 고려하면서 한계점들이 해결됨2. seq2seq 배경seq2seq 모델이 등장하기 전에 DNN(Deep Neural Network) 모델은 사물인식, 음성인식 등에서 꾸준히 성과를 내고 있었음(예 : CNN, RNN, LSTM, GRU ...)단점 : 모델 입/출력의 크기가 고정된다는 한계.. 더보기
Python(45)- LSTM과 GRU *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*데이터 전처리import torchimport torch.nn as nnimport torch.optim as optimimport numpy as npfrom sklearn.preprocessing import LabelEncoder # 원핫인코딩 이전 라벨인코딩(문자->숫자) 모듈from sklearn.feature_extraction.text import CountVectorizer # # 텍스트를 벡터화from torch.utils.data import DataLoader, Datasetfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_sel.. 더보기
Python(44)- CNN 분류 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*데이터 전처리 과정 : 이전 cbow 분류 전처리와 동일더보기import urllib.requestimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport torchimport torch.nn as nnimport torch.optim as optimimport torch.nn.functional as F # 파이토치 functional 추가from copy import deepcopyfrom torch.utils.data import Dataset, DataLoaderfrom tqdm.auto import tqdm# 깃허브에 올라온 파일을.. 더보기
Python(43)- cbow 분류 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*import urllib.requestimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport torchimport torch.nn as nnimport torch.optim as optimfrom copy import deepcopyfrom torch.utils.data import Dataset, DataLoaderfrom tqdm.auto import tqdm# 깃허브에 올라온 파일을 가져오기 위해선, filename = ''설정해줘야 함.urllib.request.urlretrieve('https://raw.githubusercont.. 더보기
Neural Machine Translation of Rare Words with Subword Units(BPE) 리뷰 Abstract(초록)과거 - backing off(you go back to a n-1 gram level to calculate the probabilities when you encounter a word with prob=0 : 자연어처리에서 특정 상황을 처리할 수 없을 때 사전조회 같은 일반적인 방법으로 돌아가는 방식) 활용 -> 문제점 제시open-vocabulary문제를 해결하는 신경망 기계번역 모델 소개word segmentation 기술(서브워드 분리기술) 제시 - simple character n-gram model, BPE(byte pair encoding)1. Introductionrare words : 자주 사용되지 않아서 어휘 목록이나 사전에 포함되지 않는 단어들productiv.. 더보기
Python(42)- RNN 기초 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 순환 신경망(Recurrent Neural Network, RNN)시계열 또는 자연어와 같은 Sequence 데이터를 모델링하는데 강력한 신경망, 시계열 데이터나 시퀀스 데이터를 잘 처리예) 주식 가격, 텍스트 데이터, 오디오 데이터Sequence : 단어의 문장, 연결되어 있는 정보예를들어 물건만드는 공장에서 3년동안 특정물건을 만든것에 대해, 1095개중 흐름예측(Regression)이 아닌, 구간을 정해서 패턴예측을 하면 가까운 시일내로 예측할 수 있음. 하나의 블록(구간, Sequence)을 정해서 Sequence간격마다 예측하면 더 세밀하게 예측하지 않을까? -> 나옴1-1. RNN 동작방식은닉층의 노.. 더보기