본문 바로가기

전체 글

Python(41)- 워드 임베딩 시각화 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 네이버 영화 리뷰 데이터셋총 200,000개의 리뷰로 구성된 데이터로 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋 리뷰가 긍정인 경우 1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음!sudo apt-get install -y fonts-nanum!sudo fc-cache -fv!rm ~/.cache/matplotlib -rfimport urllib.requestimport pandas as pd# 깃허브에 올라온 파일을 가져오기 위해선, filename = ''설정해줘야 함.urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/.. 더보기
Python(40)- 워드 임베딩 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 워드 임베딩(Word Embedding)단어를 컴퓨터가 이해하고 효율적으로 처리할 수 있도록 단어를 벡터화하는 기술단어를 밀집 벡터의 형태로 표현하는 방법워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터라고 부름워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 계산이 가능하며, 모델에 입력으로 사용할 수 있음1-1. 희소 표현(Sparse Representation)원 핫 인코딩을 통해서 나온 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에 전부 0으로 표현되는 벡터 표현 방법에 의해 만들어지는 벡터를 희소 벡터라고 함Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략.. 더보기
Python(39)- 임베딩 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 자연어의 특성자연어를 기계가 처리하도록 하기 위해서는 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 합니다.토큰화 작업의 결과인 단어 사전을 기계가 이해할 수 있는 언어로 표현하는 과정이고, 단어 사전 내 단어 하나를 어떻게 표현할까의 문제로 볼 수 있습니다.1-1. 단어의 유사성과 모호성단어의 의미는 유사성과 모호성을 가지고 있는데 단어는 겉으로 보이는 형태인 표제어안에 여러가지 의미를 담고 있습니다.사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나 ,기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 많습니다.한 가지 형태의 단어에 여러 의미가 포함되어.. 더보기
Python(38)- 자연어처리(NLP) 프로젝트 순서 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 문제 정의문제에 대한 솔루션이 있어야 하고, 명확하고 구체적일수록 알맞는 자연어 처리 기술을 찾을 수 있습니다.2. 데이터 수집 및 분석다양한 학습 데이터를 수집하기 위해 공개된 데이터셋, 유료 데이터셋, 웹 크롤링 등을 사용하여 수집https://paperswithcode.com/datasets?mod=texts&task=question-answering Papers with Code - Machine Learning Datasets282 datasets • 132562 papers with code.paperswithcode.com웹 크롤링을 통해 데이터를 수집했다면 EDA(탐색적 데이터 분석) 및 여러 분.. 더보기
Python(37)- 자연어 처리(NLP) *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 자연어(Natural Language)프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어1-1. 자연어 처리컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야자연어에서 의미 있는 정보를 추출하여 활용기계가 자연어의 의미를 이해하고 사람의 언어로 소통할 수 있게 함.1-2. 자연어 처리의 활용문서 분류, 스팸 처리와 같은 분류 문제검색어 추천음성 인식, 질의 응답, 번역소셜 미디어 분석1-3. 자연어 처리의 용어자연어 이해(NLU) 자연어 처리의 하위 집합일반적으로 기계가 자연어의 실제 의미, 의도나 감정, 질문 등을.. 더보기
CNN 알고리즘- 전이학습 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*pizza-steak 데이터셋 음식이미지 분류https://www.kaggle.com/datasets/kelixirr/pizza-steak-image-classification-dataset Pizza Steak Image Classification DatasetCNN Project Pizza Steak Datasetwww.kaggle.com import osfrom collections import defaultdictimport torchimport torch.nn as nnimport torch.optim as optimimport matplotlib.pyplot as pltfrom torchvision imp.. 더보기
Python(36)- 이미지 분류 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 포켓몬 분류Train: https://www.kaggle.com/datasets/thedagger/pokemon-generation-oneValidation: https://www.kaggle.com/hlrhegemony/pokemon-image-dataset Pokemon Generation OneGotta train 'em all!www.kaggle.com Complete Pokemon Image Dataset2,500+ clean labeled images, all official art, for Generations 1 through 8.www.kaggle.com import osos.environ['K.. 더보기
Python(35)- 전이학습 *이 글을 읽기전에 작성자 개인의견이 있으니, 다른 블로그와 교차로 읽는것을 권장합니다.*1. 에일리언 vs 프레데터 데이터셋데이터셋 캐글 로그인 -> 우측 상단의 계정을 클릭 -> Settings -> Account -> API의 Create New Token 클릭 -> kaggle.json 파일이 다운로드 됨 kaggle.json 파일 오픈import osos.environ['KAGGLE_USERNAME'] = 'himdo123'os.environ['KAGGLE_KEY'] = '8f359ef1099d4ff2a07d5fa2cece36a2'점 3개 -> copy API command -> !kaggle datasets download 입력# 점 3개 -> copy API command -> !kaggle.. 더보기