cookiedoughwhip 님의 블로그
close
프로필 사진

cookiedoughwhip 님의 블로그

github: @kes0609

  • 분류 전체보기 (21)
    • 백준 BOJ (7)
    • 자료구조 (2)
    • Python (7)
    • C++ (1)
    • 경제&금융 기사 스크랩 (3)
  • 홈
  • 태그
  • 방명록

[Python] 국문 전처리와 텍스트 마이닝 방법

한국어 전처리 입문자연어 처리Natural Language Processing일상에서 사용하는 자연어를 컴퓨터로 하여금 분석, 처리할 수 있도록 다듬는 것자연어 처리를 위한 Python 패키지NLTK (Natural Language ToolKit): 영문으로 이루어진 텍스트 데이터의 처리와 분석을 가능케 하는 Python 패키지KoNLPy (Python package for NLP of the Korean language): 형태소 분석 등 한국어 텍스트의 전처리에 특화된 Python 패키지영문 전처리에 비해 월등히 어려운 국문 전처리Problem 1 : 띄어쓰기로 문장을 명확하게 나누기 어려움띄어쓰기를 통해 문장이 비교적 뚜렷하게 구분되는 영어한국어의 경우, 띄어쓰기 규범이 올바르게 지켜지지 않은 텍스..

  • format_list_bulleted Python
  • · 2025. 10. 2.

[Python] 군집화를 통한 데이터 특성 파악

K-평균 군집화scikit-learnPython에서의 기계학습을 위해 사용되는 대표적인 라이브러리import sklearn 인공지능 / 기계학습 / 딥러닝의 구분인공지능: 문제 해결을 위하여 인간의 지능을 모사하는 경우기계학습 (머신러닝): 학습과 경험을 거듭할수록 기계가 발전하는 경우딥러닝: 신경망을 기초로 하여 학습이 이루어지는 경우 K-평균 군집화사전에 군집의 개수 K를 결정각 군집에는 중심이 존재하게 될 것인데, 중심과 군집 내 데이터 거리 차의 제곱 합을 최소로 하는 최적의 군집을 찾는 방식K-means 알고리즘으로 주어진 데이터를 군집화하려면?알고리즘 수행을 위해 필요한 라이브러리import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.c..

  • format_list_bulleted Python
  • · 2025. 10. 2.

[Python] BeautifulSoup를 이용한 웹 크롤링

웹 크롤링의 이해웹 크롤링과 웹 스크래핑의 차이?Web Crawling웹에 존재하는 문서를 다운로드하여 가져오는 것Ex) CNN 기사 페이지의 내용 전체를 내려받음Web Scraping웹 문서로부터 분석하고자 하는 유의미한 정보를 추출하는 것Ex) CNN 기사 페이지에서 기사 제목과 기자 성명만을 추출 BeautifulSoup의 활용requestsHTTP 라이브러리의 하나로, URL 주소를 토대로 웹 문서를 불러올 때 유용하게 쓰임import requests웹 페이지의 정보를 그대로 가져오기url = 'https://www.genie.co.kr/chart/top200'header_info = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple..

  • format_list_bulleted Python
  • · 2025. 10. 1.

[Python] 데이터 전처리 후 Matplotlib로 시각화 방법

데이터 전처리와 그 실제Pandas를 이용하여 데이터 프레임에서 결측치 제거하기80% 이상이 결측치인 열 제거deadline = df.shape[0] * 0.2 # 전체 행 개수의 20% 구하기 target_col = list()for col in df.columns : # df의 모든 열들에 대해 수행되는 반복문 count = df[col].count() # 주어진 열의 데이터 수 계산 if count 결측값이 하나라도 존재하는 행 제거df = df.dropna(axis = 0)dropna : 결측치가 하나라도 있는 행 또는 열 삭제Q) 상단 코드에서 axis의 값이 0이 아닌 1일 경우 예상되는 결과는?→ 결측치가 있는 행이 아니라, 열이 제거된다이상치 조건에 해당하는 행들 제거하기low..

  • format_list_bulleted Python
  • · 2025. 9. 30.

[Python] Pandas를 이용한 데이터 처리 방법 정리

데이터과학과 Python 데이터과학이란?데이터를 통해 주어진 문제를 해결하는 접근법데이터 수집, 처리, 분석, 시각화 등을 모두 포괄컴퓨터과학적 소양, 수리과학에서의 배경 지식, 분석 대상이 될 분야에 대한 기초 지식 필요 데이터과학을 위한 Python 라이브러리의 종류PandasDataFrame 구조를 이용한 결측치 제거, 데이터 병합 등 전처리 수행import pandas as pdNumPy행렬, 다차원 배열 등 수학 연산을 주로 수행하는 라이브러리import numpy as npMatplotlib주어진 자료를 플롯 혹은 차트로 시각화하기 위한 라이브러리import matplotlib.pyplot as plt Pandas와 DataFrame라이브러리 사용법import randomnum = rando..

  • format_list_bulleted Python
  • · 2025. 9. 30.

[Python] 재귀 호출과 그 응용

재귀 호출과 그 응용recursion함수의 정의부에서 자기 자신을 재귀적으로 호출할 수 있음재귀 호출을 이용하여 다양한 형태의 문제를 해결할 수 있음자연수를 인자로 받아 factorial을 계산하는 함수를 재귀적으로 정의하면?def fact_func(n): if n==1: return 1 else: return n * fact_func(n-1)fact_func(5)자연수 n에 대해 n번째 피보나치 수를 반환하는 함수를 재귀적으로 정의하면?def fibo_func(n): print(*) if (n==1) or (n==2): return 1 else: return fibo_func(n-1) + fibo_func(n-2) fibo_func(7)n이 2일 때도 1을 반환하는 이유..

  • format_list_bulleted Python
  • · 2025. 9. 30.
  • navigate_before
  • 1
  • 2
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (21)
    • 백준 BOJ (7)
    • 자료구조 (2)
    • Python (7)
    • C++ (1)
    • 경제&금융 기사 스크랩 (3)
인기 글
전체 방문자
오늘
어제
Copyright © cookiedoughwhip 모든 권리 보유.
SKIN: Copyright © 쭈미로운 생활 All rights reserved. Designed by JJuum.
and Current skin "dev-roo" is modified by Jin.

티스토리툴바