KMU SUMMER AI 4

[KMU SUMMER AI] 탐색적 데이터 분석, EDA

EDA란 ? 데이터 그 자체만으로부터 인사이트를 얻어내는 접근법 ! EDA의 Process 1. 분석의 목적과 변수 확인 분석의 목적을 정확히 데이터 타입이 분석하는 데에 적절한지 2. 데이터 전체적으로 살펴보기 데이터간의 상관관계는 없는지 데이터의 결측치는 없는지 데이터의 사이즈가 적절한지( 데이터의 사이즈가 너무 작은 경우) 3. 데이터의 개별 속성 파악하기 데이터의 속성이 적절히 매칭되어 있는지 EDA with Titanic Data 0. 라이브러리 준비 # 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline# 동일 경로에 "trai..

카테고리 없음 2022.07.17

[KMU SUMMER AI] Matplotlib으로 데이터 시각화하기

I. Matplotlib 시작하기 파이썬의 데이터 시각화 라이브러리 matplotlib %maplotlib inline를 통해서 활성화 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline Case Study with Arguments plt.plot([2,4,2,4,2]) # 실제 plotting을 하는 함수 y = x + 1 plt.show() # plt를 확인하는 명령 Figsize : figure(도면)의 크기 조절 plt.figure(figsize=(4,4)) # plotting을 할 도면을 선언 plt.plot([0,1,2,3,4]) plt.show() 2차함수 그래프 with plot(..

카테고리 없음 2022.07.16

[KMU SUMMER AI] 파이썬으로 데이터 주무르기, pandas

I. pandas 시작하기 PREREQUISITE : Table 행과 열을 이용해서 데이터를 저장하고 관리하는 자료구조(컨테이너) 주로 행은 개체, 열은 속성을 나타냄 Pandas 시작하기 import pandas를 통해서 진행( pd라는 alias 사용 ) import pandas as pd II. pandas로 1차원 데이터 다루기 - Series Series? 1-D labeled array 인덱스를 지정해줄 수 있음 s = pd.Series([1,4,9,16,26]) t = pd.Series({'one':1, 'two':2, 'three':3, 'four':4, 'five':5}) Series + Numpy Series는 ndarray와 유사하다 ! s[1] # 4 t[1] # 2 t[1:3] #..

카테고리 없음 2022.07.16

[KMU SUMMER AI] 파이썬의 컴퓨팅 라이브러리, numpy

I. Numpy 시작하기 Remind : 리스트 Python의 리스트 arr = [1, "two", 3.0] print(arr) numpy 모듈 불러오기 코드를 보다 편하게 쓰기 위해 np라는 alias 사용 import numpy as np 왜 numpy를 사용해야 할까 ? List의 경우 L = range(1000) %timeit [i**2 for i in L] The slowest run took 6.16 times longer than the fastest. This could mean that an intermediate result is being cached. 1000 loops, best of 3: 260 µs per loop numpy.array의 경우 N = np.arange(1000)..

카테고리 없음 2022.07.16