Python 5

[python] Crawling 해보기

Crawling 해보기 Web Crawler : 사전적으로 '기는 것', '파충류'라는 의미이다. 웹 페이지의 데이터를 모아주는 소프트웨어 Web Crawling : 크롤러를 사용해 웹 페이지의 데이터를 추출해 내는 행위 Parsing : 데이터를 의미있게 변경하는 작업 parser : Parsing을 도와주는 프로그램 라이브러리 준비 pip install requests pip install bs4 >> 스크립트로 requests 라이브러리 설치 위치 확인 import requests print(requests) 요청하고 응답받기 google 사이트 html code 읽기 import requests url = "http://www.google.com" response = requests.get(url..

카테고리 없음 2022.08.07

[KMU SUMMER AI] 탐색적 데이터 분석, EDA

EDA란 ? 데이터 그 자체만으로부터 인사이트를 얻어내는 접근법 ! EDA의 Process 1. 분석의 목적과 변수 확인 분석의 목적을 정확히 데이터 타입이 분석하는 데에 적절한지 2. 데이터 전체적으로 살펴보기 데이터간의 상관관계는 없는지 데이터의 결측치는 없는지 데이터의 사이즈가 적절한지( 데이터의 사이즈가 너무 작은 경우) 3. 데이터의 개별 속성 파악하기 데이터의 속성이 적절히 매칭되어 있는지 EDA with Titanic Data 0. 라이브러리 준비 # 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline# 동일 경로에 "trai..

카테고리 없음 2022.07.17

[KMU SUMMER AI] Matplotlib으로 데이터 시각화하기

I. Matplotlib 시작하기 파이썬의 데이터 시각화 라이브러리 matplotlib %maplotlib inline를 통해서 활성화 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline Case Study with Arguments plt.plot([2,4,2,4,2]) # 실제 plotting을 하는 함수 y = x + 1 plt.show() # plt를 확인하는 명령 Figsize : figure(도면)의 크기 조절 plt.figure(figsize=(4,4)) # plotting을 할 도면을 선언 plt.plot([0,1,2,3,4]) plt.show() 2차함수 그래프 with plot(..

카테고리 없음 2022.07.16

[KMU SUMMER AI] 파이썬으로 데이터 주무르기, pandas

I. pandas 시작하기 PREREQUISITE : Table 행과 열을 이용해서 데이터를 저장하고 관리하는 자료구조(컨테이너) 주로 행은 개체, 열은 속성을 나타냄 Pandas 시작하기 import pandas를 통해서 진행( pd라는 alias 사용 ) import pandas as pd II. pandas로 1차원 데이터 다루기 - Series Series? 1-D labeled array 인덱스를 지정해줄 수 있음 s = pd.Series([1,4,9,16,26]) t = pd.Series({'one':1, 'two':2, 'three':3, 'four':4, 'five':5}) Series + Numpy Series는 ndarray와 유사하다 ! s[1] # 4 t[1] # 2 t[1:3] #..

카테고리 없음 2022.07.16

[KMU SUMMER AI] 파이썬의 컴퓨팅 라이브러리, numpy

I. Numpy 시작하기 Remind : 리스트 Python의 리스트 arr = [1, "two", 3.0] print(arr) numpy 모듈 불러오기 코드를 보다 편하게 쓰기 위해 np라는 alias 사용 import numpy as np 왜 numpy를 사용해야 할까 ? List의 경우 L = range(1000) %timeit [i**2 for i in L] The slowest run took 6.16 times longer than the fastest. This could mean that an intermediate result is being cached. 1000 loops, best of 3: 260 µs per loop numpy.array의 경우 N = np.arange(1000)..

카테고리 없음 2022.07.16