모듈과 패키지
모듈 임포트 (Module Import)
- 모듈(Module): 관련된 함수들을 모아놓은 것 (일종의 코드 묶음).
- 모듈 함수 사용하려면 먼저 모듈 임포트(import) 필요.
import pandas as pd
pandas
: 표 형태 데이터 다루는 대표적 모듈.as pd
:pandas
모듈을 앞으로pd
라는 약칭(별명) 으로 부르겠다는 의미 (생략 가능하나 관 례적으로 사용).
파일 열기
df = pd.read_excel('car.xlsx')
pd.
:pd
(pandas 모듈)에 소속된 기능을 사용하겠다는 의미 (Python에서.
은 소속 나타냄).read_excel()
: 엑셀 파일 읽는 함수.'car.xlsx'
: 읽어올 파일 이름 (문자열이므로 따옴표 사용).df = ...
: 파일 읽은 내용(데이터프레임)을df
라는 변수에 할당.
데이터 보기
df.head()
- 객체 소속 함수(메서드): Python에서는 특정 변수(객체)에 소속된 함수(메서드) 존재.
df.head()
:df
변수(데이터프레임)에 소속된head
메서드 호출.df
의 첫 5행 보여주는 역할.- 괄호
()
: 함수(메서드) 호출 시에는 인 자가 없어도 반드시 괄호 붙임. - 행 개수 지정:
df.head(10)
과 같이 괄호 안에 숫자를 넣어 보여줄 행 개수 지정 가능.
데이터프레임 기본 정보 탐색
df.head(n=5)
: 처음n
개 행 확인 (기본값 5)df.tail(n=5)
: 마지막n
개 행 확인 (기본값 5)df.shape
: (행 개수, 열 개수) 튜플 반환df.info()
: 데이터 타입, 각 열의 non-null 값 개수, 메모리 사용량 등 요약 정보 출력df.dtypes
: 각 열의 데이터 타입 확인
열 선택
- 특정 열 선택 (Series 반환):
df['열이름']
또는df.열이름
df['price']
df.price # 열 이름에 공백/특수문자 없을 시
- 여러 열 선택 (DataFrame 반환):
df[['열이름1', '열이름2']]
(리스트 형태로 전달)
df[['price', 'mileage']]
패키지 설치
- 패키지: 하나 이상의 모듈을 묶은 설치의 단위 ("라이브러리"라고도 함)
- 패키지 ≒ 라이브러리 ⊃ 모듈
- 패키지는 한 컴퓨터에서 한 번 설치하면 됨
- 모듈은 사용할 때마다 임포트
pip
프로그램을 이용해서 설치pip install pingouin
- pip는 Jupyter Notebook 또는 Anaconda Prompt에서 실행
pingouin
: 통계 분석을 위한 패키지