pandas로 데이터 분석 첫걸음
pandas 라이브러리 소개
- pandas: Python에서 데이터 분석 및 조작을 위한 핵심적이고 강력한 라이브러리
- 주요 자료구조: Series (1차원), DataFrame (2차원 테이블 형태)
import pandas as pd
외부 데이터 파일 불러오기
- Excel 파일 읽기:
pd.read_excel('파일명.xlsx', sheet_name='시트명 또는 인덱스')sheet_name생략 시 첫 번째 시트 불러옴- 다양한 옵션 제공 (예: 특정 행을 헤더로 지정, 특정 열만 선택 등)
- 결과: DataFrame 객체로 데이터 반환
df = pd.read_excel('car.xlsx') df.head()
데이터프레임 기본 정보 탐색
df.head(n=5): 처음 n개 행 확인 (기본값 5)df.tail(n=5): 마지막 n개 행 확인 (기본값 5)df.shape: (행 개수, 열 개수) 튜플 반환df.info(): 데이터 타입, 각 열의 non-null 값 개수, 메모리 사용량 등 요약 정보 출력df.dtypes: 각 열의 데이터 타입 확인
열 선택
- 특정 열 선택 (Series 반환): df['열이름'] 또는 df.열이름 ()
df['price']
df.price # 열 이름에 공백/특수문자 없을 시
- 여러 열 선택 (DataFrame 반환):
df[['열이름1', '열이름2']](리스트 형태로 전달)
df[['price', 'mileage']]