-
[Python] pandas 설치 방법과 기본 활용 예시 (Windows 64bit 기준)업무 자동화/Python 2025. 11. 24. 05:03

1. pandas는 무엇인가?
1-1. 정의
- pandas는 표 형태(tabular)의 데이터를 다루는 파이썬 라이브러리입니다.
- 핵심 객체
Series: 1차원 데이터 (열 1개 느낌)DataFrame: 2차원 테이블 (행/열 구조)
1-2. 왜 pandas를 써야 할까?
- 엑셀처럼 행과 열 구조로 데이터를 다룰 수 있으면서,
- 반복 작업, 필터링, 집계, 전처리를 코드 한두 줄로 처리 가능
- CSV, Excel, SQL, 로그 파일 등 다양한 소스와 바로 연동
- 데이터 분석, 머신러닝, 리포트 자동화의 사실상 표준 도구
2. 사전 준비: Python & pip 확인 (Windows)
터미널(PowerShell 또는 CMD)에서 버전을 확인합니다.
python --version pip --version- Python 3.9 이상 사용을 추천
- pip가 함께 설치되어 있어야 합니다.
3. Windows에서 pandas 설치 방법
3-1. (가장 단순) pip로 바로 설치
pip install pandas설치가 완료되면 아래로 확인:
python -c "import pandas as pd; print(pd.__version__)"버전이 출력되면 설치 성공입니다.
3-2. (권장) 가상 환경(venv) + pip 설치
프로젝트별로 독립된 환경을 만들고 그 안에 pandas를 설치하는 방법입니다.
# 1) 프로젝트 폴더로 이동 cd C:\workspace\pandas_test # 2) 가상 환경 생성 python -m venv .venv # 3) 가상 환경 활성화 (PowerShell 기준) .venv\Scripts\activate # 4) pip 최신화 + pandas 설치 pip install --upgrade pip pip install pandas # 5) 설치 확인 python -c "import pandas as pd; print(pd.__version__)"작업을 마친 뒤에는 아래 명령으로 가상 환경을 종료합니다.
deactivate실무에서는
requirements.txt에 필요한 패키지 목록을 저장해 두고pip install -r requirements.txt로 재현 가능한 환경을 만드는 것을 추천합니다.3-3. Anaconda로 설치 (선택)
이미 Anaconda를 사용 중이라면, Anaconda Prompt에서 아래와 같이 진행합니다.
# (선택) 새 환경 생성 conda create -n py310_pandas python=3.10 # 환경 활성화 conda activate py310_pandas # pandas 설치 conda install pandas- Jupyter Notebook, NumPy, matplotlib 등과 함께 설치/관리하기에 편리합니다.
4. pandas 기본 문법 정리 (Windows와 무관하게 동일)
예제에서는 관례적으로 아래와 같이 import 합니다.
import pandas as pd4-1. Series와 DataFrame 생성
import pandas as pd # Series (1차원) s = pd.Series([10, 20, 30], name="score") print(s) # DataFrame (2차원) df = pd.DataFrame( { "name": ["Alice", "Bob", "Charlie"], "age": [25, 30, 35], "score": [90, 85, 92], } ) print(df)4-2. CSV / Excel 파일 읽기
import pandas as pd # CSV 읽기 df_csv = pd.read_csv("data.csv") # Excel 읽기 (첫 번째 시트) df_xlsx = pd.read_excel("data.xlsx") # engine은 보통 자동 인식 print(df_csv.head()) # 상위 5행 미리 보기- 엑셀에서 export한 CSV를 열어서 전처리한 뒤, 다시 CSV/Excel로 저장하는 패턴이 매우 자주 쓰입니다.
# CSV로 저장 df_csv.to_csv("result.csv", index=False) # Excel로 저장 df_xlsx.to_excel("result.xlsx", index=False)4-3. 기본 조회와 선택
print(df.head()) # 앞에서 5행 print(df.tail(3)) # 뒤에서 3행 # 컬럼 선택 print(df["name"]) # 단일 컬럼 (Series) print(df[["name", "age"]]) # 여러 컬럼 (DataFrame) # 행 + 열 동시 선택 (loc / iloc) print(df.loc[0, "name"]) # 라벨 기반 print(df.iloc[1, 2]) # 위치 기반 (1행 2열)4-4. 조건 필터링
# 나이가 30 이상인 행만 cond = df["age"] >= 30 print(df[cond]) # 점수가 90 이상이면서 나이가 30 미만 filtered = df[(df["score"] >= 90) & (df["age"] < 30)] print(filtered)4-5. 정렬과 새 컬럼 추가
# 점수 기준 내림차순 정렬 sorted_df = df.sort_values(by="score", ascending=False) # 나이 구간 컬럼 추가 예시 df["age_group"] = pd.cut(df["age"], bins=[0, 29, 39, 100], labels=["20대 이하", "30대", "40대 이상"])4-6. 결측값 처리
import numpy as np df2 = df.copy() df2.loc[1, "score"] = np.nan # 일부 값 누락 print(df2.isna().sum()) # 컬럼별 결측 개수 # 결측값을 평균으로 채우기 df2["score"] = df2["score"].fillna(df2["score"].mean()) # 결측이 포함된 행 제거 df_drop = df2.dropna()4-7. 그룹화와 집계 (groupby)
grouped = df.groupby("age_group")["score"].agg(["count", "mean", "max"]) print(grouped)- 연령대별 인원 수, 평균 점수, 최대 점수 등을 한 번에 계산 가능
4-8. 피벗 테이블
pivot = pd.pivot_table( df, index="age_group", values="score", aggfunc=["mean", "max"], ) print(pivot)- 엑셀의 피벗 테이블과 거의 동일한 개념으로 활용할 수 있습니다.
5. 정리
- pandas는 표 형태 데이터 처리의 표준 라이브러리
- Windows에서는
- 가장 단순:
pip install pandas - 권장:
python -m venv .venv후 가상 환경 안에서 설치 - 선택: Anaconda 환경에서
conda install pandas
- 가장 단순:
- 개념적으로 꼭 익혀야 할 것
Series,DataFrame구조- 컬럼/행 선택, 조건 필터링
- 결측값 처리, 정렬
- groupby, pivot_table을 이용한 집계
이후에는
matplotlib/seaborn으로 시각화를 추가하거나,SQLAlchemy로 DB와 연동해 ETL/리포트 자동화까지 확장할 수 있습니다.'업무 자동화 > Python' 카테고리의 다른 글
[Python] math 표준 라이브러리 정리: 기본 수학 함수, 상수, 활용 예시 (0) 2025.11.26 [Python] pandas 설치 방법과 기본 활용 예시 (Linux 환경 기준) (0) 2025.11.25 [Python] NumPy 설치 방법과 기본 활용 예시 (Linux 환경 기준) (0) 2025.11.23 [Python] NumPy 설치 방법과 기본 활용 예시 (Windows 64bit 기준) (0) 2025.11.22 [Python] 설치 방법과 개발 환경 구성: VS Code, 확장팩 (Linux 기반) (0) 2025.11.20