ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Python] pandas 설치 방법과 기본 활용 예시 (Windows 64bit 기준)
    업무 자동화/Python 2025. 11. 24. 05:03

    1. pandas는 무엇인가?

    1-1. 정의

    • pandas표 형태(tabular)의 데이터를 다루는 파이썬 라이브러리입니다.
    • 핵심 객체
      • Series : 1차원 데이터 (열 1개 느낌)
      • DataFrame : 2차원 테이블 (행/열 구조)

    1-2. 왜 pandas를 써야 할까?

    • 엑셀처럼 행과 열 구조로 데이터를 다룰 수 있으면서,
    • 반복 작업, 필터링, 집계, 전처리를 코드 한두 줄로 처리 가능
    • CSV, Excel, SQL, 로그 파일 등 다양한 소스와 바로 연동
    • 데이터 분석, 머신러닝, 리포트 자동화의 사실상 표준 도구

     

    2. 사전 준비: Python & pip 확인 (Windows)

    터미널(PowerShell 또는 CMD)에서 버전을 확인합니다.

    python --version
    pip --version
    • Python 3.9 이상 사용을 추천
    • pip가 함께 설치되어 있어야 합니다.

     

    3. Windows에서 pandas 설치 방법

    3-1. (가장 단순) pip로 바로 설치

    pip install pandas

    설치가 완료되면 아래로 확인:

    python -c "import pandas as pd; print(pd.__version__)"

    버전이 출력되면 설치 성공입니다.

    3-2. (권장) 가상 환경(venv) + pip 설치

    프로젝트별로 독립된 환경을 만들고 그 안에 pandas를 설치하는 방법입니다.

    # 1) 프로젝트 폴더로 이동
    cd C:\workspace\pandas_test
    
    # 2) 가상 환경 생성
    python -m venv .venv
    
    # 3) 가상 환경 활성화 (PowerShell 기준)
    .venv\Scripts\activate
    
    # 4) pip 최신화 + pandas 설치
    pip install --upgrade pip
    pip install pandas
    
    # 5) 설치 확인
    python -c "import pandas as pd; print(pd.__version__)"

    작업을 마친 뒤에는 아래 명령으로 가상 환경을 종료합니다.

    deactivate

    실무에서는 requirements.txt에 필요한 패키지 목록을 저장해 두고
    pip install -r requirements.txt로 재현 가능한 환경을 만드는 것을 추천합니다.

    3-3. Anaconda로 설치 (선택)

    이미 Anaconda를 사용 중이라면, Anaconda Prompt에서 아래와 같이 진행합니다.

    # (선택) 새 환경 생성
    conda create -n py310_pandas python=3.10
    
    # 환경 활성화
    conda activate py310_pandas
    
    # pandas 설치
    conda install pandas
    • Jupyter Notebook, NumPy, matplotlib 등과 함께 설치/관리하기에 편리합니다.

     

    4. pandas 기본 문법 정리 (Windows와 무관하게 동일)

    예제에서는 관례적으로 아래와 같이 import 합니다.

    import pandas as pd

    4-1. Series와 DataFrame 생성

    import pandas as pd
    
    # Series (1차원)
    s = pd.Series([10, 20, 30], name="score")
    print(s)
    
    # DataFrame (2차원)
    df = pd.DataFrame(
        {
            "name": ["Alice", "Bob", "Charlie"],
            "age": [25, 30, 35],
            "score": [90, 85, 92],
        }
    )
    print(df)

    4-2. CSV / Excel 파일 읽기

    import pandas as pd
    
    # CSV 읽기
    df_csv = pd.read_csv("data.csv")
    
    # Excel 읽기 (첫 번째 시트)
    df_xlsx = pd.read_excel("data.xlsx")  # engine은 보통 자동 인식
    
    print(df_csv.head())   # 상위 5행 미리 보기
    • 엑셀에서 export한 CSV를 열어서 전처리한 뒤, 다시 CSV/Excel로 저장하는 패턴이 매우 자주 쓰입니다.
    # CSV로 저장
    df_csv.to_csv("result.csv", index=False)
    
    # Excel로 저장
    df_xlsx.to_excel("result.xlsx", index=False)

    4-3. 기본 조회와 선택

    print(df.head())    # 앞에서 5행
    print(df.tail(3))   # 뒤에서 3행
    
    # 컬럼 선택
    print(df["name"])         # 단일 컬럼 (Series)
    print(df[["name", "age"]])  # 여러 컬럼 (DataFrame)
    
    # 행 + 열 동시 선택 (loc / iloc)
    print(df.loc[0, "name"])  # 라벨 기반
    print(df.iloc[1, 2])      # 위치 기반 (1행 2열)

    4-4. 조건 필터링

    # 나이가 30 이상인 행만
    cond = df["age"] >= 30
    print(df[cond])
    
    # 점수가 90 이상이면서 나이가 30 미만
    filtered = df[(df["score"] >= 90) & (df["age"] < 30)]
    print(filtered)

    4-5. 정렬과 새 컬럼 추가

    # 점수 기준 내림차순 정렬
    sorted_df = df.sort_values(by="score", ascending=False)
    
    # 나이 구간 컬럼 추가 예시
    df["age_group"] = pd.cut(df["age"], bins=[0, 29, 39, 100],
                             labels=["20대 이하", "30대", "40대 이상"])

    4-6. 결측값 처리

    import numpy as np
    
    df2 = df.copy()
    df2.loc[1, "score"] = np.nan  # 일부 값 누락
    
    print(df2.isna().sum())       # 컬럼별 결측 개수
    
    # 결측값을 평균으로 채우기
    df2["score"] = df2["score"].fillna(df2["score"].mean())
    
    # 결측이 포함된 행 제거
    df_drop = df2.dropna()

    4-7. 그룹화와 집계 (groupby)

    grouped = df.groupby("age_group")["score"].agg(["count", "mean", "max"])
    print(grouped)
    • 연령대별 인원 수, 평균 점수, 최대 점수 등을 한 번에 계산 가능

    4-8. 피벗 테이블

    pivot = pd.pivot_table(
        df,
        index="age_group",
        values="score",
        aggfunc=["mean", "max"],
    )
    print(pivot)
    • 엑셀의 피벗 테이블과 거의 동일한 개념으로 활용할 수 있습니다.

     

    5. 정리

    • pandas는 표 형태 데이터 처리의 표준 라이브러리
    • Windows에서는
      • 가장 단순: pip install pandas
      • 권장: python -m venv .venv 후 가상 환경 안에서 설치
      • 선택: Anaconda 환경에서 conda install pandas
    • 개념적으로 꼭 익혀야 할 것
      • Series, DataFrame 구조
      • 컬럼/행 선택, 조건 필터링
      • 결측값 처리, 정렬
      • groupby, pivot_table을 이용한 집계

    이후에는 matplotlib/seaborn으로 시각화를 추가하거나,
    SQLAlchemy로 DB와 연동해 ETL/리포트 자동화까지 확장할 수 있습니다.

Designed by Tistory.