PYTHON으로 딥러닝하기

현업에서 많이 사용하는 Python 모듈 | Pandas (Series, DataFrame)

euni_joa 2019. 2. 27. 17:47
반응형

안녕하세요~



"현업에서 많이 사용하고 있는 Python 모듈 마스터하기!"


라는 시리즈를 포스팅하려고 합니다.



그 중 첫 번째편은 바로 Pandas 입니다!




Pandas의 DataFrame의 형태가 데이터베이스의 테이블과 유사하기 때문에 많이 사용되지 않을까요? :)


즉, Feature 엔지니어링 하여 데이터 분석을 할 때 유용합니다!



1. Series


그렇다면, 먼저 Pandas의 기본 자료구조인 Series에 대해 알아보겠습니다.



Series = value(값) + Index(인덱스)


Series는 1차원 배열과 같은 구조로 동일한 자료형만 담을 수 있습니다.




예) Series 생성

import pandas as pd


s = pd.Series([172, 160, 174, 183], index=["지수", "으니", "덕", "운동"])


# 딕셔너리 개체로 시리즈를 생성할 수 있다.

s2 = pd.Series({"지수": 172, "으니": 160, "덕": 174, "운동": 183})


# 순서를 정하고 싶다면 인덱스를 지정해야한다.

s3 = pd.Series({"지수": 172, "으니": 160, "덕": 174, "운동": 183}, index=["지수","으니","덕","운동"])

결과)



예2) Series 인덱싱

s["으니":"덕"]


# 위와 같은 결과

s[1:3]


# Series[conditions]: conditions 부분에 논리연산이 올 수 있다

s[(160 == s) | (174 == s)]

결과)



예3) Series 특징


시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 딕셔너리 자료형과 같다고 할 수 있다.


# items(): dictionary method인 items함수는 key와 value의 쌍을 튜플로 묶은 값을 dict_items 객체로 돌려준다.

for k, v in s.items():

print("%s's 키는 %d cm 입니다." % (k,v))



예4) 데이터 갱신, 추가, 삭제

# 갱신

s["으니"] = 161


# 추가

s["다래"] = 179


# 삭제

del s["운동"]

결과) 갱신


결과) 추가


결과) 삭제




2. DataFrame


Series가 복수개 합쳐진 것

서로 다른 종류의 데이터 타입을 가질 수 있으며,

행렬의 열, 행에 인덱스 값을 부여한 것과 같습니다.



예) DataFrame 생성

import pandas as pd


data = {

"키": [172, 160, 174, 183],

"나이": [25, 24, 27, 26],

"성별" : ['F', 'F', 'M', 'M']

}

columns = ["키", "나이", "성별"]

index = ["지수", "으니", "덕", "운동"]

df = pd.DataFrame(data, index=index, columns=columns)

df.index.name = "이름"

결과)



예2) DataFrame 인덱싱

# 열 인덱싱

df["키"]


# 행 인덱싱1

df["으니":"덕"]


# 행 인덱싱2: 행단위로 인덱싱을 하고자 하면 항상 슬라이싱을 해야한다 df[1:3]


# .iloc[] 을 이용한 인덱싱: 행단위로 인덱싱 (without 슬라이싱) df.iloc[1]


# .loc[condition] 을 이용한 인덱싱

df.loc[df["키"] <= 160]

결과) 열 인덱싱


결과) 행 인덱싱




예3) Transpose

df.T # 대부분의 np 2차원 배열이 가지는 속성/메소드를 지원한다.

결과)



예4) 갱신, 삽입, 삭제

# 갱신

df.loc["으니","키"] = 161

# df["키"].loc["으니"] = 161 # warning


# 열 삽입1

df["학과"] = ["경영","경영정보","경영정보","도시 부동산"]


# 열 삽입2

df["학과"] = pd.Series(["경영","경영정보","경영정보","도시 부동산"], index=["지수","으니","덕","운동"])


# 행 삽입1

df.loc["다래"] = {"키": 179, "나이": 24, "성별": "F", "학과": "응급의학과"}


# 행 삽입2

df.loc["다래"] = pd.Series([179, 'F', '응급의학과'], index=["키","성별","학과"]) # 나이: NaN 발생


# 삭제: del, drop 키워드를 사용하면 열을 삭제할 수 있다.

결과) 갱신


결과) 열 삽입


결과) 행 삽입



예5) DataFrame 변형

df1 = pd.DataFrame({"키":[161,179], "이름":["으니","다래"], "나이":[24,24], "학과": ["경영정보","응급의학"]}, \

columns=["키","이름","학과"]) df2 = pd.DataFrame({"학과":["경영","경영정보","도시부동산"], "학과번호":[201,202,203]}, columns=["학과","학과번호"])


# merge()

df = pd.merge(df1,df2,on="학과") # inner join과 같은 결과, on : 기준 key 값

df = pd.merge(df1,df2, how='left') # left: df1 | right: df2 의 키값을 모두 보여준다

df = pd.merge(df1,df2, how='outer') # 키값이 한쪽에만 있어도 데이터를 보여준다.


# concat()

df1 = pd.DataFrame({"키":161, "이름":"으니", "나이":24, "학과": "경영정보"}, columns=["키","이름","학과"], \

index = [0]) df2 = pd.DataFrame({"키":[174,183], "이름":["덕","운동"], "나이":[27,26], "학과": ["경영정보","도시부동산"]}, \

columns=["키","이름","학과"], index = [1,2])

df = pd.concat([df1,df2], ignore_index=True)

결과) merge()


결과) concat()



※참고: merge()와 concat()의 차이점


.merge()는 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 테이블을 합친다.


이때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.

(join을 사용할 수 있다)

 


.concat() 은 기준 열을 사용하지 않고 단순히 데이터를 연결(concatenate)한다.


출처: 데이터 사이언스 스쿨




3. Pandas 함수



예1) 데이터 분석용 함수

# sum, min, mean, var, ...

df[["키","나이"]].sum(axis=0) # axis = 0 : 행 | 1: 열


# corr(상관관계), cov(공분산) : 머신러닝에서 많이 사용되는 함수



예2) Na 처리하기

# Na값 대체하기 (최소값, 평균, 최대값,...)

age_min = df["나이"].min()

df["나이"] = df["나이"].fillna(value=age_min)


# Na값 제거하기

df=df.dropna(axis=0)



예3) 유용한 함수

# unique: 특정열을 중복없는 열로 만들어줌


# isin : 특정값 포함여부에 따른 Boolean 생성


# sort_index: 인덱스기반 정렬

df.sort_index(axis=0, ascending=False, by="키") # ascending=False 내림차순으로 정렬, by: 특정 열을 기준


# duplicated : 중복행 조회



추가)


pandas 데이터 타입은 총 3가지로


위에서 다룬


Series, DataFrame 이외에도


Panel(판넬)이라는 데이터 타입도 존재합니다. ( 단, Deprecated since version 0.20.0 )



오늘은 여기까지~


pandas가 손에 익으면 SQL보다 편하다네요~


여기서는 다루지 않았지만 pandas를 이용하여 다양한 방법으로 데이터를 로드할 수 있답니다!


csv, excel 등의 파일에서 데이터를 로드하는 부분은 제 이전의 포스팅을 보시면 굉장히 자주 등장합니다!



참고) numpy와 matplotlib은 이전 포스팅에서 다뤘답니다!


딥러닝에 필요한 파이썬 기본문법 | numpy & matplotlib



"백문이 불여일타!!"

반응형