판다스¶
판다스(pandas)는 파이썬 라이브러리로 데이터 처리, 가공 및 분석을 편리하게 한다. 판다스를 사용하기 위해서는 다음과 같이 라이브러리를 불러 들인다.
이 장에서는 판다스 기본 자료형인 시리즈와 데이터프레임 기초 사용법을 배운다. 각각의 자료형 만들기, 접근하기 등에 대해서 배운다.
In [1]: import pandas as pd
as pd
는 pandas
의 별칭으로 pd
를 사용한다는 뜻이다. 즉, 다음과 같이 사용한다.
In [2]: pd.DataFrame([1, 2, 3])
Out[2]:
0
0 1
1 2
2 3
판다스 자료형¶
판다스 자료형은 크게 시리즈(Series)와 데이터프레임(DataFrame)으로 이루어진다. 시리즈란 1차원 자료를 나타내기 위한 자료형이고 데이터프레임은 2차원 자료를 나타내기 위한 자료형이다. 특별히 시리즈는 시계열(Time Series) 자료를 나타내는데 유용하다.
시리즈(Series)¶
시리즈는 일차원 배열로 이루어진 연속적인 값들과 인덱스로 불리는 자료 라벨(label) 배열로 이루어진 객체이다. 파이썬 리스트로부터 간단한 시리즈를 다음과 같이 만들 수 있다.
In [3]: ser = pd.Series([1, 2, 3])
시리즈의 인덱스와 값은 다음과 같이 접근할 수 있다.
In [4]: ser.index
Out[4]: RangeIndex(start=0, stop=3, step=1)
In [5]: ser.values