# numpy, pandas 기초

* 싸이그래머 : 생물심리Py
* 발표자 : 김무성    

# 차례

* 추천 사이트
* 추천 예제
* NumPy 기초 [1,2, 3]
* pandas 기초 [1]

# 추천 사이트

* NumPy 공식 페이지 - http://www.numpy.org/
* pandas 공식 페이지 - http://pandas.pydata.org/
* 선형대수(코세라 강좌 coding the matrix의 결과물) - http://codingthematrix.com/
* 선형대수 소개 ppt - http://www.fil.ion.ucl.ac.uk/spm/doc/mfd/2010/page1/LinearAlgebra.ppt
* 선형대수 소개 pdf - http://www.win.tue.nl/~nikhil/courses/2DI75/recap-slides.pdf

# 추천 예제

* pandas를 이용한 아파치 로그 분석 - http://nbviewer.ipython.org/github/koldunovn/nk_public_notebooks/blob/master/Apache_log.ipynb
* NumPy를 이용한 PCA 예제 - http://glowingpython.blogspot.kr/2011/07/principal-component-analysis-with-numpy.html
* 전국 시군구 버거지수 - http://openlook.org/wp/does-lotteria-locate-different/    

# NumPy 기초

* NumPy란?
* NumPy ndarray : 다차원 배열 객체
* ndarray의 자료형
* NumPy 기본 연산

## NumPy란?

Numercial Python의 줄임말로 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지다. 다음과 같은 기능을 제공한다.

* 빠르고 메모리를 효율적으로 사용하며 벡터 산술연산과 세련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarray
* 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
* 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
* 선형대수, 난수 발생기, 푸리에 변환 기능
* C, C++, 포트란으로 쓰여진 코드를 통합하는 도구

대부분의 데이터 분석 애플리케이션에서 중요하게 사용되는 기능은 다음과 같다

* 백터 배열상에서 데이터 개조, 정제, 부분 집합, 필터링, 변형, 다른 종류 연산의 빠른 수행
* 정렬, 유일 원소 찾기, 집합연산 같은 일반적인 배열 처리 알고리즘
* 통계의 효과적인 표현과 데이터의 수집/요약
* 다른 종류의 데이터 묶음을 병합하고 엮기 위한 데이터 정렬과 데이터 간의 관계 조작
* if-elif-else를 포함하는 반복문 대신 사용할 수 있는 조건절을 표현할 수 있는 배열 표현
* 데이터 그룹 전체에 적용할 수 있는 수집, 변형, 함수 적용 같은 데이터 처리.

## NumPy ndarray : 다차원 배열 객체

* N차원의 배열 객체
* 같은 종류의 데이터만 담을 수 있다(원소는 같은 자료형이여야 한다)
* 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 dtype이라는 객체를 가지고 있다.

* ndarray 특징
* 리스트와 ndarray와의 비교
* ndarray 생성

### ndarray 특징

<img src='./fig.12.1.png'/>

In [2]:
import numpy as np

data = np.array([[0.9526, -0.246, -0.8856],
                 [0.5639, 0.2379, 0.9104]])

In [19]:
data * 10

array([[ 9.526, -2.46 , -8.856],
       [ 5.639,  2.379,  9.104]])

In [20]:
data + data

array([[ 1.9052, -0.492 , -1.7712],
       [ 1.1278,  0.4758,  1.8208]])

In [21]:
data.shape

(2, 3)

In [22]:
data.dtype

dtype('float64')

### 리스트와 ndarray와의 비교

In [1]:
import numpy as np

# 10^7개의 원소를 갖는 배열 생성 
arr = np.arange(1e7)

# ndarray를 리스트로 변환 
larr = arr.tolist()

# 리스트는 브로드캐스트가 불가능하다
# 그래서 ndarray의 브로드캐스트를 흉내 내는 함수를 제작
def list_times(alist, scalar): 
    for i, val in enumerate(alist):
        alist[i] = val * scalar 
    
    return alist

In [12]:
%timeit arr * 1.1

10 loops, best of 3: 118 ms per loop


In [13]:
%timeit list_times(larr, 1.1)

1 loops, best of 3: 1.13 s per loop


In [16]:
# 약 9.6배 빠르다(실행 환경마다 다를 수 있음)
1.13 * 1000 / 118.0

9.576271186440678

### ndarray 생성

In [24]:
alist = [1, 2, 3]
arr = np.array(alist)
arr

array([1, 2, 3])

In [25]:
# 0으로 초기화된 5개의 원소를 갖는 배열을 생성 
arr = np.zeros(5)
arr

array([ 0.,  0.,  0.,  0.,  0.])

In [26]:
# 0부터 99까지를 원소로 하는 배열
arr = np.arange(100)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])

In [27]:
# 10부터 99
arr = np.arange(10,100)
arr

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60,
       61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
       78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,
       95, 96, 97, 98, 99])

In [28]:
# 0부터 1까지 100단계로
arr = np.linspace(0, 1, 100)
arr

array([ 0.        ,  0.01010101,  0.02020202,  0.03030303,  0.04040404,
        0.05050505,  0.06060606,  0.07070707,  0.08080808,  0.09090909,
        0.1010101 ,  0.11111111,  0.12121212,  0.13131313,  0.14141414,
        0.15151515,  0.16161616,  0.17171717,  0.18181818,  0.19191919,
        0.2020202 ,  0.21212121,  0.22222222,  0.23232323,  0.24242424,
        0.25252525,  0.26262626,  0.27272727,  0.28282828,  0.29292929,
        0.3030303 ,  0.31313131,  0.32323232,  0.33333333,  0.34343434,
        0.35353535,  0.36363636,  0.37373737,  0.38383838,  0.39393939,
        0.4040404 ,  0.41414141,  0.42424242,  0.43434343,  0.44444444,
        0.45454545,  0.46464646,  0.47474747,  0.48484848,  0.49494949,
        0.50505051,  0.51515152,  0.52525253,  0.53535354,  0.54545455,
        0.55555556,  0.56565657,  0.57575758,  0.58585859,  0.5959596 ,
        0.60606061,  0.61616162,  0.62626263,  0.63636364,  0.64646465,
        0.65656566,  0.66666667,  0.67676768,  0.68686869,  0.69

In [29]:
# 로그 스케일로 1부터 10까지 100단계로
arr = np.logspace(0, 1, 100, base=10.0)
arr

array([  1.        ,   1.02353102,   1.04761575,   1.07226722,
         1.09749877,   1.12332403,   1.149757  ,   1.17681195,
         1.20450354,   1.23284674,   1.26185688,   1.29154967,
         1.32194115,   1.35304777,   1.38488637,   1.41747416,
         1.45082878,   1.48496826,   1.51991108,   1.55567614,
         1.59228279,   1.62975083,   1.66810054,   1.70735265,
         1.7475284 ,   1.78864953,   1.83073828,   1.87381742,
         1.91791026,   1.96304065,   2.009233  ,   2.05651231,
         2.10490414,   2.15443469,   2.20513074,   2.25701972,
         2.3101297 ,   2.36448941,   2.42012826,   2.47707636,
         2.53536449,   2.59502421,   2.65608778,   2.71858824,
         2.7825594 ,   2.84803587,   2.91505306,   2.98364724,
         3.05385551,   3.12571585,   3.19926714,   3.27454916,
         3.35160265,   3.43046929,   3.51119173,   3.59381366,
         3.67837977,   3.76493581,   3.85352859,   3.94420606,
         4.03701726,   4.1320124 ,   4.22924287,   4.32

In [31]:
# 5x5 형식의, 0으로 채워진 배열(이미지) 만들기 
image = np.zeros((5,5))
image

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [33]:
# 5x5x5 형식의, 1로 채워진 배열을 만든다.
# astype() 메서드는 원소들을 정수로 설정한다. 
cube = np.zeros((5,5,5)).astype(int) + 1
cube

array([[[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]],

       [[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]]])

In [34]:
# 16비트 부동소수점으로
cube = np.ones((5, 5, 5)).astype(np.float16)
cube

array([[[ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.]],

       [[ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.]]], dtype=float16)

## ndarray의 자료형

In [124]:
arr = np.ones((10,5))
arr

array([[ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.]])

In [125]:
# 배열의 형태를 나타내는 튜플
arr.shape

(10, 5)

In [127]:
# 자료형
arr.dtype

dtype('float64')

In [130]:
# 하나의 원소에서 다음 원소까지의 너비를 표현한 정수를 담고 있는 stride 튜플
# 스트라이드 값은 배열을 복사하지 않고 뷰를 생성하기 위한 필수 값으로 사용된다.
arr.strides

(40, 8)

In [3]:
# dtype은 ndarray가 특정 데이터를 메모리에서 해석하기 위해 필요한 정보를 담고 있는 특수한 객체

arr1 = np.array([1,2,3], dtype=np.float64)
print arr1
print arr1.dtype

[ 1.  2.  3.]
float64


In [4]:
arr2 = np.array([1,2,3], dtype=np.int32)
print arr2
print arr2.dtype

[1 2 3]
int32


In [5]:
# astype 메서드로 배열의 dtype을 다른 형으로 명시적 변경 가능.
arr = np.array([1, 2, 3, 4, 5])
print arr.dtype

float_arr = arr.astype(np.float64)
print float_arr.dtype

int64
float64


In [7]:
# 숫자 형식의 문자열도 astype으로 숫자로 변경가능.
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
print numeric_strings

numbers = numeric_strings.astype(float)
print numbers

['1.25' '-9.6' '42']
[  1.25  -9.6   42.  ]


## NumPy 기본 연산

* 배열과 스칼라 연산
* 색인과 슬라이싱 기초
* 슬라이스 색인
* 배열 전치와 축 바꾸기
* 유니버셜 함수
* 배열 데이터 조작, 특수처리
* 배열 재형성
* 브로드캐스팅
* 배열 이어붙이고 나누기, 반복
* 선형대수

### 배열과 스칼라 연산

In [9]:
arr = np.array([[1., 2., 3.],
                   [4., 5., 6.]])
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [10]:
# 더하기
arr + arr

array([[  2.,   4.,   6.],
       [  8.,  10.,  12.]])

In [11]:
# 빼기
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [12]:
# 곱하기 (개별 원소 곱)
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [13]:
# 스칼라에 대한 산술 연산은 각 요소로 전달
1 / arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [15]:
arr * 0.5

array([[ 0.5,  1. ,  1.5],
       [ 2. ,  2.5,  3. ]])

In [14]:
arr ** 0.5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

### 색인과 슬라이싱 기초

* 슬라이싱 기초
* 다차원 배열

#### 슬라이싱 기초

In [25]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [26]:
arr[5]

5

In [27]:
arr[5:8]

array([5, 6, 7])

In [28]:
# 브로드캐스팅. 배열 슬라이스에 스칼라 값을 대입하면, 그 범위에 값이 전파된다.
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [29]:
# 배열 슬라이스는 값을 복사하는게 아니다. 그러므로 배열 슬라이스의 값을 바꿔도 원본에 반영된다.
arr_slice = arr[5:8]  # arr_slice로 arr[5:8]의 값이 복사된게 아님. view의 역할을 할뿐.

print arr

arr_slice[1] = 12345

print arr

arr_slice[:] = 64

print arr

[ 0  1  2  3  4 12 12 12  8  9]
[    0     1     2     3     4    12 12345    12     8     9]
[ 0  1  2  3  4 64 64 64  8  9]


In [31]:
# 뷰 대신에 슬라이스의 복사본을 얻고 싶다면.
arr_slice_copy = arr[5:8].copy()
print arr_slice_copy
print arr

arr_slice_copy[:] = 8
print arr_slice_copy
print arr

[64 64 64]
[ 0  1  2  3  4 64 64 64  8  9]
[8 8 8]
[ 0  1  2  3  4 64 64 64  8  9]


#### 다차원 배열

In [32]:
# 2차원 배열
arr2d = np.array([[1, 2, 3],
                        [4, 5, 6],
                        [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

0,0 | 0,1 | 0,2
------|--------|--------
1,0 | 1,1 | 1,2
2,0 | 2,1 | 2,2

In [35]:
# 특정 행에 접근
arr2d[2]

array([7, 8, 9])

In [36]:
# 특정 원소에 접근
arr2d[0][2]

3

In [38]:
# 위의 것은 다음과 같이 쓸 수 있다.
arr2d[0,2]

3

In [43]:
# 특정 열 추출
arr2d[:,0]

array([1, 4, 7])

In [46]:
arr2d[:][2]

array([7, 8, 9])

In [61]:
# 3차원 배열
arr3d = np.array([
                        [[1, 2, 3],
                         [4, 5, 6]],
                        [[7, 8, 9],
                         [10, 11, 12]]
                      ])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

0 |  |  | 
------|--------|--------
0,0 | 0,1 | 0,2
1,0 | 1,1 | 1,2
1 |  |  
0,0 | 0,1 | 0,2
1,0 | 1,1 | 1,2

In [48]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [49]:
arr3d[1]

array([[ 7,  8,  9],
       [10, 11, 12]])

In [51]:
arr3d[0][1]

array([4, 5, 6])

In [50]:
arr3d[0, 1]

array([4, 5, 6])

In [52]:
arr3d[1][1][2]

12

In [53]:
arr3d[1, 1, 2]

12

In [54]:
arr3d[:, 1, 2]

array([ 6, 12])

#### 슬라이스에 값 넣기

In [62]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [63]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [64]:
old_values = arr3d[0].copy() # 원래의 값을 보존하기 위해 복사.

arr3d[0] = 42 # 슬라이스에 스칼라 대입
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [65]:
arr3d[0] = old_values # 슬라이스에 배열 대입 가능(차원이 맞아야 함)
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [66]:
arr3d[0] = np.array([1,2])

ValueError: could not broadcast input array from shape (2) into shape (2,3)

### 배열 전치와 축 바꾸기

In [74]:
arr = np.arange(15)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [76]:
arr = arr.reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [77]:
# 전치(transpose)
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [78]:
arr.transpose()

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [79]:
# 행렬 내적 
arr = np.random.randn(6,3)
arr

array([[-0.2076657 , -1.12094658,  0.61984314],
       [ 0.94419704, -0.64767335,  0.8012834 ],
       [ 0.53443576, -0.26279777, -1.34619569],
       [-0.19775452, -0.8455633 , -0.3602344 ],
       [-0.8157946 ,  0.33324178, -0.18393122],
       [-1.38288628, -0.6405826 , -0.85682243]])

In [81]:
np.dot(arr.T, arr)

array([[ 3.83725683,  0.26201237,  1.31457021],
       [ 0.26201237,  2.98143811, -0.06783077],
       [ 1.31457021, -0.06783077,  3.73624765]])

### 유니버설 함수

In [83]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [84]:
# 단항 유니버설 함수
np.sqrt(arr)

array([ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
        2.23606798,  2.44948974,  2.64575131,  2.82842712,  3.        ])

In [85]:
np.exp(arr)

array([  1.00000000e+00,   2.71828183e+00,   7.38905610e+00,
         2.00855369e+01,   5.45981500e+01,   1.48413159e+02,
         4.03428793e+02,   1.09663316e+03,   2.98095799e+03,
         8.10308393e+03])

In [86]:
# 다항 유니버설 함수 - 인자 두 개를 취해서 단일 배열을 반환하는 함수
x = randn(8)
print x
y = randn(8)
print y

np.maximum(x, y)  # element-wise maximum

[ 0.0967883  -1.67521403  1.64327249  1.95540243  0.58640696 -0.54404345
  0.51192415  0.59918442]
[ 0.55136643 -1.62589557 -0.75345847 -0.38791841 -1.22037736 -1.11515184
  0.55690104  0.11316851]


array([ 0.55136643, -1.62589557,  1.64327249,  1.95540243,  0.58640696,
       -0.54404345,  0.55690104,  0.59918442])

### 배열 데이터 조작, 특수처리

* 조건절 표현
* 수학 메서드와 통계 메서드
* 불리언 배열을 위한 메서드
* 정렬
* 집합 함수

#### 조건절 표현

In [91]:
# 배열연산 조건절 표현하기
arr = np.random.randn(4, 4)
arr

array([[-0.80226147,  1.67485488,  0.13617279,  1.33824164],
       [-0.76138352,  0.18015578, -0.79917102,  0.69047915],
       [-0.23689069,  1.62039386, -0.56544592,  0.18518925],
       [-0.50333841, -0.2041948 , -0.35954173,  1.87880381]])

In [88]:
np.where( arr > 0, 2, -2)  # 양수는 모두 2로, 음수는 모두 -1로 변경

array([[ 2,  2, -2, -2],
       [ 2,  2,  2,  2],
       [-2, -2,  2, -2],
       [-2, -2, -2,  2]])

In [90]:
np.where( arr > 0, 2, arr) # 양수는 2로, 음수는 원래 값 그대로

array([[ 2.        ,  2.        , -1.81220706, -0.05290094],
       [ 2.        ,  2.        ,  2.        ,  2.        ],
       [-0.08778373, -1.31906435,  2.        , -0.18864948],
       [-1.01932823, -0.69414154, -1.32050374,  2.        ]])

#### 수학 메서드와 통계 메서드

In [94]:
# randn (normally-distributed data)
arr = np.random.randn(5, 4)
arr

array([[-0.18872156, -0.00937502,  1.02528247, -0.2336773 ],
       [ 0.13697903,  0.40498426, -0.02145654, -0.53837257],
       [ 0.02580721,  0.22526115, -0.76233053,  0.26992687],
       [ 0.07412079,  1.57429726, -0.19075057,  0.38820259],
       [-0.10767344, -1.7242222 ,  0.716758  , -1.5607776 ]])

In [95]:
arr.mean()

-0.024786884534673759

In [96]:
np.mean(arr)

-0.024786884534673759

In [97]:
arr.sum()

-0.49573769069347517

In [99]:
# mean이나 sum같은 함수는 axis 인자를 받아, 해당 axis에 대한 통계를 계산하고 한 차수 낮은 배열을 반환한다.
arr.mean(axis=1)

array([ 0.14837715, -0.00446646, -0.06033383,  0.46146752, -0.66897881])

In [100]:
arr.sum(0)

array([-0.05948797,  0.47094545,  0.76750284, -1.67469801])

In [102]:
# cumsum과 cumprod 메서드는 중간 계산 값을 담고 있는 배열을 반환한다.
arr = np.array([
                      [0, 1, 2],
                      [3, 4, 5],
                      [6, 7, 8]
                    ])
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [103]:
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36])

In [104]:
arr.cumsum(0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]])

In [105]:
arr.cumprod(1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]])

#### 정렬

In [109]:
arr = np.random.randn(8)
arr

array([-0.74932004,  0.81202617, -0.94114978,  0.66775995, -0.21599847,
       -0.53131814,  1.18755295, -0.17303755])

In [111]:
arr.sort()
arr

array([-0.94114978, -0.74932004, -0.53131814, -0.21599847, -0.17303755,
        0.66775995,  0.81202617,  1.18755295])

In [112]:
arr = randn(5, 3)
arr

array([[-1.15729656,  0.53208771,  0.82451164],
       [ 1.00494958, -0.37859057,  0.64012556],
       [ 0.83376375, -1.45444792, -1.3117023 ],
       [-0.96079299,  1.48396206, -0.76299037],
       [-0.11370724, -0.56658628,  0.40526753]])

In [113]:
arr.sort(1)
arr

array([[-1.15729656,  0.53208771,  0.82451164],
       [-0.37859057,  0.64012556,  1.00494958],
       [-1.45444792, -1.3117023 ,  0.83376375],
       [-0.96079299, -0.76299037,  1.48396206],
       [-0.56658628, -0.11370724,  0.40526753]])

In [114]:
large_arr = randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))]

-1.662950929232514

#### 집합 함수

In [116]:
# 중복 제거 
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
print names

print np.unique(names)

['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']
['Bob' 'Joe' 'Will']


In [118]:
# 2개의 배열을 인자로 받아 첫 번째 배열의 각 원소가 두 번째 배열의 원소를 포함하는지를 나타내는 불리언 배열을 반환
values = np.array([6, 0, 0, 3, 2, 5, 6])
print values

print [2, 3, 6]
print np.in1d(values, [2, 3, 6])

[6 0 0 3 2 5 6]
[2, 3, 6]
[ True False False  True  True False  True]


### 배열 재형성

In [131]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [132]:
arr.reshape((4,2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [134]:
# 다차원 재형성도 가능
arr.reshape((4,2)).reshape((2,4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

### 배열 이어붙이고 나누기, 반복

* concatenate
* vstack, hstack

#### concatenate

In [143]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [144]:
arr2 = np.array([[7, 8, 9], [10, 11, 12]])
arr2

array([[ 7,  8,  9],
       [10, 11, 12]])

In [145]:
# axis에 맞춰 합친다 0=로우 우선, 1=컬럼 우선
np.concatenate([arr1, arr2], axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [146]:
np.concatenate([arr1, arr2], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

#### hstack, vstack

In [148]:
np.hstack((arr1, arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [149]:
np.vstack((arr1, arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

### 브로드캐스팅

* 브로드캐스팅은 다른 모양의 배열 간 산술연산을 어떻게 수행해야 하는지 설명한다.
* 특정 스칼라 값이나 배열 조각이 배열의 전체 원소로 전파(broadcat)된다.

In [3]:
# 배열과 스칼라 값 연산의 경우
import numpy as np
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [4]:
# 4의 곱 브로드캐스팅
arr + 4

array([4, 5, 6, 7, 8])

In [196]:
# 배열의 각 칼럼에서 칼럼의 평균 값을 빼기
arr = randn(4,3)
arr

array([[ 0.41949176, -0.40404443, -0.40992978],
       [-0.31286111,  1.24607613,  0.98488495],
       [ 0.32951646,  0.04936468,  1.65439179],
       [ 0.5054299 ,  1.63305808,  0.56269416]])

In [197]:
arr.mean(0)

array([ 0.23539425,  0.63111361,  0.69801028])

In [198]:
demeaned = arr - arr.mean(0)
demeaned

array([[ 0.1840975 , -1.03515804, -1.10794006],
       [-0.54825536,  0.61496251,  0.28687467],
       [ 0.09412221, -0.58174894,  0.95638151],
       [ 0.27003565,  1.00194446, -0.13531612]])

In [199]:
# 칼럼이 아니라 각 로우에서 평균 값 빼기
arr

array([[ 0.41949176, -0.40404443, -0.40992978],
       [-0.31286111,  1.24607613,  0.98488495],
       [ 0.32951646,  0.04936468,  1.65439179],
       [ 0.5054299 ,  1.63305808,  0.56269416]])

In [200]:
row_means = arr.mean(1)
row_means

array([-0.13149415,  0.63936665,  0.67775764,  0.90039404])

In [201]:
# 4 x 3 자료형에서 1x4 배열을 빼므로 차원이 맞지 않다.
arr - row_means

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [202]:
# 4 X 1 로 바꿔준다.
row_means.reshape((4,1))

array([[-0.13149415],
       [ 0.63936665],
       [ 0.67775764],
       [ 0.90039404]])

In [203]:
arr - row_means.reshape((4,1))

array([[ 0.55098591, -0.27255028, -0.27843563],
       [-0.95222776,  0.60670947,  0.34551829],
       [-0.34824118, -0.62839297,  0.97663415],
       [-0.39496415,  0.73266403, -0.33769989]])

### 행렬연산

In [1]:
# 행렬 덧셈, 뺄셈
A = np.array([[1,2,3],
              [4,5,6],
              [7,8,9]])
print A

B = np.array([[1,1,1],
              [1,1,1],
              [1,1,1]])
print B

print A + B

NameError: name 'np' is not defined

In [257]:
print A - B

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [258]:
# 행렬 곱

print A

# 스칼라 곱
print A*2

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]


In [261]:
print A

C = np.array([[2],[2],[2]])
print C

# 행렬곱
print np.dot(A,C)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[2]
 [2]
 [2]]
[[12]
 [30]
 [48]]


# pandas 기초

* pandas란 ?
* pandas 자료 구조
* pandas 기본 기능

## pandas란 ?

* NumPy 기반으로 개발된, 고수준 자료 구조를 제공하는 데이터 분석 패키지
* pandas 연관 단어 : NumPy, SciPy, matplotlib, DataFrame, 시계열 분석    

#### pandas 창시자가 원했던 기능

* 자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조
* 잘못 정렬된 데이터에 의한 일반적인 오류를 예방하고 
* 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있는 기능
* 통합된 시계열 기능
* 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
* 산술연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야 함
* 누락된 데이터를 유연하게 처리할 수 있는 기능
* SQL 같은 일반 데이터베이스처럼 합치고 관계연산을 수행하는 기능

## pandas 자료 구조

* Series
* DataFrame

### Series

* 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조(어떤 NumPy 자료형이라도 담을 수 있다)
* 파이썬의 사전형과 비슷하다(정렬된 사전형이라고 보면 된다)
* 파이썬 사전형 객체에서 생성할 수 있다.

In [312]:
from pandas import Series
import pandas as pd

In [327]:
obj = Series([4, 7, -5, 3])

# 결과의 왼쪽이 색인(index), 오른쪽이 값
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [315]:
obj.values

array([ 4,  7, -5,  3])

In [316]:
obj.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [317]:
# 색인을 지정해서 생성할 수 있다.
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [318]:
obj2.index

Index([u'd', u'b', u'a', u'c'], dtype='object')

In [320]:
obj2[0]

4

In [321]:
# 색인을 이용해 접근
obj2['a']

-5

In [322]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [323]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [324]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [325]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [326]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [328]:
# 사전형 객체로부터 생성
sdata = {'Ohio': 35000,
         'Texas': 71000,
         'Oregon': 16000,
         'Utah': 5000}
sdata

{'Ohio': 35000, 'Oregon': 16000, 'Texas': 71000, 'Utah': 5000}

In [329]:
obj3 = Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [331]:
# 사전으로 형성된 객체에, 새 인덱스가 추가되면 값이  NaN으로 매핑된다.
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

In [332]:
# 누락값을 찾기 위해서 pandas의 함수를 사용한다.

# isnull 
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [333]:
# notnull
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [334]:
# Series의 메서드에도 있음.
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [335]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [339]:
# index 멤버객체에 리스트로 인덱스를 대입하면 인덱스 변경가능
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [340]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

* 표 같은 스프레드시트 형식의 자료 구조
* 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언) 담을 수 있다
* 로우와 컬럼 각각에 색인 존재
* 각 칼럼마다 Series 객체를 담고 있는 사전으로 생각하면 편하다
* R의 data.frame과 비슷

In [341]:
from pandas import DataFrame

In [345]:
# Series 객체를 담고 있는 사전으로 생성
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [344]:
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [346]:
# 순서를 정해서 생성
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [347]:
#  로우 인덱스도 함께 생성
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [349]:
frame2.columns

Index([u'year', u'state', u'pop', u'debt'], dtype='object')

In [350]:
# 컬럼 접근 방법 

# 사전 형식 표기법
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [351]:
#속성 형식으로
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [352]:
# 로우 접근 방법
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [353]:
# 값 넣기
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [355]:
# 배열도 대입가능
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [356]:
# 로우, 컬럼 변경

pop = {'Nevada': {2001: 2.4,
                  2002: 2.9},
       'Ohio': {2000: 1.5,
                2001: 1.7,
                2002: 3.6}}

frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [357]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


## pandas 기본 기능

* 하나의 로우 또는 칼럼 삭제
* 색인하기, 선택하기, 거르기

### 하나의 로우 또는 칼럼 삭제

In [365]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0
b    1
c    2
d    3
e    4
dtype: float64

In [366]:
new_obj = obj.drop('c')
new_obj

a    0
b    1
d    3
e    4
dtype: float64

In [367]:
obj.drop(['d', 'c'])

a    0
b    1
e    4
dtype: float64

In [368]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [369]:
# 로우 삭제
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [370]:
# 컬럼 삭제
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 색인하기, 선택하기, 거르기

In [371]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0
b    1
c    2
d    3
dtype: float64

In [372]:
obj['b']

1.0

In [373]:
obj[1]

1.0

In [374]:
obj[2:4]

c    2
d    3
dtype: float64

In [375]:
obj[['b', 'a', 'd']]

b    1
a    0
d    3
dtype: float64

In [376]:
obj[obj < 2]

a    0
b    1
dtype: float64

In [377]:
# 라벨 이름으로 슬라이싱하는 것은 시작점과 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다른 점
obj['b':'c']

b    1
c    2
dtype: float64

In [378]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [379]:
# 컬럼 선택
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [380]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [383]:
# 로우 선택
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [384]:
data.ix['Colorado']

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [385]:
data.ix['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [386]:
data.ix[['Colorado', 'Utah']]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11


In [387]:
data.ix[['Colorado', 'Utah'], ['two', 'three']]

Unnamed: 0,two,three
Colorado,5,6
Utah,9,10


<img src="./tbl.5.6.png">

## 참고자료 

 * [1] 파이썬 라이브러리를 활용한 데이터 분석 - http://www.hanbit.co.kr/book/look.html?isbn=978-89-6848-047-8
 * [2] 데이터/수치 분석을 위한 파이썬 라이브러리 SciPy와 NumPy -  http://www.hanbit.co.kr/ebook/look.html?isbn=9788968486135
 * [3] 선형대수 보강(바이오파이썬) - http://nbviewer.ipython.org/github/biopy/biopy.github.io/blob/master/notebook/Part3/Week4/spB_LinearAlgebra/linear.ipynb