# 快速查看整体信息
上一章讲到了控制DataFrame显示的一些参数，本章则具体讲解一下如何获得对DataFrame的整体认知。

In [1]:
!cd

E:\ML\实战\pandas实用教程 - 副本


In [2]:
import numpy as np
import pandas as pd

# 1. `.info()`
这是DataFrame才可用的API，快捷查看多种信息：总行数和列数、每列元素类型和non-NaN的个数，总内存。
#### `DataFrame.info(verbose=None, memory_usage=True, null_counts=True)`
- verbose：True or False，字面意思是冗长的，也就说如何DataFrame有很多列，是否显示所有列的信息，如果为否，那么会省略一部分；
- memory_usage：True or False，默认为True，是否查看DataFrame的内存使用情况；
- null_counts：True or False，默认为True，是否统计NaN值的个数。

In [3]:
df = pd.DataFrame( columns = range(0,100))
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99


In [4]:
df.info()  # 直接默认设置即可

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 100 columns):
0     0 non-null object
1     0 non-null object
2     0 non-null object
3     0 non-null object
4     0 non-null object
5     0 non-null object
6     0 non-null object
7     0 non-null object
8     0 non-null object
9     0 non-null object
10    0 non-null object
11    0 non-null object
12    0 non-null object
13    0 non-null object
14    0 non-null object
15    0 non-null object
16    0 non-null object
17    0 non-null object
18    0 non-null object
19    0 non-null object
20    0 non-null object
21    0 non-null object
22    0 non-null object
23    0 non-null object
24    0 non-null object
25    0 non-null object
26    0 non-null object
27    0 non-null object
28    0 non-null object
29    0 non-null object
30    0 non-null object
31    0 non-null object
32    0 non-null object
33    0 non-null object
34    0 non-null object
35    0 non-null object
36    0 non-null object
37    0 non-null object

---
# 2. `.ndim, .shape, .size`
查看维数，形状，元素个数。

In [29]:
df = pd.DataFrame( [[np.nan, 2],[3,np.nan]], columns = ['A','B'])
df

Unnamed: 0,A,B
0,,2.0
1,3.0,


In [30]:
df.ndim  # 返回维度数，Series一维，DataFrame两维，平时很少用到，不过有时会在循环中用到

2

In [31]:
df.shape  # (行数，列数)

(2, 2)

In [32]:
df.size   # 元素个数，rows×cols

4

---
# 3. `.head(), .tail()`
默认分别查看头5行和后5行。

#### `Series/DataFrame.head(n=5)`
#### `Series/DataFrame.tail(n=5)`

In [9]:
s = pd.Series( range(0,5))
s

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [10]:
s.head(3)

0    0
1    1
2    2
dtype: int32

In [11]:
s.tail(3)

2    2
3    3
4    4
dtype: int32

---
# 4. `.memory_usage()`
比info中内存显示更可控一些，单位是**字节**。
#### `Series/DataFrame.memory_usage(index=True, deep=False)`
- index：是否显示索引占用的内存，毫无疑问索引也占用内存；
- deep：是否显示object类型的列消耗的系统资源，由于pandas中object元素只是一个引用，我估计这个deep是指显示真实的内存占用。

In [65]:
df.memory_usage(deep = False)  # Index即索引占用内存

Index      80
numeric    24
object     24
dtype: int64

In [68]:
df.memory_usage(deep = True)  # object 型占用的内存变大

Index       80
numeric     24
object     186
dtype: int64

---
# 5. `.describe()`
快速查看每一列的统计信息，默认排除所有NaN元素。
#### `DataFrame.describe( include= [np.number])`
- include：'all'或者[np.number 或 np.object]。numberic只对元素属性为数值的列做数值统计，object只对元素属性为object的列做类字符串统计。

In [49]:
df = pd.DataFrame( [[1,'a'],[2,'b'],[1,'b']], columns = ['numeric','object'])
df

Unnamed: 0,numeric,object
0,1,a
1,2,b
2,1,b


In [50]:
df.dtypes

numeric     int64
object     object
dtype: object

In [51]:
df.describe()  # 默认只对数值列进行统计 

Unnamed: 0,numeric
count,3.0
mean,1.333333
std,0.57735
min,1.0
25%,1.0
50%,1.0
75%,1.5
max,2.0


In [56]:
df.describe( include=[np.object]) # 只对object型列进行统计，类别统计方式，只统计这四种

Unnamed: 0,object
count,3
unique,2
top,b
freq,2


In [57]:
df.describe( include = 'all')  # 数值序列和object序列共同统计的信息只有count: non-NaN元素个数

Unnamed: 0,numeric,object
count,3.0,3
unique,,2
top,,b
freq,,2
mean,1.333333,
std,0.57735,
min,1.0,
25%,1.0,
50%,1.0,
75%,1.5,
