In [1]:
import numpy as np
import pandas as pd
from scipy import stats

df_p = pd.io.html.read_html("http://baseballdata.jp/pds.html", header=0)
df_c = pd.io.html.read_html("http://baseballdata.jp/cds.html", header=0)
df = pd.concat([df_p[0],df_c[0]])
df

Unnamed: 0,選手名,球団,調子,打率,打点,本塁打,安打数,単打,2塁打,3塁打,...,企犠打,犠打,犠打成功率,犠飛,代打数,代打安打,代打率,併殺,失策,三振
0,1:秋山 翔吾,西,,.323,82,24,195,124,39,8,...,0,0,.---,1,0,0,.---,3,4,96
1,2:源田 壮亮,西,,.278,57,4,165,125,27,9,...,16,14,.875,6,0,0,.---,7,11,101
2,3:浅村 栄斗,西,,.310,127,32,175,116,27,0,...,0,0,.---,5,1,0,.000,18,12,105
3,4:上林 誠知,ソ,,.270,62,22,149,87,26,14,...,18,17,.944,3,1,0,.000,2,3,117
4,5:中村 奨吾,ロ,,.286,57,8,157,116,30,3,...,0,0,.---,5,0,0,.---,11,6,93
5,6:山川 穂高,西,,.281,124,47,152,80,24,1,...,0,0,.---,2,0,0,.---,5,14,138
6,7:中田 翔,日,,.265,106,25,143,86,32,0,...,0,0,.---,13,1,0,.000,24,3,81
7,8:藤岡 裕大,ロ,,.232,42,5,123,98,15,5,...,31,26,.839,1,0,0,.---,9,14,97
8,9:西川 遥輝,日,,.278,48,10,147,106,25,6,...,8,7,.875,2,0,0,.---,1,3,103
9,10:松田 宣浩,ソ,,.248,82,32,128,72,21,3,...,0,0,.---,3,0,0,.---,12,7,113


In [2]:
df.columns

Index(['選手名', '球団', '調子', '打率', '打点', '本塁打', '安打数', '単打', '2塁打', '3塁打',
       '最近5試合', '出塁率', '長打率', 'OPS', '得点圏打数', '得点圏安打', '得点圏打率', 'UC打数', 'UC安打',
       'UC率', 'UC本塁打', '試合数', '打席数', '打数', '得点', '四球', '死球', '企盗塁', '盗塁',
       '盗塁成功率', '企犠打', '犠打', '犠打成功率', '犠飛', '代打数', '代打安打', '代打率', '併殺', '失策',
       '三振'],
      dtype='object')

In [3]:
#途中に表れる見出しレコードを削除
df = df[df["選手名"]!="選手名"]

#打率・得点圏打率に関わらないカラムを削除
df = df[["選手名", "安打数","打数", "打率","得点圏安打","得点圏打数","得点圏打率"]]

#計算を行うために、データをint型にキャスト
df[["安打数","打数","得点圏安打","得点圏打数"]] = df[["安打数","打数","得点圏安打","得点圏打数"]].astype(int)

#選手名のナンバリング部分を削除
df["選手名"] = df["選手名"].str.extract("(.*):(.*)")[1]

#改めて裁番
df = df.reset_index(drop=True)

#ディスプレイに表示させる
df

Unnamed: 0,選手名,安打数,打数,打率,得点圏安打,得点圏打数,得点圏打率
0,秋山 翔吾,195,603,.323,41,128,.320
1,源田 壮亮,165,594,.278,43,150,.287
2,浅村 栄斗,175,565,.310,59,160,.369
3,上林 誠知,149,551,.270,27,103,.262
4,中村 奨吾,157,548,.286,33,134,.246
5,山川 穂高,152,541,.281,49,158,.310
6,中田 翔,143,540,.265,45,151,.298
7,藤岡 裕大,123,531,.232,35,134,.261
8,西川 遥輝,147,528,.278,33,120,.275
9,松田 宣浩,128,517,.248,34,127,.268


In [4]:
#選手ひとりひとりに対して、非得点圏・得点圏についてのフィッシャーの正確検定を行う
df["p-value"] = df.apply(lambda x: stats.fisher_exact(
    np.array([[x["打数"]-x["得点圏打数"], x["安打数"]-x["得点圏安打"]],
              [x["得点圏打数"],           x["得点圏安打"]]            ]))[1], axis=1)
df.head()

Unnamed: 0,選手名,安打数,打数,打率,得点圏安打,得点圏打数,得点圏打率,p-value
0,秋山 翔吾,195,603,0.323,41,128,0.32,1.0
1,源田 壮亮,165,594,0.278,43,150,0.287,0.840204
2,浅村 栄斗,175,565,0.31,59,160,0.369,0.184893
3,上林 誠知,149,551,0.27,27,103,0.262,1.0
4,中村 奨吾,157,548,0.286,33,134,0.246,0.396212


In [5]:
df.sort_values(by=["p-value"], ascending=True)

Unnamed: 0,選手名,安打数,打数,打率,得点圏安打,得点圏打数,得点圏打率,p-value
349,植田 海,37,197,.188,1,43,.023,0.004820
70,髙田 知季,25,133,.188,9,18,.500,0.016481
424,秋山 拓巳,5,29,.172,3,4,.750,0.047622
359,髙山 俊,22,128,.172,10,31,.323,0.066657
334,陽川 尚将,69,271,.255,28,79,.354,0.081337
400,武山 真吾,3,44,.068,2,7,.286,0.089547
99,枡田 慎太郎,11,62,.177,7,22,.318,0.100812
315,亀井 善行,107,422,.254,34,102,.333,0.109400
57,メヒア,45,212,.212,7,57,.123,0.130551
12,銀次,135,487,.277,43,124,.347,0.153726


In [6]:
#2018年のNPBトータル非得点圏打率
(df["安打数"].sum()-df["得点圏安打"].sum())/(df["打数"].sum()-df["得点圏打数"].sum())
                                               

0.2539667854003793

In [7]:
#2018年のNPBトータル得点圏打率
df["得点圏安打"].sum()/df["得点圏打数"].sum()

0.26467723984418473

In [8]:
#p値
stats.fisher_exact(
    np.array([[df["打数"].sum()-df["得点圏打数"].sum(), df["安打数"].sum()-df["得点圏安打"].sum()],
              [df["得点圏打数"].sum()                 , df["得点圏安打"].sum()]                   ]))[1]

0.05174914067715174