--- layout: post title: "Simpson's Paradox" math: true published: yes --- Một ví dụ về Nghịch lý Simpson là số liệu về UC Berkeley Graduate Admission[^1]. ## Bài toán số học: Dữ liệu về số hồ sơ được chấp nhận vào học và số hồ sơ bị từ chối tại trường UC Berkeley được cho như sau: ```{r label="overview"} ucb <- UCBAdmissions apply(ucb, c(1,2), sum) ``` Đã có một vụ kiện do nghi vấn có sự phân biệt đối xử với phụ nữ với lí do tỉ lệ chấp nhận hồ sơ trên tổng số hồ sơ đăng ký đối với nam và nữ lần lượt là 44% và 30%. ```{r label="by gender"} apply(ucb, 2, function(x) sum(x[1,]) / sum(x[1:12]) * 100) ``` Tuy nhiên nghi vấn này đã bị bác bỏ khi đưa thêm biến số "Department" vào phân tích. Tỉ lệ chấp nhận hồ sơ tính theo khoa đối với nam và nữ bây giờ là: ```{r label="by dept"} apply(ucb, 3, function(x) c(Male=x[1] / sum(x[1:2]), Female=x[3] / sum(x[3:4]))) ``` Dễ thấy chỉ có 2/6 khoa trong trường (khoa C và khoa E) là có tỉ lệ chấp nhận nữ ít hơn nam. Điều này có thể dễ dàng lý giải qua số hồ sơ đăng ký vào từng khoa như sau: ```{r} apply(ucb, c(2,3), sum) ``` Lý giải nôm na, nghịch lý Simpson thực ra là nghịch lý số học đơn giản: Có $$a/b < c/d$$ và $$e/f < g/h$$ nhưng lại có: $$(a+e)/(b+f) > (c+g)/(d+h)$$ Chẳng hạn, ta có $$1/10 = 100/1000 < 100/910$$ và $$700/1000 = 70/100 < 71/100$$ nhưng: $$(1+700)/(10+1000)=701/1010 > 171/1010 = (100+71)/(910+100)$$ Trong ví dụ này, mặc dù theo hầu hết các khoa, tỉ lệ nhận hồ sơ của phụ nữ lớn hơn nam giới, nhưng tổng cộng toàn trường thì xu hướng đã đảo ngược. ## Bài toán thống kê: Chúng ta xét tiếp ví dụ trên với đao to búa lớn hơn: Phân tích "log-linear". Ta áp dụng mô hình gồm tất cả các quan hệ 2 chiều vào dữ liệu ở trên như sau: ```{r} llm <- loglin(ucb, list(1:2, c(1,3), 2:3), param=T) llm$param ``` Ảnh hưởng cơ sở của giới tính là $\pm 0.3287569$, tương đối nhỏ so với ảnh hưởng cơ sở của một số khoa. Chứng tỏ rằng một số khoa thu hút nhiều hồ sơ đăng ký, đáng chú ý như khoa C, trong lúc một số khoa khác như F thu hút ít hồ sơ hơn. Điều này cho thấy cần phải đưa biến số Dept vào phân tích. Đối với các mối quan hệ 2 chiều, xem xét ảnh hưởng giữa Admit và Dept. Số hồ sơ đăng ký Admit có ảnh hưởng mạnh theo chiều thuận (+) với khoa A, B, ảnh hưởng nhỏ với khoa C, D và ảnh hưởng nghịch từ trung bình đến mạnh đối với các khoa E, F. Nói cách khác, các khoa A, B rất dễ xin vào trong lúc 2 khoa E, F thì đặc biệt khó. Xem xét ảnh hưởng giữa Gender và Dept, ta thấy được những Khoa mà mỗi Giới đăng kí vào. Nam giới có vẻ như rất thích đăng ký vào khoa A, B, trong lúc đó nữ giới thích khoa C, D, E, F. Nói cách khác, nam giới thường đăng ký vào khoa dễ trong lúc nữ giới lại thích những khoa khó hơn! Chả trách tổng cộng lại tỉ lệ nữ được nhận vào học lại thấp hơn nam (!). **Kết luận:** Nói chung, khả năng được nhận vào học của nữ giới là nhỉnh hơn nam giới. [^1]: