Skip to content
  • Tiếng Việt
  • English

Causal Inference in Data Science 

Chúng ta thường nghe mọi người truyền tai nhau rằng hút thuốc lá gây ung thư phổi. Điều này có thật sự đúng? Bên cạnh việc hút thuốc lá còn có các yếu tố khác (confounders) như độ tuổi, giới tính, môi trường sinh hoạt,… có thể tác động gây bệnh ung thư phổi. Đây là một ví dụ điển hình của Suy luận nhân quả (Causal Inference).

Suy luận nhân quả trong thống kê thường bị nhầm lẫn với phân tích dự đoán trong Học máy, khoa học máy tính do có những điểm chung về mặt kỹ thuật, từ PCA, SVM cho tới mạng Neural network. Sự khác biệt căn bản của 2 lĩnh vực này không nằm ở trong phương pháp, mà nằm ở mục đích của việc sử dụng dữ liệu. Trong khi thống kê tập trung chủ yếu vào mặt suy luận, học máy tập trung vào mặt dự đoán. Và Khoa học dữ liệu, một lĩnh vực mới nổi được hình thành trong sự giao thoa giữa hai lĩnh vực ấy. Chúng ta có thể quá quen thuộc ứng dụng của Học máy trong Khoa học dữ liệu. Vậy còn suy luận nhân quả có vai trò như thế nào trong lĩnh vực này ?

Trước tiên chúng ta cần phân biệt giữa hai khái niệm: Suy luận ( Inference) và  dự đoán (Prediction). Suy luận là quá trình tìm hiểu các yếu tố và cơ chế đằng sau dữ liệu, hiện tượng được quan sát và tổng quát hóa chúng. Trong khi đó, Dự đoán tập trung vào việc xác định xem hiện tượng gì sẽ xảy ra đối với một điểm dữ liệu mới. Một ví dụ cụ thể, khi chúng ta sử dụng thuật toán học máy Random Forest để dự đoán tiến triển bệnh tiểu đường dựa vào các chỉ số sinh hóa, kết quả về tiến triển bệnh thu được từ mô hình được xem là một dự đoán. Mặt khác, việc xác định những chỉ số nào là quan trọng, ảnh hưởng nhất đến tiến triển bệnh, bằng cách gọi hàm feature_importance, có thể được xem là một phép suy luận nhân quả. Nhìn chung, khi số lượng đặc trưng ngày càng tăng, độ chính xác của mô hình ngày càng được cải thiện, tuy nhiên việc suy luận về ảnh hưởng của từng đặc trưng lên kết quả quan tâm lại trở nên rất thách thức bởi các vấn đề phát sinh như dữ liệu nhiều chiều (high dimensionality) hay tương tác giữa các yếu tố (interaction effect).

Suy luận nhân quả định hướng cho chúng ta trong các quyết định can thiệp hay kiểm soát những gì đang diễn ra trong thực tế. Trong nhiều trường hợp, việc can thiệp và kiểm soát là giá trị tiền năng nhất mà Khoa học dữ liệu có thể mang lại.    Đặc biệt trong các nghiên cứu về y sinh, chúng ta không chỉ muốn dự đoán thời gian sống của bệnh nhân khi mắc một căn bệnh dựa trên tình trạng hóa sinh, mà còn cần đưa ra các liệu pháp can thiệp có thể ít nhất kéo dài thời gian đó. Việc dự đoán, dù cho có độ chính xác rất cao, cũng sẽ gần như vô nghĩa nếu chúng ta không suy luận ra được những cơ chế nào ảnh hưởng đến biến đầu ra. Do đó đòi hỏi cần làm rõ mối quan hệ giữa yếu tố được quan tâm với các yếu tố hiện hữu lẫn tiềm tàng, từ đó chọn những can thiệp phù hợp. Không dễ để thực hiện các phân tích về suy luận nhân quả và đòi hỏi cần nhiều thời gian, chi phí, con người để đưa ra được kết quả ý nghĩa sau cùng.

Trong thực tiễn, việc áp dụng suy luận nhân quả hay phân tích dự đoán phụ thuộc vào yêu cầu công việc và mục đích sử dụng của dữ liệu. Trong môi trường mang yếu tố kinh doanh và kỹ thuật, dự đoán thường được sử dụng phổ biến hơn, từ dự đoán hành vi người dùng, dự đoán giá cả, đến phân khúc khách hàng, phát hiện gian lận, … khi việc can thiệp để thay đổi kết quả hầu như không quan trọng bằng việc phân tích kết quả đó là gì. Ngược lại, ở các môi trường nghiên cứu như khoa học, y tế và xã hội, việc can thiệp và tác động làm thay đổi kết quả đầu ra thường được chú trọng hơn rất nhiều nhằm loại bỏ và giảm thiểu đi các yếu tố tiêu cực. Do đó có thể thấy suy luận nhân quả có vai trò quan trọng, không chỉ trong các lĩnh vực ứng dụng Khoa học dữ liệu, mà xa hơn là mang lại sự ổn định và phát triển cho con người và xã hội.

Vậy nếu được làm việc trong lĩnh vực Khoa học dữ liệu, bạn sẽ yêu thích công việc nào hơn?

Tài liệu tham khảo:

1. Linh Nghiem, Khoa học dữ liệu: Suy luận hay dự đoán?: https://linhnghiem.org/2019/11/03/khoa-hoc-du-lieu-suy-luan-hay-du-doan/?fbclid=IwAR3viwLdBeq8GNwJ4-0eDvGRasZ2uy3o2j6RgHuDk8FeQwgBHyYPDsXcwnU

2. Causal Inference for The Brave and True: https://matheusfacure.github.io/python-causality-handbook/landing-page.html?fbclid=IwAR1mpqr0iZdXJQ-EBlHKH25zaYssB_J5lAt51RVZniwgMRApanW7cS5og4s

Mọi thông tin chi tiết xem tại: https://www.facebook.com/dsociety.uit.ise/posts/pfbid0Nzbs8pLFfVCHDwEfgg5GicZCBs6WfgHJkZS9ozvpcBJgeiesej3ATpRhQTwNqUhYl

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin