ข้อมูลมีความสัมพันธ์กัน ว่าแต่ข้อมูลมันสมเหตุสมผลจริงหรือ??

buyyakhoo
3 min readSep 17, 2023

--

“Correlation does not imply Causation” ประโยคนี้มาจาก Karl Pearson ซึ่งเป็นนักคณิตศาสตร์และนักชีวสถิติ เป็นผู้ค้นพบและพัฒนาเกี่ยวกับสถิติสมัยใหม่ เช่น ค่า probability value หรือ p-value ซึ่งถูกนำไปทำการทดสอบสมมติฐาน (Hypothesis Testing) หรือแม้กระทั่งความสัมพันธ์ระหว่างตัวแปรจนทำให้มีค่าสัมประสิทธิ์สถสัมพันธ์ (Correlation Coefficient หรือ Pearson Correlation)

รูปนี้คือค่า Correlation Coefficient ไว้ดูว่าข้อมูลมีแนวโน้มไปในทางไหน

มาเข้าสู่เรื่อง Correlation กันดีกว่า

Correlation คือความสัมพันธ์ระหว่าง 2 ตัวแปร ซึ่งประกอบด้วยตัวแปรต้นหรือตัวแปรอิสระ (Independent Variable) และตัวแปรตาม (Dependent Variable) โดยสมมติให้ตัวแปรต้นคือค่า x และตัวแปรตามเป็นค่า y เมื่อเรามีชุดข้อมูลที่ประกอบด้วย x และ y โดยแต่ละตัวแปรมีจำนวนข้อมูลที่เท่ากัน เราก็จะสังเกตุว่าสมมติว่ามีกราฟเชิงเส้นอยู่ เราก็สามารถที่จะรู้ว่าเมื่อ x เพิ่มขึ้น y เพิ่มขึ้นหรือลดลงก็ได้ เช่นเดียวกันกับชุดข้อมูลว่าชุดข้อมูลที่ได้มานั้นเห็นได้ชัดว่ามีแนวโน้มที่จะขึ้นหรือลง เราจะถือได้ว่าชุดข้อมูลมีความสัมพันธ์กันอย่างแน่นอน เราจะเรียกสิ่งนี้ว่า Correlation

ตัวอย่าง Correlation

เราสามารถที่จะจำแนกประเภทของ Correlation ได้ดังนี้

Positive Correlation => ค่า r อยู่ในระหว่าง 0 และ 1 \\ 0 < r < 1 \\ (0, 1]

มีแนวโน้มที่จะขึ้น

Negative Correlation => ค่า r อยู่ในระหว่าง -1 และ 0 \\ -1 < r < 0 \\ [-1, 0)

มีแนวโน้มที่จะลง

No Correlation => ค่า r จะเท่ากับ 0 => r = 0

ไม่รู้แนวโน้มเลย

มาเข้าสู่เรื่อง Causation กันดีกว่า

Causation คือความสัมพันธ์ระหว่างสาเหตุและผลที่ตามมา (Cause and Effect) เช่น ฉันนอนดึก ส่งผลให้ฉันง่วงตลอดทั้งวัน ซึ่งเป็นสิ่งที่อนุมานได้ว่าการนอนดึกเป็นสาเหตุที่ทำให้ง่วงตลอดทั้งวัน (เรื่องการอนุมานผมมีความคิดว่าจะเขียนแยกออกมาเพื่อเป็นการอธิบายให้เข้าใจถึงหลักการอนุมาน ทำให้เข้าใจเกี่ยวกับการอ้างเหตุผลหรือมองให้เห็นภาพมากขึ้น แต่บทความนี้ขอเขียนเฉพาะในเรื่องของ Causation กันก่อน)

สมมติว่าแนวโน้มที่ยอดขายของไอศกรีมเพิ่มขึ้นส่งผลทำให้มีคนเสียชีวิตเพิ่มขึ้น เมื่อดูลักษณะกราฟแล้วดู Correlated กัน แต่ถามว่าสมเหตุสมผลไหม? … ถ้าโดยตรงก็ไม่ (เป็นในลักษณะ Common Causation)

5 Types of Casual Relationships

Disclaimer: เป็นการยกตัวอย่างเฉยๆกับเหตุการณ์ที่เกิดขึ้นจริงๆ ไม่ได้มีเจตนาที่จะโจมตีหรือด่าระบบการศึกษาไทยแต่อย่างใด เพียงหวังว่าอยากเห็นการศึกษาดีขึ้น

Direct Causation => เป็นเหตุเป็นผลแบบตรงๆ

เช่น อ่านหนังสือทบทวนแล้วจะสอบผ่าน

A เป็นสาเหตุที่ทำให้เกิด B

Reverse Causation => เป็นเหตุเป็นผลแบบย้อนกลับ

เช่น โรงเรียนดังทำให้เด็กเรียนเก่ง กลายเป็น เด็กเรียนเก่งทำให้โรงเรียนดังเนื่องจากว่าเด็กเก่งๆเป็นคนทำผลงานให้โรงเรียน โรงเรียนจึงไม่ได้ทำให้เด็กมีความสนใจและเก่งขึ้นแบบทางตรง แต่ส่วนใหญ่จะอยู่ที่สภาพแวดล้อมในโรงเรียนมากกว่าที่ทำให้เด็กเก่งขึ้น (มีที่มาจากหนังสือ Everybody Lies)

B เป็นสาเหตุที่ทำให้เกิด A

Common Causation => เหตุนั้นมาจากเหตุอื่นที่ทำให้บังเอิญมีความสัมพันธ์กันทั้งคู่

เช่น เรียนในห้องเข้าใจทำให้สอบผ่าน กลายเป็นมีสาเหตุอื่นที่ทำให้เรียนในห้องเข้าใจและทำให้สอบผ่านอย่างการเรียนพิเศษ

C เป็นสาเหตุที่ทำให้เกิด A และ B

Bidirectional Causation => มีความเป็นเหตุเป็นผลทั้งทางตรงและสลับ

เช่น การไปต่างประเทศจะได้ภาษาอังกฤษ หรือ การได้ภาษาอังกฤษทำให้เราได้ไปต่างประเทศ

A เป็นสาเหตุที่ทำให้เกิด B และ B เป็นสาเหตุที่ทำให้เกิด A

Correlation without Causation => มีความสัมพันธ์กันโดยที่ไม่ได้เป็นเหตุเป็นผลกันเลย

เช่น การฟังเพลงดนตรีคลาสสิกจะทำให้เราฉลาดมากขึ้น (ไม่มีหลักฐานมากกว่า)

ไม่มีเหตุที่ทำให้ A และ B เกิดขึ้น

Conclusion

การตีความทางสถิติจะต้องมีความรอบคอบเสมอว่าความสัมพันธ์ทั้ง 2 สิ่งนี้มันสมเหตุสมผลในรูปแบบใดได้บ้าง จงอย่าเชื่อในความสัมพันธ์กราฟท์อย่างเดียวแล้วสรุปว่าต้องเป็นเช่นนั้น

Reference:

  1. https://medium.com/skooldio/correlation-causation-6711c8b2b1dc
  2. https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation
  3. https://en.wikipedia.org/wiki/Karl_Pearson
  4. Everybody Lies book

--

--

buyyakhoo
buyyakhoo

No responses yet