เลือกตัวแบบถดถอยอย่างไรให้ได้ผลดีที่สุด

การเลือกตัวแบบถดถอยเชิงเส้นที่ดีที่สุดเป็นเรื่องซับซ้อน การสร้างตัวแบบจากสิ่งตัวอย่างเพียงอย่างเดียวไม่ใช่เรื่องง่าย ในบทความนี้จะเป็นการพูดถึงวิธีการทางสถิติในการเลือกตัวแบบ ปัญหาบางอย่างที่คุณอาจจะต้องเจอ และคำแนะนำในทางปฏิบัติในการเลือกตัวแบบถดถอยให้ได้ตัวแบบที่ดีที่สุด

ในขั้นต้นนักวิจัยจะต้องเริ่มจากการอธิบายความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง นักวิจัยจะต้องค้นหาค่าวัดของตัวแปรต่างๆที่ควรจะมีในตัวแบบคืออะไร ในขั้นตอนวิเคราะห์จะพยายามทำการคัดเลือกตัวแปรที่ไม่มีความสัมพันธ์ออกไป และเหลือเฉพาะตัวแปรที่แสดงความสัมพันธ์อย่างแท้จริงให้คงไว้ โดยจะเริ่มจากการสร้างตัวแบบที่มีความเป็นไปได้ไว้หลายๆตัวแบบ

ส่วนการที่จะทำให้ได้ตัวแบบที่ดีที่สุด จะต้องมีพิจารณาจำนวนตัวแปรทำนายที่จะต้องมีในตัวแบบให้มีความพอดี โดยที่ถ้าจำนวนตัวแปรทำนายนั้นมีจำนวน…

  • น้อยเกินไป จะทำให้ตัวแบบที่ได้มีแนวโน้มว่าจะเกิดการประมาณค่าแบบเอนเอียง
  • มากเกินไป จะทำให้ตัวแบบที่ได้มีแนวโน้มว่าจะเกิดปัญหาเรื่องความแม่นยำในการประมาณค่า
  • พอเหมาะพอดี ตัวแบบที่มีจำนวนตัวแปรที่เหมาะสมจะไม่เกิดความเอนเอียงและทำให้มีความแม่นยำในการประมาณค่า

เรียนรู้เนื้อหาหลักสถิติได้ตลอดเวลา, ได้ทุกที่ด้วยภาพเคลื่อนไหวประกอบบทเรียน, แบบทดสอบและฝึกทำแบบฝึกหัด

ได้ใน Quality Trainer

Outling

วิธีการทางสถิติที่ใช้ในการหาตัวแบบถดถอยที่ดีที่สุด 

ตัวแบบถดถอยที่ดีจะต้องมีตัวแปรที่มีความสัมพันธ์เฉพาะกับตัวแปรตอบสนองโดยทำให้เกิดการประมาณค่าที่มีความเอนเอียง (Bias) น้อยที่สุด โปรแกรม Minitab มีตัววัดทางสถิติและวิธีการเพื่อช่วยให้คุณระบุตัวแบบถดถอยที่ต้องการได้

ค่า Adjusted R-squared และ Predicted R-squared โดยทั่วไปจะเลือกตัวแบบที่ให้ค่า adjusted และ predicted R-squared มากๆ ซึ่งค่าสถิติทั้งสองตัวนี้ต่างจากค่า R-squared ปกติ เพราะค่า R-squared ปกติ จะมีค่าเพิ่มขึ้นเสมอเมื่อคุณเพิ่มจำนวนตัวแปรทำนายลงในตัวแบบ ซึ่งอาจทำให้สุดท้ายแล้วตัวแบบที่ได้มีความซับซ้อนเพราะมีจำนวนตัวแปรมากเกินไป

  • ค่า adjusted R squared จะเพิ่มขึ้นก็ต่อเมื่อพจน์ที่เพิ่มลงไปในตัวแบบนั้น ทำให้ตัวแบบดีขึ้นอย่างมีนัยสำคัญ และทำให้สามารถลดจำนวนตัวแปรทำนายที่มีไม่มีคุณภาพได้
  • ค่า predicted R-squared เป็นเหมือนการทำทวนสอบไขว้ (cross-validation) เพื่อดูว่าตัวแบบนั้นใช้ได้กับข้อมูลชุดอื่นทั่วไป ด้วยการแบ่งย่อยข้อมูลเป็นส่วน

ค่า p-values สำหรับตัวแปรทำนาย ในตัวแบบถดถอย ค่า p-values น้อยๆเป็นการบอกว่าตัวแปรนั้นมีนัยสำคัญ “Reducing the model” คือการลดรูปตัวแบบ ด้วยการเอาตัวแปรทำนายที่มีค่า p-values มาก ๆ ออกจากตัวแบบครั้งละตัวแปรเพื่อให้เหลือแต่ตัวแปรทำนายที่มีนัยสำคัญจริง ๆ 

วิธีการเพิ่มตัวแบบถดถอยแบบขั้นตอน และ ตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด (Stepwise regression and Best subsets regression) เป็นวิธีการหาตัวแปรทำนายแบบอัตโนมัติด้วยการระบุตัวแปรทำนายในระหว่างขั้นตอนการสร้างตัวแบบ ในตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด โปรแกรม Minitab ใช้เกณฑ์ของ Mallows’ Cp ซึ่งจะเป็นการคิดค่าตัวสถิติที่คำนึงถึงเรื่องของความแม่นยำ (precision) และ ความเอนเอียง (bias)


บทความที่เกี่ยวข้อง : แหล่งข้อมูลเพิ่มเติมจากผู้เชี่ยวชาญเพื่อช่วยคุณตลอดเส้นทางการวิเคราะห์ด้วย Regression tutorial


การใช้งานในทางปฏิบัติ 

เนื่องจากมีวิธีการทางสถิติหลายอย่างในการเลือกตัวแบบที่ดีที่สุด แต่ในทางปฎิบัติก็มีปัจจัยหลายอย่างที่ทำให้เกิดปัญหาในการเลือกใช้งานได้เช่นกัน ดังนั้นเราจึงมีแนวทางในการใช้งานไว้ดังนี้

  • ตัวแปรที่สามารถวัดได้จะทำให้ได้ตัวแบบที่ดีกว่า ตัวแปรที่เลือกลงไปในตัวแบบมีความสำคัญอย่างมากเพราะอาจทำให้ตัวแบบมีความถูกต้องหรือไม่ก็ได้ อ่านเพิ่มเติมในเรื่องของตัวอย่างการยกเว้นตัวแปรบางตัวที่ทำให้เกิดความเอนเอียง
  • สิ่งตัวอย่างที่นำมาใช้ในการวิเคราะห์อาจไม่ถูกต้อง โดยเหตุผลนั้นอาจมาจากธรรมชาติของตัวแปรสุ่มเอง หรือ มาจากวิธีการเก็บสิ่งตัวอย่าง ซึ่งส่งผลให้เกิดการแปรผลผิดพลาดได้ทั้งแบบ false positive และ false negative 
  • ค่า p-value ที่สามารถเปลี่ยนแปลงค่าได้เพราะบางพจน์ในตัวแบบ โดยเฉพาะตัวแปรที่มีความสัมพันธ์หลายแนว(multicollinearity) ที่สามารถทำให้เกิดความมีนัยสำคัญ และทำให้ยากที่จะกำหนดบทบาทของตัวทำนายแต่ละตัว
  • การประเมินตัวแบบอาจทำให้คุณหาตัวแปรที่มีนัยสำคัญจริงๆพบ รูปแบบการค้นหาความจริงจากข้อมูล กรณีแบบนี้ค่า predicted R-squared อาจจะพอเป็นตัวช่วยในการแก้ปัญหานี้ได้
  • ค่า P-values, ค่า predicted และ adjusted R-squared, และ ค่า Mallows’ Cp อาจจะให้คำตอบตัวแบบที่ดีที่สุดต่างกัน
  • วิธี Stepwise regression และ best subsets regression เป็นเครื่องมือที่ถือว่าน่าจะให้ตัวแบบที่ถูกต้องเกือบจะที่สุด แต่จากการศึกษาพบว่าตัวแบบที่ถูกต้องมักไม่ได้ถูกเลือกไปใช้

คำแนะนำสำหรับการหาตัวแบบถดถอยที่ดีที่สุด 

การเลือกตัวแบบถดถอยที่ถูกต้องเป็นทั้งศาสตร์และศิลป์ วิธีการทางสถิติสามารถช่วยในการหาทิศทางที่จะเดินไปให้ถูกต้องแต่ต้องประกอบกับการพิจารณาของผู้ตัดสินใจด้วย

ทางทฤษฎี

ในขั้นต้นควรเริ่มจากกรณีศึกษาในงานวิจัยที่เคยทำมาเพื่อมาสร้างเป็นกรอบของตัวแบบการถดถอย จากนั้นจึงพัฒนาแนวคิดต่างๆรวมถึงหาตัวแปรที่สำคัญที่มีความสัมพันธ์กับตัวแปรอื่นๆ เครื่องหมายของตัวสัมประสิทธิ์ และขนาดของ effect ที่ควรจะเป็นการสร้างตัวแบบที่มาจากงานวิจัยก่อนหน้าจะช่วยทำให้การเก็บข้อมูลและระบุตัวแบบได้ดีขึ้นโดยลดทอนงานด้านการค้นหาความจริงจากข้อมูล 

การพิจารณาตามทฤษฎีไม่ควรใช้ค่าทางสถิติเพียงอย่างเดียว แต่ควรมีการทดสอบตัวแบบและปรับแก้ค่าต่างๆให้เหมาะสม เช่น ตามทฤษฎีบอกว่าตัวแปรหนึ่งไม่มีนัยสำคัญ เพราะค่า p-value มาก แต่ถ้ามองจากเครื่องหมายของสัมประสิทธิ์มีค่าขัดแย้งกับทางทฤษฎี คุณควรทำการสืบค้นดูว่าทำไมตัวแปรนั้นจึงแสดงความสัมพันธ์ไม่สอดคล้องกับทางทฤษฎี

ความซับซ้อน

คุณอาจคิดว่าปัญหาที่ซับซ้อนอาจต้องใช้ตัวแบบที่มีความซับซ้อนเป็นตัวอธิบาย แต่จากกรณีศึกษาจำนวนมากพบว่าตัวแบบที่ไม่ซับซ้อนจะสามารถให้ผลการทำนายที่แม่นยำกว่า เมื่อนำตัวแบบที่มีความคล้ายคลึงกัน ตัวแบบที่มีความซับซ้อนน้อยกว่าจะเป็นตัวแบบที่ดีที่สุด ดังนั้นจึงควรเริ่มต้นที่ตัวแบบง่ายๆก่อนแล้วเพิ่มความซับซ้อนลงในตัวแบบก็ต่อเมื่อจำเป็นเท่านั้น เพราะยิ่งมีความซับซ้อนมากเท่าไหร่การปรับแต่งตัวแบบให้เหมาะกับข้อมูลจะยิ่งมีความยากมากยิ่งขึ้น การทวนสอบเมื่อทำการเพิ่มตัวแปรลงในตัวแบบด้วยการดูค่าช่วงค่าทำนาย (prediction intervals) จะต้องมีความกว้างลดลง และเปลี่ยนมาสังเกตค่า predicted R-squared แทนค่า R-squared ทั่วไป

การใช้กราฟค่าเศษเหลือ (Residual Plots)

ในการประเมินตัวแบบ ด้วยการใช้ residual plot เพื่อเป็นเครื่องมือในการดูว่าตัวแบบนั้นมีคุณภาพหรือไม่และทำให้ตัวแบบที่ดียิ่งขึ้น ตัวอย่างเช่น ตัวแบบที่มีความเอนเอียง จะแสดงรูปแบบบางอย่างใน residual plot เช่น เส้นโค้งของตัวแบบ ตัวแบบที่มีความซับซ้อนน้อยจะแสดงค่าเศษเหลือในรูปแบบสุ่ม (random) ซึ่งทำให้ได้ตัวแบบที่ไม่เอนเอียงและมีความแม่นยำที่ค่อนข้างดี

ในท้ายที่สุดข้อสรุป คือ ไม่มีการวัดใดที่จะเป็นตัวบ่งชี้ให้ได้ว่าตัวแบบใดคือตัวแบบที่ดีที่สุดเพราะความเข้าใจทางสถิติเพียงอย่างเดียวไม่เพียงพอ คุณจะต้องอาศัยความรู้ความเข้าใจพื้นฐานในงานหรือกระบวนการของคุณเป็นส่วนสำคัญด้วย


บทความต้นฉบับ : How to Choose the Best Regression Model

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ