การเลือกตัวแบบถดถอยเชิงเส้นที่ดีที่สุดเป็นเรื่องซับซ้อน การสร้างตัวแบบจากสิ่งตัวอย่างเพียงอย่างเดียวไม่ใช่เรื่องง่าย ในบทความนี้จะเป็นการพูดถึงวิธีการทางสถิติในการเลือกตัวแบบ ปัญหาบางอย่างที่คุณอาจจะต้องเจอ และคำแนะนำในทางปฏิบัติในการเลือกตัวแบบถดถอยให้ได้ตัวแบบที่ดีที่สุด
ในขั้นต้นนักวิจัยจะต้องเริ่มจากการอธิบายความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง นักวิจัยจะต้องค้นหาค่าวัดของตัวแปรต่างๆที่ควรจะมีในตัวแบบคืออะไร ในขั้นตอนวิเคราะห์จะพยายามทำการคัดเลือกตัวแปรที่ไม่มีความสัมพันธ์ออกไป และเหลือเฉพาะตัวแปรที่แสดงความสัมพันธ์อย่างแท้จริงให้คงไว้ โดยจะเริ่มจากการสร้างตัวแบบที่มีความเป็นไปได้ไว้หลายๆตัวแบบ
ส่วนการที่จะทำให้ได้ตัวแบบที่ดีที่สุด จะต้องมีพิจารณาจำนวนตัวแปรทำนายที่จะต้องมีในตัวแบบให้มีความพอดี โดยที่ถ้าจำนวนตัวแปรทำนายนั้นมีจำนวน…
- น้อยเกินไป จะทำให้ตัวแบบที่ได้มีแนวโน้มว่าจะเกิดการประมาณค่าแบบเอนเอียง
- มากเกินไป จะทำให้ตัวแบบที่ได้มีแนวโน้มว่าจะเกิดปัญหาเรื่องความแม่นยำในการประมาณค่า
- พอเหมาะพอดี ตัวแบบที่มีจำนวนตัวแปรที่เหมาะสมจะไม่เกิดความเอนเอียงและทำให้มีความแม่นยำในการประมาณค่า
เรียนรู้เนื้อหาหลักสถิติได้ตลอดเวลา, ได้ทุกที่ด้วยภาพเคลื่อนไหวประกอบบทเรียน, แบบทดสอบและฝึกทำแบบฝึกหัด
ได้ใน Quality Trainer
วิธีการทางสถิติที่ใช้ในการหาตัวแบบถดถอยที่ดีที่สุด
ตัวแบบถดถอยที่ดีจะต้องมีตัวแปรที่มีความสัมพันธ์เฉพาะกับตัวแปรตอบสนองโดยทำให้เกิดการประมาณค่าที่มีความเอนเอียง (Bias) น้อยที่สุด โปรแกรม Minitab มีตัววัดทางสถิติและวิธีการเพื่อช่วยให้คุณระบุตัวแบบถดถอยที่ต้องการได้
ค่า Adjusted R-squared และ Predicted R-squared โดยทั่วไปจะเลือกตัวแบบที่ให้ค่า adjusted และ predicted R-squared มากๆ ซึ่งค่าสถิติทั้งสองตัวนี้ต่างจากค่า R-squared ปกติ เพราะค่า R-squared ปกติ จะมีค่าเพิ่มขึ้นเสมอเมื่อคุณเพิ่มจำนวนตัวแปรทำนายลงในตัวแบบ ซึ่งอาจทำให้สุดท้ายแล้วตัวแบบที่ได้มีความซับซ้อนเพราะมีจำนวนตัวแปรมากเกินไป
- ค่า adjusted R squared จะเพิ่มขึ้นก็ต่อเมื่อพจน์ที่เพิ่มลงไปในตัวแบบนั้น ทำให้ตัวแบบดีขึ้นอย่างมีนัยสำคัญ และทำให้สามารถลดจำนวนตัวแปรทำนายที่มีไม่มีคุณภาพได้
- ค่า predicted R-squared เป็นเหมือนการทำทวนสอบไขว้ (cross-validation) เพื่อดูว่าตัวแบบนั้นใช้ได้กับข้อมูลชุดอื่นทั่วไป ด้วยการแบ่งย่อยข้อมูลเป็นส่วน
ค่า p-values สำหรับตัวแปรทำนาย ในตัวแบบถดถอย ค่า p-values น้อยๆเป็นการบอกว่าตัวแปรนั้นมีนัยสำคัญ “Reducing the model” คือการลดรูปตัวแบบ ด้วยการเอาตัวแปรทำนายที่มีค่า p-values มาก ๆ ออกจากตัวแบบครั้งละตัวแปรเพื่อให้เหลือแต่ตัวแปรทำนายที่มีนัยสำคัญจริง ๆ
วิธีการเพิ่มตัวแบบถดถอยแบบขั้นตอน และ ตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด (Stepwise regression and Best subsets regression) เป็นวิธีการหาตัวแปรทำนายแบบอัตโนมัติด้วยการระบุตัวแปรทำนายในระหว่างขั้นตอนการสร้างตัวแบบ ในตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด โปรแกรม Minitab ใช้เกณฑ์ของ Mallows’ Cp ซึ่งจะเป็นการคิดค่าตัวสถิติที่คำนึงถึงเรื่องของความแม่นยำ (precision) และ ความเอนเอียง (bias)
บทความที่เกี่ยวข้อง : แหล่งข้อมูลเพิ่มเติมจากผู้เชี่ยวชาญเพื่อช่วยคุณตลอดเส้นทางการวิเคราะห์ด้วย Regression tutorial
การใช้งานในทางปฏิบัติ
เนื่องจากมีวิธีการทางสถิติหลายอย่างในการเลือกตัวแบบที่ดีที่สุด แต่ในทางปฎิบัติก็มีปัจจัยหลายอย่างที่ทำให้เกิดปัญหาในการเลือกใช้งานได้เช่นกัน ดังนั้นเราจึงมีแนวทางในการใช้งานไว้ดังนี้
- ตัวแปรที่สามารถวัดได้จะทำให้ได้ตัวแบบที่ดีกว่า ตัวแปรที่เลือกลงไปในตัวแบบมีความสำคัญอย่างมากเพราะอาจทำให้ตัวแบบมีความถูกต้องหรือไม่ก็ได้ อ่านเพิ่มเติมในเรื่องของตัวอย่างการยกเว้นตัวแปรบางตัวที่ทำให้เกิดความเอนเอียง
- สิ่งตัวอย่างที่นำมาใช้ในการวิเคราะห์อาจไม่ถูกต้อง โดยเหตุผลนั้นอาจมาจากธรรมชาติของตัวแปรสุ่มเอง หรือ มาจากวิธีการเก็บสิ่งตัวอย่าง ซึ่งส่งผลให้เกิดการแปรผลผิดพลาดได้ทั้งแบบ false positive และ false negative
- ค่า p-value ที่สามารถเปลี่ยนแปลงค่าได้เพราะบางพจน์ในตัวแบบ โดยเฉพาะตัวแปรที่มีความสัมพันธ์หลายแนว(multicollinearity) ที่สามารถทำให้เกิดความมีนัยสำคัญ และทำให้ยากที่จะกำหนดบทบาทของตัวทำนายแต่ละตัว
- การประเมินตัวแบบอาจทำให้คุณหาตัวแปรที่มีนัยสำคัญจริงๆพบ รูปแบบการค้นหาความจริงจากข้อมูล กรณีแบบนี้ค่า predicted R-squared อาจจะพอเป็นตัวช่วยในการแก้ปัญหานี้ได้
- ค่า P-values, ค่า predicted และ adjusted R-squared, และ ค่า Mallows’ Cp อาจจะให้คำตอบตัวแบบที่ดีที่สุดต่างกัน
- วิธี Stepwise regression และ best subsets regression เป็นเครื่องมือที่ถือว่าน่าจะให้ตัวแบบที่ถูกต้องเกือบจะที่สุด แต่จากการศึกษาพบว่าตัวแบบที่ถูกต้องมักไม่ได้ถูกเลือกไปใช้
คำแนะนำสำหรับการหาตัวแบบถดถอยที่ดีที่สุด
การเลือกตัวแบบถดถอยที่ถูกต้องเป็นทั้งศาสตร์และศิลป์ วิธีการทางสถิติสามารถช่วยในการหาทิศทางที่จะเดินไปให้ถูกต้องแต่ต้องประกอบกับการพิจารณาของผู้ตัดสินใจด้วย
ทางทฤษฎี
ในขั้นต้นควรเริ่มจากกรณีศึกษาในงานวิจัยที่เคยทำมาเพื่อมาสร้างเป็นกรอบของตัวแบบการถดถอย จากนั้นจึงพัฒนาแนวคิดต่างๆรวมถึงหาตัวแปรที่สำคัญที่มีความสัมพันธ์กับตัวแปรอื่นๆ เครื่องหมายของตัวสัมประสิทธิ์ และขนาดของ effect ที่ควรจะเป็นการสร้างตัวแบบที่มาจากงานวิจัยก่อนหน้าจะช่วยทำให้การเก็บข้อมูลและระบุตัวแบบได้ดีขึ้นโดยลดทอนงานด้านการค้นหาความจริงจากข้อมูล
การพิจารณาตามทฤษฎีไม่ควรใช้ค่าทางสถิติเพียงอย่างเดียว แต่ควรมีการทดสอบตัวแบบและปรับแก้ค่าต่างๆให้เหมาะสม เช่น ตามทฤษฎีบอกว่าตัวแปรหนึ่งไม่มีนัยสำคัญ เพราะค่า p-value มาก แต่ถ้ามองจากเครื่องหมายของสัมประสิทธิ์มีค่าขัดแย้งกับทางทฤษฎี คุณควรทำการสืบค้นดูว่าทำไมตัวแปรนั้นจึงแสดงความสัมพันธ์ไม่สอดคล้องกับทางทฤษฎี
ความซับซ้อน
คุณอาจคิดว่าปัญหาที่ซับซ้อนอาจต้องใช้ตัวแบบที่มีความซับซ้อนเป็นตัวอธิบาย แต่จากกรณีศึกษาจำนวนมากพบว่าตัวแบบที่ไม่ซับซ้อนจะสามารถให้ผลการทำนายที่แม่นยำกว่า เมื่อนำตัวแบบที่มีความคล้ายคลึงกัน ตัวแบบที่มีความซับซ้อนน้อยกว่าจะเป็นตัวแบบที่ดีที่สุด ดังนั้นจึงควรเริ่มต้นที่ตัวแบบง่ายๆก่อนแล้วเพิ่มความซับซ้อนลงในตัวแบบก็ต่อเมื่อจำเป็นเท่านั้น เพราะยิ่งมีความซับซ้อนมากเท่าไหร่การปรับแต่งตัวแบบให้เหมาะกับข้อมูลจะยิ่งมีความยากมากยิ่งขึ้น การทวนสอบเมื่อทำการเพิ่มตัวแปรลงในตัวแบบด้วยการดูค่าช่วงค่าทำนาย (prediction intervals) จะต้องมีความกว้างลดลง และเปลี่ยนมาสังเกตค่า predicted R-squared แทนค่า R-squared ทั่วไป
การใช้กราฟค่าเศษเหลือ (Residual Plots)
ในการประเมินตัวแบบ ด้วยการใช้ residual plot เพื่อเป็นเครื่องมือในการดูว่าตัวแบบนั้นมีคุณภาพหรือไม่และทำให้ตัวแบบที่ดียิ่งขึ้น ตัวอย่างเช่น ตัวแบบที่มีความเอนเอียง จะแสดงรูปแบบบางอย่างใน residual plot เช่น เส้นโค้งของตัวแบบ ตัวแบบที่มีความซับซ้อนน้อยจะแสดงค่าเศษเหลือในรูปแบบสุ่ม (random) ซึ่งทำให้ได้ตัวแบบที่ไม่เอนเอียงและมีความแม่นยำที่ค่อนข้างดี
ในท้ายที่สุดข้อสรุป คือ ไม่มีการวัดใดที่จะเป็นตัวบ่งชี้ให้ได้ว่าตัวแบบใดคือตัวแบบที่ดีที่สุดเพราะความเข้าใจทางสถิติเพียงอย่างเดียวไม่เพียงพอ คุณจะต้องอาศัยความรู้ความเข้าใจพื้นฐานในงานหรือกระบวนการของคุณเป็นส่วนสำคัญด้วย
บทความต้นฉบับ : How to Choose the Best Regression Model
ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,
บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย
![Minitabbloglogo](https://www.solutioncenterminitab.com/blog/wp-content/uploads/2020/09/minitabbloglogo1.png)
เพิ่มเติมเกี่ยวกับบริษัท Minitab
Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ