การวิเคราะห์เชิงทำนายด้วยการใช้ตัวแบบถดถอยใน Minitab ตอนที่ 2

เป้าหมายของการวิเคราะห์การถดถอย คือ การคาดการณ์ที่แม่นยำ มี 2 ปัจจัยสองที่ส่งผลต่อความสามารถในการคาดการณ์ของตัวแบบจำลอง คือ รูปแบบสมการทางคณิตศาสตร์ของตัวแปรในตัวแบบ (รูปแบบเชิงเส้นตรง พจน์ของ interactions  หรือ รูปแบบกำลังสอง) และ ตัวอย่างข้อมูลที่นำมาใช้ในสร้างตัวแบบ ตัวแบบที่มีจำนวนพจน์ของตัวแปรมากเกินไปมักทำให้การคาดการณ์ข้อมูลใหมได้ไม่ดี

โปรแกรม Minitab Statistical Software ทำให้งานวิเคราะห์การถดถอยมีความง่ายยิ่งขึ้น โดยการวิเคราะห์การถดถอยมักนำไปใช้

  • สร้าง ตรวจสอบ และ แสดงภาพจำลองสถานการณ์ของการใช้ตัวแบบทำนาย (อยู่ในบทความส่วนที่ 1)
  • ทวนสอบ(Validate)ความถูกต้องของตัวแบบในการให้ผลค่าทำนายว่าเป็นอย่างไร
  • วิเคราะห์และทำการเลือกตัวแบบที่เหมาะสมที่สุดให้อัตโนมัติ(Automate)
  • ทำนายผลลัพธ์(Predict) และหาค่าปัจจัยที่เหมาะสม

ในบทความก่อนหน้านี้ได้กล่าวถึงการสร้าง การตรวจสอบ และ แสดงภาพจำลองสถานการณ์ของการใช้ตัวแบบทำนายไว้แล้ว ในบทความส่วนนี้จะเป็นการกล่าวถึง การทวนสอบความถูกต้องของตัวแบบในการให้ผลค่าทำนายว่าเป็นอย่างไร การวิเคราะห์และทำการเลือกตัวแบบที่เหมาะสมที่สุด การทำนายผลลัพธ์และการหาค่าปัจจัยที่เหมาะสม

การทวนสอบ(Validate)ความถูกต้องของตัวแบบในการให้ผลค่าทำนายว่าเป็นอย่างไร

รูปภาพด้านล่างแสดงตัวแบบที่มีลักษณะ overfit  เมื่อมีการทดลองใช้ตัวแบบจำลองที่ได้มากับข้อมูลใหม่ที่มาจากกระบวนการเดียวกัน  ผลของคาดการณ์ค่าวัดใหม่ที่ได้จากตัวแบบจำลองนี้จะให้ผลลัพธ์การทำนายได้ไม่ดีนัก หากใช้ตัวแบบจำลองเชิงเส้นเที่มีลักษณะพอดีกับข้อมูลต้นฉบับ (good fit) จะทำให้ผลัพธ์ของการคาดการณ์มีความแม่นยำยิ่งขึ้น จึงต้องมีการทวนสอบเพื่อป้องกันไม่ให้ได้ตัวแบบที่มีความสามารถในการทำนายต่ำเกินไป

Predictive Analytics Regression Pt 2 Model Fitted New Data

การทวนสอบความถูกต้อง จะแบ่งเป็นสองขั้นตอน โดยขั้นตอนแรกเป็นการสร้างตัวแบบจำลองที่ใช้ข้อมูลจำนวนหนึ่ง (ถือเป็นชุดข้อมูลให้ตัวแบบได้เรียนรู้ เรียก “ชุดเรียนรู้” – “ training set”) ขั้นตอนที่สองจะใช้ตัวแบบจำลองที่สร้างมาทำการคาดการณ์กับข้อมูลชุดที่ไม่ได้นำไปใช้ตอนสร้างและฝึกตัวแบบในขั้นตอนแรก (ถือเป็นชุดข้อมูลในการทดสอบ เรียก “ชุดทดสอบ” – “test set”) ในขั้นตอนการทวนสวนมีเทคนิคการทวนสอบความถูกต้องอยู่ 3 วิธีได้แก่ leave-one-out , K-Fold และการทวนสอบความถูกต้องด้วยชุดการทดสอบ

ในช่วงการทวนสอบ นักวิเคราะห์จะต้องทำความเข้าใจผลที่ได้จากการใช้ตัวแบบจำลองและค่า Rโดยค่า R2 เหล่านี้ใช้เพื่อดูว่าตัวแบบที่ได้มามีความผันแปรมากน้อยเพียงใด และความสามารถในการทำนายค่าของตัวแบบมีความแม่นยำเท่าไหร่ ทางทฤษฎีค่า R2 ที่ยิ่งมากยิ่งดี แต่ถ้ามีการใส่ตัวแปรในตัวแบบมากเกินไปอาจทำให้เกิดปัญหา overfitting และจะทำให้ค่า R2 แตกต่างกันอย่างมากระหว่างชุดทดสอบและชุดฝึก

การทวนสอบด้วยวิธี Leave-One-Out Validation

ในขั้นตอนการทวนสอบด้วยวิธีนี้ จะทำการลดจำนวนข้อมูลออกจากชุดข้อมูลทดสอบไปทีละตัว  เมื่อเหลือข้อมูลจำนวน n-1 ตัวจะนำไปใช้กับตัวแบบจำลองที่ได้มาจากขั้นตอนการสร้าง (โดยข้อมูลที่ใช้ในการสร้างตัวแบบจะเป็นคนละส่วนกับที่ใช้ในการทวนสอบ) เมื่อได้ค่าทำนายของข้อมูลตัวที่ถูกลบออกไปจะนำไปหาค่าความคลาดเคลื่อน จากนั้นทำซ้ำขั้นตอนดังกล่าวนี้ไปจนครบข้อมูลทุกตัวในชุดทดสอบ ค่าความคลาดเคลื่อนจากการทำนายทั้งหมดจะถูกนำมาคิดเป็นค่า predicted R2 ซึ่งถือเป็นค่าพื้นฐานที่ต้องมีการคำนวณเวลาวิเคราะห์ตัวแบบถดถอย

การทวนสอบด้วยวิธี K-Fold

ในการทวนสอบแบบ K-Fold จะเริ่มจากการจัดกลุ่มข้อมูลที่มีจำนวนเท่ากัน จำนวน K กลุ่ม ค่าที่นิยมใช้ทั่วไปของ K คือ 10  วิธีการทวนสอบจะเริ่มจากนำข้อมูลกลุ่มแรกออกจากการทดสอบตัวแบบ และใช้ข้อมูลกลุ่มที่เหลือกับตัวแบบที่ได้มา ข้อมูลกลุ่มที่เว้นไว้จะถูกนำมาคำนวณหาค่าความคลาดเคลื่อนจากการทำนาย และทำขั้นตอนดังกล่าวนี้ซ้ำๆไปจนครบ แล้วนำค่าคลาดเคลื่อนทั้งหมดไปคำนวณหาค่า composite K-Fold R2

เทคนิคการทวนสอบด้วยวิธีชุดทดสอบ(Test Set)

การทวนสอบด้วยวิธีนี้จะใช้ข้อมูลชุดทดสอบที่จัดสรรไว้ตั้งแต่แรกในการทดสอบตัวแบบ โดยอาจจะมีการแบ่งข้อมูลไว้ 30% เพื่อการทดสอบ และ 70% เป็นข้อมูลที่ใช้ในการสร้าง(ฝึก) ตัวแบบ  ข้อมูล 30% ดังกล่าวจะถูกนำมาคำนวณหาค่าความคลาดเคลื่อนในการทำนาย และทำการหาค่า R2 ของการทดสอบ (Test R2)

Predictive Analytics Regression Pt 2 Leave One Out K Fold Test

การเปรียบเทียบเทคนิคการทวนสอบ

เทคนิค K-Fold ถือเป็นวิธีที่ดีที่สุดในกรณีที่มีจำนวนข้อมูลขนาดกำลังดี และ เทคนิคการทวนสอบด้วยวิธีชุดทดสอบเหมาะกับกรณีที่มีจำนวนข้อมูลมาก  และข้อสังเกตสำคัญ คือ เทคนิค leave-one-out และ K-fold เป็นการตรวจสอบความถูกต้องของรูปแบบของตัวแบบเท่านั้น ไม่ใช่เป็นการทวนสอบค่าสัมประสิทธิ์ของตัวแบบจำลองเหมือนกับการทวนสอบความถูกต้องด้วยวิธีชุดทดสอบ

การวิเคราะห์อัตโนมัติ(Automate)และการเลือกแบบจำลอง

โดยทั่วไปนักวิเคราะห์จะเป็นผู้เลือกแบบจำลองการถดถอยด้วยตัวเอง แต่อย่างไรก็ตามเมื่อจำนวนข้อมูลมากขึ้นและจำนวนตัวแปรที่เพิ่มขึ้นตามมาด้วย ส่งผลให้การเลือกพจน์ของตัวแปรที่จะมาอยู่ในตัวแบบด้วยตนเองเป็นเรื่องยากขึ้น ดังนั้นการเลือกตัวแบบโดยอัตโนมัติ สามารถทำได้โดยมีขั้นตอนทั่วไปอยู่ 3 แบบ คือ

  • ใช้เกณฑ์อัลฟ่าสำหรับค่า p ของแต่ละพจน์: เรียกวิธีนี้ว่า Stepwise เป็นการเลือกแบบ forward และ การกำจัดแบบ backward เพื่อเลือกพจน์ที่มีนัยสำคัญ(เปรียบเทียบกับค่าระดับนัยสำคัญที่เป็นเกณฑ์) ไปอยู่ในตัวแบบ
  • ใช้เกณฑ์ข้อมูลสำหรับตัวแบบจำลอง: การเลือกแบบ AICc หรือ BIC Forward เป็นการเลือกตัวแบบ ที่ลดเกณฑ์ข้อมูลที่ใช้
  • ใช้ค่า R-Squared เพื่อให้ได้ความสามารถในการคาดการณ์ของตัวแบบที่ดี: ในวิธี K-Fold หรือ วิธีการตรวจสอบความถูกต้องด้วยชุดทดสอบ จะใช้ร่วมกับการเลือกแบบ forward เพื่อเลือกตัวแบบที่มีค่า test R2  สูงที่สุด

วิธีการเหล่านี้มักทำให้ผลของการเลือกตัวแบบแตกต่างกัน ดังนั้นเพื่อให้ผลการเลือกตัวแบบเป็นไปอย่างดีที่สุด จึงควรใช้ความรู้ในอุตสาหกรรมที่เกี่ยวข้องกับกระบวนการนั้นเพื่อค้นหาวิธีแก้ปัญหาที่เป็นประโยชน์และมีประสิทธิภาพมากที่สุด

การทำนายผลลัพธ์(Predict)และหาค่าปัจจัยที่เหมาะสม

การวิเคราะห์การถดถอยถือเป็นเครื่องมือที่มีประสิทธิภาพ และเมื่อเลือกตัวแบบจำลองที่ “ดีที่สุด” แล้วก็สามารถนำตัวแบบนั้นไปใช้ในการคาดการณ์ได้ ตัวอย่างที่นำมาพิจารณานี้เกี่ยวข้องกับห้องปลอดเชื้อในโรงงานผลิตหนึ่ง ค่าที่จะทำการคาดการณ์ คือ จำนวนอนุภาคที่มีขนาดอย่างน้อย 0.5 μ ต่อลูกบาศก์ฟุตที่มีจำนวนอย่างน้อย 100  ซึ่งค่าดังกล่าวนี้ขึ้นกับตัวทำนายหลายตัว วิศวกรที่ดูแลกระบวนการนี้ได้ทำการสร้างตัวแบบจำลองสำหรับคาดการณ์จำนวนอนุภาคไว้ดังนี้

Predictive Analytics Regression Pt 2 Regression Equation Output

ตัวแปรทำนายที่ใช้ คือ ค่า Production volume เท่ากับ 1,000  ค่า Employees เท่ากับ 7  และ และค่า Entrances/Exits เท่ากับ 24 และได้ผลของการทำนายดังนี้

Predictive Analytics Regression Pt 2 Prediction Output

ผลลัพธ์จากการทำนาย คือ จำนวนอนุภาคเฉลี่ยเท่ากับ 87.63  และยังมีช่วงความเชื่อมั่น (CI) และ ช่วงการคาดการณ์ (PI)  เพื่อให้ครอบคลุมความคลาดเคลื่อนในการทำนาย

Minitab ทำให้การวิเคราะห์ถดถอยเป็นเรื่องง่ายขึ้น

ความสามารถของ Minitab ช่วยให้นักวิเคราะห์ใช้เครื่องมือหลายๆอย่างสำหรับวิเคราะห์การถดถอย (Regression) หากคุณยังไม่ได้เคยใช้ Minitab เพื่อการทำงานกับข้อมูลของคุณ คุณสามารถทดลองใช้โปรแกรม Minitab Statistical Software ได้ฟรี 30 วันนับตั้งแต่วันนี้ด้วยการดาวน์โหลดที่ download 30-day trial of Minitab Statistical Software


บทความต้นฉบับ : Predictive Analytics using Minitab’s Regression – Part II

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ