การใช้ CART เป็นทางเลือกในการวิเคราะห์ข้อมูลที่จัดเป็นกลุ่มจากการตอบแบบสอบถาม

การทำความเข้าใจพฤติกรรมของลูกค้าที่เป็นผู้ป่วยมารับบริการที่คลีนิคถือเป็นเรื่องที่มีความท้าทายอย่างมาก นักวิจัยนิยมใช้แบบสอบถามในการเก็บข้อมูลและนำข้อมูลที่ได้ไปวิเคราะห์การถดถอยด้วยโปรแกรมทางสถิติอย่าง Minitab แต่เนื่องด้วยตัวแปรผลลัพธ์มีลักษณะเป็นหมวดหมู่ (categorical data) มากกว่าค่าวัดเชิงปริมาณ (quantitative) ทำให้การแปลผลที่ได้จากตัวแบบการถดถอยแบบลอจิสติกส์ไม่สามารถทำได้อย่างตรงไปตรงมาหรือเห็นเป็นรูปธรรมได้ชัดเจน

ตรงนี้ Minitab มีทางเลือกในการวิเคราะห์ข้อมูลจากแบบสอบถามไว้อีกเครื่องมือหนึ่ง เรียกว่า CART® (Classification and Regression Trees) ซึ่งเป็นเทคนิคทาง machine-learning ที่ใช้แนวคิดเรื่อง ต้นไม้การตัดสินใจ (decision tree) ซึ่งเครื่องมือ CART®  มีให้ในโปรแกรม Minitab เวอร์ชั่นล่าสุด

CART คืออะไร

CART คือ ขั้นตอนการทำ decision tree ที่จะทำการสร้างชุดเกณฑ์การให้คำตอบ ใช่ (YES) หรือ ไม่ใช่ (NO) โดยแยกตัวแปรที่เป็นผลลัพธ์ออกเป็นส่วนๆ ตามตัวแปรทำนาย (predictor)  หรือ ตัวแปรตั้งต้น (input) ผลลัพธ์ของตัวแบบที่ได้จะมีลักษณะเป็น decision tree ที่ผลของตัวแปรผลลัพธ์ (outcome variable) จะมีค่าเป็นอย่างไรตามตัวแปรตั้งต้น (input) ที่มีการพิจารณาแยกเป็นส่วนๆ 

เครื่องมือ CART ใน Minitab จะทำการหาจำนวน  terminal nodes ที่เหมาะสม ซึ่งจะมีค่าเท่ากับจำนวนกลุ่มที่จะถูกแยกออก ตามที่ตัวแบบควรจะมีในขั้นตอนการทำงานขั้นสุดท้าย ซึ่งวัตถุประสงค์ของการสร้างตัวแบบ คือ การทำให้ตัวแบบมีความสามารถในการทำนายได้มากที่สุด

เมื่อการวิเคราะห์สิ้นสุดลง ผลลัพธ์ที่ได้จาก CART จะแสดงออกเป็นภาพที่สามารถมองเห็นได้เป็นรูปธรรม โดยที่คุณไม่จำเป็นต้องมีความรู้พื้นฐานใดใดเกี่ยวกับข้อมูล

Cart Blog Pic 1 Cropped Nodes
Minitab แสดงรูปแบบ CART tree ตามรูปแบบที่กำหนดไว้ในโปรแกรม และคุณยังสามารถเลือกแสดงเป็นรูปแบบ Node Split View ด้วยการคลิกขวาบนรูปผังต้นไม้เพื่อดูแบบย่อตามภาพ
Cart

การใช้ CART กับข้อมูล Walk-in Clinic

เมื่อเราทำความเข้าใจเบื้องต้นกับ  CART ไปแล้ว ต่อไปเรามาดูการทำงานของเครื่องมือนี้กัน

Cart Blog Pic 2 1

เราจะใช้ข้อมูลที่ได้จากการเก็บมาจากการตอบแบบสอบถามของผู้ป่วยที่ทำการเข้ามารักษา (Walk-in patient) ที่คลีนิค โดยคำถามที่ถามผู้ป่วยคือ การค้าหาคำตอบว่า ผู้ป่วยมีความเป็นไปได้ที่จะเข้ามาใช้บริการที่คลีนิคในอนาคตอีกครั้งหรือไม่ คำตอบที่จะตอบมี 3 รูปแบบ คือ เป็นไปได้  (likely)  อาจจะเป็นไปได้ (somewhat likely)  ไม่มีโอกาสเป็นไปได้ (unlikely) รวมทั้งยังมีการเก็บข้อมูลของผู้ป่วยเพิ่มเติมในเรื่อง อายุ (age) ระยะทาง (distance) ระหว่างบ้านของผู้ป่วยและคลีนิค และสถานะการจ้างงาน (employment status)

ผู้จัดการคลีนิคมีความต้องการที่จะหาว่าปัจจัยใดบ้างที่จะทำให้ผู้ป่วยกลับมาใช้บริการที่คลีนิคอีกครั้ง

Cart Blog Pic 3

ประเภทกลุ่มข้อมูล (คำตอบของผู้ป่วย) แสดงไว้ทางขวามือ ส่วนกราฟแท่งที่เห็นเป็นค่าจำนวนผู้ป่วยที่แยกตามกลุ่มประเภทคำตอบของผู้ป่วย

CART  สามารถใช้มาทำนายความเป็นไปได้ของข้อมูลผลัพธ์ จากกรณีศึกษานี้เป็นการหาความเป็นไปได้ของผู้ป่วยที่จะกลับมารับบริการที่คลีนิคอีกครั้ง โดย CART ของ Minitab มีรูปแบบการจัดกลุ่มให้เลือกโดยแบ่งตามลักษณะจำนวนข้อมูลผลลัพธ์ที่แบ่งเป็น สองกลุ่ม (binary outcome) หรือ มากกว่าสองกลุ่ม (multinomial outcome)

เมื่อทำการใส่ข้อมูลลงใน Minitab ผู้วิเคราะห์ทำการเลือก Stat > Predictive Analytics > CART® Classification และจะเห็นหน้าต่างดังนี้

Cart Blog Pic 4

เนื่องจากมีกลุ่มข้อมูล 3 กลุ่ม หรือมากกว่า จึงทำการเลือก Multinomial Response” จากนั้นเลือก ‘Return Apt’ เป็นค่า Response ซึ่งจะเป็นค่าที่ต้องการให้ตัวแบบทำนายผลออกมา จากนั้นมาที่ส่วน Continuous Predictors และ Categorical Predictors ให้เลือกตัวแปรที่เป็นตัวแปรตั้งต้น (หรือ ตัวแปรทำนาย) ตามประเภทของของตัวแปร

CART จะทำการจัดการกับกรณีที่มีข้อมูลบางตัวหายไป หรือ ข้อมูลที่ไม่สมบูรณ์ โดยที่เราไม่ต้องจัดการเองแต่อย่างใด รวมถึงข้อมูลผิดปกติอื่นๆ อีกด้วย รวมทั้งยังไม่ต้องกังวลเรื่อง รูปแบบการแจกแจงของข้อมูล ค่า p-values รวมถึงการทวนสอบข้อมูลของส่วนการวิเคราะห์ residuals จึงทำให้ CART เป็นเครื่องมือที่ง่ายและสะดวกสำหรับผู้เริ่มต้น

นอกจากนั้น CART ใน Minitab จะทำการแบ่งข้อมูลออกเป็นสองส่วน ข้อมูลส่วนแรกจะใช้เพื่อสร้างตัวแบบสำหรับการเรียนรู้ (Learn) พฤติกรรมการเกิดข้อมูล และอีกส่วนนำไปใช้เพื่อประเมินว่าตัวแบบที่ได้มาสามารถใช้ทำนายข้อมูล (Test) ได้ดีอย่างไร

Watch

ผลลัพธ์ที่ได้จากการวิเคราะห์ด้วย CART จะแสดงเป็นค่าพื้นที่ภายใต้เส้นโค้ง ROC โดยมีค่าเท่ากับ 0.93 หรือ มากกว่าในแต่ละคู่ของตัวแปร

เส้นโค้ง ROC จะช่วยทำให้เราเห็นภาพของตัวแบบที่ใช้ทำนายค่าความเป็นไปได้ที่ผู้ป่วยจะกลับมาใช้บริการที่คลีนิคอีกครั้งว่ามีค่าความเป็นไปได้เท่าไหร่ กราฟแสดงความสัมพันธ์ระหว่างความอ่อนไหว (sensitivity) -ผลทำนายเชิงบวกที่ถูกต้อง ซึ่งใช้เป็นค่า positives  กับความจำเพาะ (specificity) – ผลทำนายเชิงลบที่ถูกต้องซึ่งใช้เป็นค่า negatives

Cart Blog Pic 5

ผู้จัดการคลีนิคมีความต้องการที่จะได้ตัวแบบที่มีความถูกต้องในการทำนายความเป็นไปได้ที่ผู้ป่วยจะกลับมาใช้บริการที่คลีนิคอีกครั้ง โดยใช้เกณฑ์ของค่า ROC เท่ากับ 0.7 หรือ มากกว่า ซึ่งถือเป็นเกณฑ์ที่นิยมใช้ในงานทั่วๆไป 

ผู้จัดการคลีนิค มีสมมติฐานว่าระยะทางระหว่างที่พักกับคลีนิคน่าจะเป็นตัวแปรทำนายที่ดีที่สุด ในการประเมินความเป็นไปได้ในการกลับมาใช้บริการของผู้ป่วยอีกครั้ง แต่ผลที่ได้จากการวิเคราะห์พบว่าการคาดการณ์ของเธอนั้นไม่ถูกต้อง  จากกราฟ  Relative Variable Importance ที่ได้จากการใช้ CARTแสดงความสัมพันธ์ของตัวแปรทำนายแต่ละตัว กับค่าความเป็นไปได้ที่ผู้ป่วยจะกลับมาใช้บริการ

Cart Blog Pic 6

สิ่งที่วิเคราะห์ได้

จากการประเมินผลพบว่า ความสำคัญของตัวแปรที่เห็นจากกราฟ คือ อายุของผู้ป่วยเป็นตัวแปรทำนายที่มีความสำคัญที่สุด ที่จะใช้ในการทำนายค่าความเป็นไปได้ในการกลับมาใช้บริการของผู้ป่วย ตามด้วย ค่าระยะทาง และ สถานะการจ้างงาน

Cart Blog Pic 7

สิ่งที่ได้จากพฤติกรรมของผู้ป่วย ทำให้ผู้จัดการคลีนิคนำมาสร้างรูปแบบของลูกค้าเพื่อให้เกิดความเป็นไปได้ที่จะกลับมาใช้บริการอีกครั้ง ซึ่งทำให้คลีนิคนำมาสร้างแรงจูงใจที่จะช่วยให้ผู้ป่วยกลับมาใช้บริการ เช่น ผู้ป่วยที่มีอายุน้อยกว่า 43 ปี มีที่พักอาศัยห่างไปจากคลีนิคไม่เกิน 11 ไมล์มีแนวโน้มว่าจะกลับมาใช้บริการมาก โดยสถานะการทำงานจะเป็นอย่างไรก็ได้

ผู้ป่วยที่มีอายุในช่วง 71-82 ปี มีความเป็นไปได้บ้างที่จะกลับมาใช้บริการอีกครั้ง โดยไม่ว่าระยะห่างของที่พักกับคลีนิค และ สถานะการจ้างงานจะเป็นอะไรก็ตาม

ในทางกลับกัน ผู้ป่วยที่มีอายุในช่วง 67-71 ปี ไม่มีความเป็นไปได้ที่จะกลับมาใช้บริการอีกครั้ง ถ้าระยะห่างของที่พักและคลีนิคมากกว่า 11 ไมล์ ไม่ว่าสถานะการจ้างงานจะเป็นอย่างไร

ขั้นตอนของ machine learning แบบ tree-based ของ Minitab สามารถนำไปใช้งานได้หลายรูปแบบ ในหลากหลายองค์กรและธุรกิจ ถ้าคุณยังไม่เคยใช้เครื่องมือนี้ สามารถไปทดลองใช้โปรแกรม Minitab ได้ฟรีแบบ 30 วัน

ศึกษา CART ด้วยตัวคุณเอง

Trymtb

บทความต้นฉบับ : Branching Out: Using CART® For Alternative Ways to Analyze Categorical Survey Data

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยสุวดี นำพาเจริญ,

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ