วิธีการคิดนอกกรอบกับกราฟ Boxplot

ไม่มีอะไรดีไปกว่ากราฟ boxplot หรือเรียกอีกชื่อหนึ่งว่า แผนภาพ box-and-whisker ซึ่งช่วยให้เห็นภาพการแจกแจงข้อมูลของคุณได้อย่างรวดเร็ว และมองเพียงแวบเดียว คุณก็สามารถรับรู้ถึงรูปร่างทั่วไปของข้อมูล ค่าแนวโน้มศูนย์กลาง และความผันแปรได้อย่างง่ายดาย

boxplot

หากต้องการเปรียบเทียบการแจกแจงข้อมูลระหว่างกลุ่มอย่างง่ายดาย ให้แสดงกราฟ boxplot แบบแยกกลุ่มเรียงต่อกัน (side by side) โดยเปรียบเทียบด้วยสายตาทั้งค่ากลางและความผันแปรของการแจกแจงในแต่ละกลุ่ม และพิจารณาว่าข้อมูลแต่ละกลุ่มนั้นมีความสมมาตรหรือไม่ ซึ่งหากคุณนำเมาท์ไปชี้ไว้บนกราฟ โปรแกรม Minitab จะแสดงค่าควอร์ไทล์และค่าสถิติสรุปอื่นๆ สำหรับแต่ละกลุ่ม

boxplot hover

“การขึง” ของกราฟ box-and-whisker ในทิศทางต่าง ๆ สามารถช่วยประเมินความสมมาตรของข้อมูลได้

skewed boxplots

เยี่ยมใช่มั้ย? การแสดงกราฟที่เรียบง่ายและสง่างามนี้เป็นเพียงหนึ่งในหลายผลงานทางสถิติที่ยอดเยี่ยมของ John Tukey แต่กราฟ boxplot ก็มีทั้งจุดแข็งและข้อจำกัดเหมือนกับกราฟอื่น ๆ ซึ่งต่อจากนี้ไปคือสิ่งที่ควรพิจารณา

ระวังผลกระทบจากขนาดตัวอย่าง

พิจารณากราฟ boxplot ที่แสดงด้านล่างสำหรับข้อมูล 2 กลุ่ม คือ S4 และ L4

boxplot of s4 l4

เมื่อมองดูกราฟเหล่านี้แล้ว ไม่มีใครว่าคุณหรอกนะที่จะคิดว่า กลุ่ม L4 มีความแปรปรวนมากกว่ากลุ่ม S4

แต่รู้หรือไม่? ชุดข้อมูลทั้ง 2 กลุ่มถูกสร้างขึ้นโดยการสุ่มตัวอย่างจากการแจกแจงแบบปกติที่มีค่าเฉลี่ยเท่ากับ 4 และค่าเบี่ยงเบนมาตรฐานเท่ากับ 1 นั่นคือ ข้อมูลของทั้ง 2 มาจากประชากรกลุ่มเดียวกัน

แล้วทำไมถึงแตกต่างกันหล่ะ? สำหรับตัวอย่างของกลุ่ม L4 มีจำนวนข้อมูล 100 ตัว ในขณะที่ตัวอย่างของกลุ่ม S4 มีข้อมูลเพียงแค่ 4 ตัว ซึ่งตัวอย่างที่มีขนาดเล็ก จะย่อหนวด (whiskers) และทำให้กราฟ boxplot เกิดภาพลวงตาที่ทำให้ความผันแปรมีขนาดลดลง และด้วยวิธีนี้ หากจำนวนของข้อมูลมีความแตกต่างกันมาก กราฟ boxplot แบบแยกกลุ่มเรียงต่อกัน (side by side) ก็อาจจะถูกตีความผิดได้ง่าย

วิธีการดูผลกระทบจากขนาดตัวอย่าง

ยังโชคดี ที่คุณสามารถเปลี่ยนการตั้งค่าของกราฟ boxplot ในโปรแกรม Minitab เพื่อให้เห็นถึงผลกระทบจากขนาดตัวอย่างได้อย่างง่ายดาย โดยคลิกขวาที่กล่องในกราฟและเลือก Edit Interquartile Range Box จากนั้นคลิกแท็บ Options และเลือกตัวเลือกตามภาพ เพื่อแสดงความกว้างของกล่องตามสัดส่วนของขนาดตัวอย่าง

options dialog boxplot

และทำเช่นนั้น กราฟ boxplot แบบแยกกลุ่มเรียงต่อกัน (side by side) จะสะท้อนความแตกต่างของขนาดตัวอย่างได้อย่างชัดเจน

boxplot of s4 l4 widths

ใช่ กราฟมันดูแปลก แต่ก็ถูกแล้วที่มันควรแปลก! เพราะมันแสดงให้เห็นถึงวัตถุประสงค์ที่เรากำลังเปรียบเทียบขนาดตัวอย่างเท่ากับ 4 และขนาดตัวอย่างเท่ากับ 100 ซึ่งเป็นเรื่องแปลกที่เราต้องทำ

ในทางปฏิบัติ คุณน่าจะเห็นความแตกต่างเล็ก ๆ น้อย ๆ ของความกว้างของกล่อง ที่ขนาดตัวอย่างแตกต่างกันในแต่ละกลุ่ม (ถึงแม่ว้ามันไม่ค่อยสำคัญเท่าไร) และกราฟ boxplot แบบแยกกลุ่มเรียงต่อกัน (side by side) ต่อไปนี้ แสดงกลุ่มตัวอย่างที่มีขนาดตั้งแต่ 25 ถึง 100 ตัว

boxplot of a b c d e f

กล่องที่มีลักษณะบาง (กลุ่ม F) แสดงให้เห็นว่า ขนาดตัวอย่างมีขนาดเล็กกว่า จะเห็นได้ว่า “มีลักษณะบาง” ในขณะที่กล่องที่มีลักษณะหนา (กลุ่ม A) แสดงให้เห็นว่า ขนาดตัวอย่างที่มีขนาดใหญ่กว่า จะเห็นได้ชัดว่า มีลักษณะที่หนากว่า ซึ่งการเปรียบเทียบระหว่างกลุ่มในตอนนี้ ทำให้เราเข้าใจผิดน้อยลง เพราะว่า เราสามารถเห็นความแตกต่างของขนาดตัวอย่างในแต่ละกลุ่มได้อย่างชัดเจน

ตัวอย่างที่มีขนาดเล็ก ส่งผลให้ค่าควอไทล์ไม่มีความหมาย

ปัญหาอีกอย่างของการใช้กราฟ boxplot กับตัวอย่างที่มีขนาดเล็กก็คือ ค่าควอร์ไทล์ที่คำนวณได้อาจไม่มีความหมาย ตัวอย่างเช่น หากคุณมีข้อมูลเพียงแค่ 4-5 ตัว มันไม่สมเหตุสมผลเลยที่ช่วงระหว่างควอไทล์ (interquartile range quartile) จะแสดง ” พื้นที่ 50% ตรงกลาง ” ของข้อมูลของคุณ ใช่หรือไม่?

โปรแกรม Minitab แสดงตัวเลือกสำหรับกราฟ boxplot ที่สามารถช่วยอธิบายปัญหานี้ได้ โดยยกตัวอย่างเดิม ที่กลุ่ม S4 (N = 4) และกลุ่ม L4 (N = 100) ซึ่งทั้ง 2 กลุ่มได้สุ่มตัวอย่างจากประชากรที่มีการแจกแจงแบบปกติที่มีค่าเฉลี่ยเท่ากับ 4 และค่าเบี่ยงเบนมาตรฐานเท่ากับ 1

boxplot of s4 l4 1

ในการแสดงให้เห็นถึงความแม่นยำของการประมาณค่ามัธยฐาน (เส้นกึ่งกลางของกล่อง) ให้คลิกในกราฟ boxplot จากนั้นเลือกเมนู Editor > Add > Data Display แล้วคุณจะเห็นรายการของตัวเลือกที่คุณสามารถเพิ่มลงในกราฟได้ จากนั้นเลือกตัวเลือกตามภาพ เพื่อแสดงช่วงความเชื่อมั่นสำหรับค่ามัธยฐานบนกราฟ

boxplot median ci

นี่คือผลลัพธ์:

boxplot transformer

ดูกราฟ boxplot ของกลุ่ม L4 ทางด้านขวามือก่อน กล่องขนาดเล็กถูกเพิ่มไปในกราฟ ซึ่งอยู่ภายในกล่องใหญ่ที่แสดงช่วงระหว่างควอไทล์ (interquartile range quartile) จะแสดงช่วงความเชื่อมั่น 95% สำหรับค่ามัธยฐาน โดยการประมาณช่วงความเชื่อมั่น 95% สำหรับค่ามัธยฐานของกลุ่ม L4 ดูเหมือนจะเป็นการประมาณที่แม่นยำสำหรับข้อมูลกลุ่มนี้ (มีค่าระหว่าง 3.96 ถึง 4.35)

ในขณะที่กลุ่ม S4 ทางด้านซ้ายมือ มันคนละเรื่องกันเลย ซึ่งช่วงความเชื่อมั่น 95% สำหรับค่ามัธยฐาน มีขนาดกว้างมากจนทับหนวด (whiskers) บนกราฟอย่างเห็นได้ชัด (มีค่าระหว่าง 3.65 ถึง 5.19) ซึ่งกราฟ boxplot นี้ดูเหมือนหุ่นยนต์ทรานส์ฟอร์มเมอร์ที่เหลือแค่หัวและมีลักษณะอุ้ยอ้าย นั่นคือ สิ่งที่เกิดขึ้นเมื่อช่วงความเชื่อมั่นสำหรับค่ามัธยฐาน มีขนาดใหญ่กว่าช่วงระหว่างควอไทล์ (interquartile range quartile) ของข้อมูล และเมื่อคุณแสดงช่วงความเชื่อมั่นสำหรับค่ามัธยฐาน แล้วกราฟของคุณมีลักษณะเช่นนี้ ก็มักจะหมายความว่า กลุ่มตัวอย่างของคุณอาจมีขนาดเล็กเกินไปที่จะประมาณค่าควอร์ไทล์ที่มีความหมาย

กรณีตัวอย่างที่เห็นได้ชัด : กราฟ boxplot และการเมือง

ฉันก็เหมือน Ginger Rogers ที่กำลังแก้ต่างบทความย้อนหลัง (ถึงแม้ว่าฉันจะไม่ใช่ดาราก็ตาม) แล้วอะไรที่ฉันต้องมาแก้ต่างเกี่ยวกับประเด็นนี้ด้วยกราฟ boxplot สืบเนื่องจาก ความคิดเห็นจากผู้อ่านบทความ ที่แนะนำเกี่ยวกับการเลือกใช้กราฟ time series plot ของฉัน เพื่อแสดงข้อมูลการขาดดุลของสหรัฐฯ ที่มีความคิดเห็นอคติทางด้านการเมือง และนี่คือกราฟ time series plot ที่ได้

time series plot of gdp

แม้ว่าฉันจงใจตีความกราฟนี้โดยละเว้นมุมมองทางการเมือง (เนื่องจากบรรยากาศทางการเมืองบนอินเตอร์เน็ตค่อนข้างเป็นพิษ ซึ่งฉันไม่ได้ต้องการสิ่งนั้น!) แต่ผู้อ่านรู้สึกว่า การเลือกกราฟ time series plot สำหรับข้อมูลเหล่านี้ เหมือนฉันกำลังพยายามแสดงถึงการบริหารของพรรคเดโมแครต (Democratic) ในมุมมองที่ดีกว่า ซึ่งผู้อ่านขอให้ฉันพิจารณากราฟ boxplot แบบแยกกลุ่มเรียงต่อกัน (side by side) ด้วยข้อมูลชุดเดียวกัน

boxplot of a b c d e f 1

ฉันรู้สึกซาบซึ้งกับข้อเสนอแนะที่มาจากความรู้สึกทั่ว ๆ ไปของผู้อ่าน แต่อย่างไรก็ตาม การตรวจสอบข้อมูลของคุณโดยใช้การวิเคราะห์ด้วยกราฟต่าง ๆ นั้นถือเป็นกลยุทธ์ที่ดีในทุก ๆ โอกาส

แต่ไม่ใช่ว่าทุกกราฟจะเหมาะสมกับข้อมูลทุกชุด และสำหรับข้อมูลเหล่านี้ ฉันขอยืนยันว่า กราฟ boxplot ไม่ใช่ตัวเลือกที่ดีที่สุด ไม่ว่าคุณจะเป็นสมาชิกพรรคเดโมแครต (Democratic) หรือพรรครีพับลิกัน (Republican) หรือพรรค Objectivist หรือพรรค Rent Is Too Damn High ก็ตาม

อีกหนึ่งสิ่ง ขนาดตัวอย่างสำหรับกราฟ boxplot แต่ละกลุ่มนั้นมีขนาดเล็กเกินไป (ส่วนใหญ่ข้อมูลมีจำนวน 4-8 ตัว) ทำให้เกิดประเด็นที่กล่าวถึงก่อนหน้านี้ แต่มีบางอย่างที่ไม่เหมาะสมอีกนะ…

บริบทคือทุกสิ่งทุกอย่าง… โดยเฉพาะอย่างยิ่งในสถิติ

ในกรณีส่วนใหญ่ เช่น ในข้อมูลการประมวลผลส่วนใหญ่ กล่องและหนวด (whiskers) ที่ยาวกว่าจะบ่งบอกถึงความแปรปรวนที่มากกว่า ซึ่งมักจะเป็นสิ่งที่ “ไม่ดี” ดังนั้นเมื่อคุณมองดู boxplot ของ %GDP ที่ขาดดุลอย่างรวดเร็ว สายตาของคุณจะถูกดึงดูดไปยังกล่องที่ยาวกว่า เช่น กราฟจากการบริหารของ Truman ซึ่งหมายความว่า การขาดดุลนั้น “ไม่ดี” จากการบริหารของพวกเขา 

แต่ความแปรปรวนเป็นสิ่งที่ไม่ดีกับการขาดดุลหรือไม่? หากประธานาธิบดีรับช่วงขาดดุลที่มหาศาลและเปลี่ยนให้เป็นเกินดุลอย่างรวดเร็ว นั่นทำให้เกิดความแปรปรวนจำนวนมาก—แต่มันเป็นความแปรปรวนที่ดี

คุณสามารถโต้แย้งได้ว่าตำแหน่งสัมพัทธ์ของเส้นกึ่งกลาง (ค่ามัธยฐาน) ของกราฟแบบแยกกลุ่มเรียงต่อกัน (side by side) นั้นเป็นวิธีที่มีประโยชน์ในการเปรียบเทียบการขาดดุล “เฉลี่ย” สำหรับการบริหารในแต่ละกลุ่ม แต่จริง ๆ แล้ว มันเป็นเรื่องง่ายที่จะเห็นค่ามัธยฐานของการบริหารแต่ละกลุ่มในกราฟ time series plot เพราะข้อมูลมีจำนวนที่น้อยเกินไป และกราฟ time series plot ก็ให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับแนวโน้มโดยภาพรวมและข้อมูลการขาดดุลในแต่ละปี

ดูว่าเกิดอะไรขึ้นเมื่อคุณสร้างกราฟจากข้อมูลชุดเดียวกัน แต่มีความแตกต่างของลำดับเวลา โดยใช้กราฟ time series plot และกราฟ boxplot

time series plot of increasing decreasing alternating1 alternating2
boxplot of increasing decreasing alternating1 alternating2

การใช้กราฟ boxplot สำหรับข้อมูลที่มีแนวโน้มนี้เหมือนกับการใส่ผ้าปิดตา คุณต้องการเลือกกราฟที่ช่วยอธิบายข้อเท็จจริงเกี่ยวกับข้อมูล ไม่ใช่ไปบดบังมัน

โดยสรุป ก็เหมือนกับประแจเลื่อนนั่นแหละ มันเป็นเครื่องมือที่ยอดเยี่ยม เว้นแต่คุณจะไปใช้มันเป็นที่เปิดกระป๋อง กราฟก็เป็นแบบนั้นเช่นกัน


บทความต้นฉบับ : How to Think Outside the Boxplot

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ