การวิเคราะห์ข้อมูล Bitcoin โดยใช้ Minitab Predictive Analytics Module

ด้วยความนิยมของ bitcoin ที่เพิ่มขึ้น จึงทำให้นักวิเคราะห์จำนวนมากพยายามที่จะทำความเข้าใจเกี่ยวกับปรากฏการณ์นี้ แม้ว่าราคาของ bitcoin ที่แท้จริงนั้น ทำนายได้ยากมาก แต่ก็มีความเป็นไปได้ที่จะระบุแนวโน้มและความสัมพันธ์ของข้อมูลที่น่าสนใจ และนับต่อจากนี้ ฉันจะสาธิตวิธีการใช้งาน Minitab Predictive Analytics Module เพื่อทำงานนี้ให้สำเร็จ


เรียนรู้เกี่ยวกับ Minitab Predictive Analytics Module ในการสัมมนาออนไลน์ตามความต้องการของเรา:

watch

สำหรับข้อมูลที่แท้จริงของ bitcoin สามารถหาได้จากแหล่งข้อมูลสาธารณะได้หลายแห่ง ซึ่งหนึ่งในนั้น มีแหล่งข้อมูลที่เป็นประโยชน์อย่างมาก คุณสามารถดาวน์โหลดชุดข้อมูลได้จากที่นี่

ชุดข้อมูลประกอบด้วยค่าสถิติย้อนหลังของ bitcoin ในแต่ละวัน ตั้งแต่ปี 2009 ซึ่งข้อมูลในแต่ละวันประกอบไปด้วย 44 ดัชนีที่แตกต่างกัน รวมถึงราคาของ bitcoin หรือค่าธรรมเนียมต่าง ๆ หรือจำนวน block หรือจำนวนธุรกรรม หรือผลตอบแทนจากการลงทุน และอื่น ๆ คลิกที่นี่ เพื่อดูคำอธิบาย data dictionary ทั้งหมด

สำหรับเป้าหมายในการวิเคราะห์ของเรา คือ ฉันจะดูค่าสถิติของ bitcoin ในแต่ละวัน ตั้งแต่วันที่ 1 มกราคม 2015 ถึง 20 เมษายน 2021 โดยได้ขจัดข้อมูลบางส่วนในอดีตออกไป ที่อาจจะส่งให้เกิดการเบี่ยงเบนต่อแนวโน้มล่าสุด ซึ่งชุดข้อมูลประกอบด้วยตัวแปรที่เรียกว่า ROI30d คือ เปอร์เซ็นต์ผลตอบแทนจากสินทรัพย์ที่ลงทุน โดยมีการซื้อล่วงหน้า 30 วัน และวัตถุประสงค์หลักของฉัน คือ การทำนายผลตอบแทนจากการลงทุน 30 วันได้อย่างแม่นยำ โดยใช้ตัวแปรที่เหลือเป็นตัวแปรทำนายที่มีศักยภาพ

สรุปข้อมูล

ก่อนอื่น ฉันทำการสรุปข้อมูลต่าง ๆ อย่างรวดเร็ว โดยใช้โปรแกรมสำเร็จรูป Minitab

ด้านล่างนี้ คือ Time series plot ของตัวแปรผลตอบแทนจากการลงทุน 30 วัน:

roi30d

อย่างที่คุณเห็น การลงทุนใน Bitcoin นั้นมีความผันผวน ซึ่งสามารถให้ผลตอบแทนที่ทำให้เกิดกำไรมหาศาล แต่ก็อาจจะขาดทุนได้เยอะเช่นเดียวกัน ฉะนั้นระยะเวลาของการลงทุนใน Bitcoin จึงมีความสำคัญต่อผลตอบแทนจากการลงทุนอย่างมาก ดังนั้น การรู้ว่าสิ่งใดที่ส่งผลกระทบต่อผลตอบแทนการลงทุน ก็จะสามารถกำหนดได้ว่า เมื่อใดควรเป็นเวลาที่ดีที่สุดในการลงทุน

การกำหนดตัวแปรทำนายที่สำคัญที่สุด

บ่อยครั้งที่เราถูกถามและต้องตอบคำถามที่ดีที่สุดในระยะเวลาที่รวดเร็ว ด้วยตัวแปรทำนายที่เป็นไปได้ 44 ตัวแปร ฉันจึงต้องการรู้ว่าตัวแปรตัวใดสำคัญที่สุด และฉันต้องรู้อย่างรวดเร็ว ดังนั้นฉันจึงได้ทำการวิเคราะห์ขึ้นมา

และนั่นเป็นเหตุผลว่าทำไม Minitab Predictive Analytics Module จึงมีคำสั่งที่เรียกว่า “Discover Key Predictors” เพราะคำสั่งนี้ในโปรแกรม Minitab สามารถช่วยให้ฉันระบุตัวแปรทำนายที่สำคัญที่สุด ซึ่งทำให้ฉันสามารถสร้างตัวแบบที่มีความแม่นยำสูงและดูง่ายไม่ซับซ้อน รวมทั้งยังใช้งานได้ง่ายอีกด้วย

โดยการนำชุดข้อมูลและเรียกใช้งานคำสั่ง “Discover Key Predictors” ของ TreeNet ซึ่งเป็นไปตามที่คาดไว้ โปรแกรม Minitab เริ่มต้นด้วยการนำชุดตัวแปรทำนายที่คัดเลือกไว้ แล้วดำเนินการสร้างชุดของตัวแบบขึ้นมาตามลำดับ ซึ่งตัวแบบในแต่ละลำดับ จะขจัดตัวแปรทำนายที่สำคัญน้อยที่สุดออกไปทีละตัวแปร ดังนั้น วิธีการทั้งหมดนี้ เป็นวิธีการทั่ว ๆ ไปที่ปรับให้มีความทันสมัยของวิธีการ backwards elimination ซึ่งรู้จักจากการสร้างตัวแบบการถดถอยแบบดั้งเดิม (classical regression modeling) และนี่คือ สิ่งที่จะเกิดขึ้นเมื่อฉันเริ่มต้นด้วยชุดตัวแปรทำนายที่สมบูรณ์ (ไม่รวมข้อมูลวันที่):

alternativemodel

เมื่อดูผลลัพธ์จากการทำ graphical visualization ของตัวแบบที่เป็นไปได้ คุณจะเห็นว่า ความแม่นยำของตัวแบบมีค่าประมาณ 90% จนเหลือตัวแปรทำนายเพียง 2 ตัวแปร และเมื่อฉันเจาะลึกถึงการวิเคราะห์ ผ่านการใช้คำสั่ง “Discover Key Predictors” พบว่า ตัวแปร AssetEODCompletionTime คือ “last man standing” หรือตัวแปรทำนายที่สำคัญที่สุด

แต่เป็นที่น่าเสียดาย เมื่อค้นหาคำจำกัดความจาก data dictionary พบว่า “ตัวแปรทำนายตัวนี้” เป็นเพียงเวลาที่รวบรวมข้อมูลล่าสุดในแต่ละวัน ซึ่งไม่ใช่ตัวแปรที่เป็นประโยชน์ และด้วยเหตุนี้ ฉันจึงต้องขจัดสิ่งนี้ออกไป เพราะฉันมั่นใจว่าตัวแปรนี้มีความสัมพันธ์ แต่ไม่สามารถใช้ในการทำนายได้ – นี่ไม่ใช่เรื่องแปลกในการเลือกตัวแปรทำนาย: บ่อยครั้งที่เครื่องจะเลือกตัวแปรที่ไร้ประโยชน์จำนวนมากเป็นอันดับแรก ซึ่งตัวอย่างนี้ยังแสดงให้เห็นถึงความสำคัญของการวิเคราะห์เชิงทำนายที่ควบคู่กับความรู้เฉพาะทาง และโชคดีที่ปัญหานี้มีวิธีแก้ไขที่ง่าย เพียงแค่ลากมันออกจากรายการเริ่มต้นของตัวแปรทำนายที่เป็นไปได้ และทำการวิเคราะห์ “Discover Key Predictor” ซ้ำอีกครั้ง

หลังจากขจัดตัวแปร AssetEODCompletionTime จากรายการเดิม และเริ่มค้นหาตัวแปรทำนายใหม่อีกครั้ง ฉันได้ข้อสรุปดังนี้:

optimalmodel

โปรดทราบว่า การทำงานของโปรแกรม Minitab ได้เลือกตัวแบบที่เหมาะสมที่สุด โดยใช้ตัวแปรดั้งเดิม 8 ตัวแปร และเมื่อแบ่งชุดข้อมูลทดสอบที่ 50% จะได้ค่า R-squared ถึง 91% และนี่เป็นประสิทธิภาพที่ยอดเยี่ยมสำหรับตัวแบบการถดถอยประเภทนี้! และยังบอกถึงว่า ความผันแปรทางสถิติในตัวแบบนั้นมีประสิทธิภาพประมาณ 90% อีกด้วย

นอกจากนี้ โปรแกรม Minitab ยังช่วยให้ฉันเห็นภาพที่เป็นประโยชน์ได้ว่า ความแม่นยำของตัวแบบในภาพรวมนั้นลดลง ถึงแม้ว่าจะเหลือตัวแปรทำนายน้อยกว่า 3 ตัวแปรก็ตาม แต่ก็ยังมีนัยสำคัญอยู่ และเนื่องจากว่าการสร้างตัวแบบที่ง่ายที่สุดนั้นเป็นประโยชน์ แต่ขณะเดียวกันจะต้องมีความแม่นยำสูงที่สุดด้วย โดยฉันเลือกตัวแบบที่มีตัวแปรทำนาย 3 ตัวแปรสำหรับการวิเคราะห์ที่ละเอียดยิ่งขึ้น หรืออีกทางเลือกหนึ่ง คุณสามารถนำตัวแปรทำนายบางตัวแปรออกจากชุดตัวแปรทำนายเดิมและทำการค้นหาตัวแปรทำนายที่ดีที่สุดอีกครั้ง เพื่อระบุชุดของตัวแปรทำนายที่มีผลอย่างมีนัยสำคัญ แต่โปรดจำไว้ว่า ในตัวอย่างนี้ ฉันพยายามระบุสิ่งที่เกิดขึ้นอย่างรวดเร็ว ถ้าหากวัตถุประสงค์ของคุณ คือ ตัวแบบที่มีความแม่นยำสูง คุณอาจจะใช้ตัวแบบที่เหมาะสมที่สุดอื่นแทนก็ได้ อย่างไรก็ตาม โอกาสในการวิเคราะห์นั้นไม่มีที่สิ้นสุด และไม่ว่าวัตถุประสงค์ของคุณคืออะไร คุณก็สามารถทำได้อย่างง่ายดายด้วยการคลิกเพียงไม่กี่ครั้ง!

ทำความเข้าใจเชิงลึกสำหรับการสร้างตัวแบบ

กลับไปที่ตัวอย่างของฉัน ตอนนี้ฉันจะพิจารณาให้ละเอียดมากยิ่งขึ้นผ่านตัวแบบที่มีตัวแปรทำนาย 3 ตัวแปรตามที่เลือกไว้ด้านบน และนี่คือประสิทธิภาพโดยรวมของตัวแบบนี้:

modelsummary

อย่างที่เห็น เมื่อแบ่งชุดข้อมูลทดสอบ (test data) ที่ 50% ตัวแบบมีความแม่นยำประมาณ 88%  ซึ่งเป็นผลลัพธ์ที่ยอดเยี่ยม นอกจากนี้โปรแกรม Minitab ยังรายงานการจัดอันดับความสำคัญของตัวแปรทำนาย 3 ตัวแปรที่มีอิทธิพลต่อตัวแบบ

relativevariable

ตัวแปรทำนายที่สำคัญที่สุด คือ CapMVRVCur หรือผลตอบแทนจากการลงทุนใน 3 วัน มันบอกได้ว่าตัวแปรนี้สรุปความเป็นไปได้ว่า มูลค่าที่สูง/ต่ำเกินไปจากมูลค่าตลาด และด้านล่าง คือ Time Series Plot ของตัวแปรนี้ในช่วงเวลา 6 ปีที่ผ่านมา

capmvr

ดูเหมือนว่า ตัวแปรทำนายนี้มีแนวโน้มที่ผันผวนอยู่ระหว่าง 1.0 ถึง 4.0 โดยค่าปัจจุบันมีค่าประมาณ 3.3 และอาจจะลดลง ซึ่งด้านล่างนี้คือคำอธิบายเพิ่มเติมโดยละเอียดเกี่ยวกับตัวแปรทำนายนี้จาก data dictionary

The intuition behind the creation of this ratio was to divide a price function by a ‘fundamental’ as proxied by Realized Capitalization (see Capitalization, realized, USD). This gives you a ratio potentially indicating periods of overvaluation (when network value far exceeds its historical relationship to realized cap) and undervaluation. Realized cap is a potent fundamental as it can be understood as the average cost basis for holders at a given time, so the ratio of the two indicates whether holders are underwater or not, giving insight into aggregate sentiment.

ตัวแบบ TreeNet gradient boosting ยังแสดงให้เห็นถึงอิทธิพลของตัวแปรทำนายนี้ที่ทำให้ส่งผลต่อผลตอบแทนจากการลงทุน 30 วัน:

dependenceplot

หากยังจำกันได้ ค่าล่าสุดของตัวแปรทำนายนี้มีความผันผวนประมาณ 3.3 และอาจจะลดลงอย่างต่อเนื่อง จาก dependency plot ด้านบน เป็นที่ชัดเจนว่า หากสิ่งนี้เป็นจริง เราคาดว่า ผลตอบแทนจากการลงทุนใน 3 วันจะลดลงอย่างต่อเนื่อง หรืออีกนัยหนึ่ง หากมีเหตุผลที่เชื่อได้ว่า ตัวแปรทำนายนี้จะมีค่าเพิ่มขึ้นเป็น 3.7 ขึ้นไป เราอาจทำนายได้ว่า ผลตอบแทนจากการลงทุนใน 3 วัน จะมีค่ากระโดดเพิ่มขึ้นอย่างรวดเร็ว ตามรูปแบบที่ผ่านมาในอดีต

สำหรับวิธีการข้างต้นเป็นเพียงการเลียนแบบสถานการณ์ทั่ว ๆ ไปที่พบได้ในการวิเคราะห์เชิงทำนาย โดยเราเริ่มต้นด้วยการเตรียมชุดข้อมูลที่ประกอบด้วยตัวแปรทำนายถึง 44 ตัวแปร และค้นพบตัวแปรทำนายที่สำคัญอย่างรวดเร็ว เพียงแค่ใช้เวลาไม่กี่นาที ซึ่งการคัดเลือกด้วยวิธี Key Predictor เป็นการสร้างทางลัดเพื่อหลีกเลี่ยงกระบวนการที่อาจจะน่าเบื่อและลำบากในการพิจารณาตัวแปรทีละตัว นอกจากนี้ ตัวแบบ TreeNet gradient boosting ยังแสดงความแม่นยำที่ยอดเยี่ยมอีกด้วย จากทั้งหมดที่กล่าวมา เป็นการเน้นย้ำถึงพลังของการวิเคราะห์เชิงทำนายสมัยใหม่ (Modern Predictive Analytics) และแสดงให้เห็นว่า เหตุใดคุณจึงจำเป็นที่ต้องก้าวไปข้างหน้า!


รู้สึกมีแรงบันดาลใจที่จะทำการวิเคราะห์เชิงคาดการณ์ของคุณเองในซอฟต์แวร์สถิติ Minitab หรือไม่?

trial

บทความต้นฉบับ : Analyzing Bitcoin Data Using the Minitab Predictive Analytics Module

ต้นฉบับนำมาจาก Minitab blog, แปลและเรียบเรียงโดยรัฐพงษ์ ยอดสีมา

บริหารจัดการ SCM Blog โดยชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด ตัวแทน Minitab ในประเทศไทย

Minitabbloglogo

เพิ่มเติมเกี่ยวกับบริษัท Minitab

Minitab ช่วยให้บริษัทและองค์กรต่างๆ สามารถมองเห็นแนวโน้มของข้อมูล, แก้ปัญหาและค้นพบประเด็นสำคัญจากข้อมูลเชิงลึก โดยนำเสนอชุดโซลูชั่นที่ครอบคลุมทุกด้านและดีที่สุดสำหรับซอฟต์แวร์ในระดับเดียวกัน ที่ใช้สำหรับการวิเคราะห์ข้อมูลและการปรับปรุงกระบวนการ 
ด้วยวิธีการที่เป็นเอกลักษณ์ และการนำเสนอซอฟต์แวร์และบริการแบบองค์รวม Minitab ช่วยให้องค์กรเข้าถึงกระบวนการตัดสินใจในส่วนที่ช่วยผลักดันให้เกิดความเป็นเลิศทางธุรกิจได้ดีขึ้น ความง่ายในการใช้งานที่โดดเด่นกว่าใครมีส่วนช่วยให้ Minitab สามารถทำให้การเข้าถึงข้อมูลเชิงลึกเป็นเรื่องที่ง่าย ทีมงานของ Minitab ซึ่งประกอบด้วยผู้เชี่ยวชาญทางด้านการวิเคราะห์ข้อมูลที่ได้ผ่านการอบรมมาเป็นอย่างเข้มงวด จะช่วยให้ผู้ใช้งานมั่นใจว่าจะได้รับประโยชน์สูงสุดจากการใช้งานวิเคราะห์ข้อมูลและพร้อมที่จะให้คำปรึกษาตลอดเวลาที่ใช้งานเพื่อนำไปสู่การตัดสินใจที่ดีขึ้น รวดเร็ว และแม่นยำ 
เป็นเวลากว่า 50 ปีที่ Minitab ได้ช่วยองค์การต่าง ๆ เพิ่มรายได้ ควบคุมและลดต้นทุน เพิ่มคุณภาพ เสริมสร้างความพึงพอใจของลูกค้า และเพิ่มประสิทธิภาพ ธุรกิจและองค์นับหมื่นทั่วโลกใช้ Minitab Statistical Software®, Companion by Minitab®, Minitab Workspace®, Salford Predictive Modeler® and Quality Trainer® เป็นเครื่องมือช่วยในการค้นพบและปรับปรุงความบกพร่องในกระบวนการ