1/6/59

เครื่องมือวิเคราะห์ข้อมูลเวป

เทคนิคการวิเคราะห์ข้อมูล



Maths and Stats for Web Analytics and Conversion Optimization คณิตศาสตร์และสถิติสำหรับ Web Analytics บทบาทของวิชาคณิตศาสตร์และสถิติในโลกของการวิเคราะห์เว็บไม่ชัดเจนให้ตลาดจำนวนมาก ไม่พูดมากหรือเขียนเกี่ยวกับการใช้งานของสถิติและข้อมูลทางวิทยาศาสตร์ในการเพิ่มประสิทธิภาพการแปลง หนังสือเล่มนี้ได้รับการเขียนเพื่อเติมช่องว่างความรู้นี้. หนังสือหนักบ่อยครั้งใหญ่ในวิชาคณิตศาสตร์และสถิติสอนให้คุณมากกว่าที่คุณต้องการที่จะรู้ว่าคุณได้เรียนรู้สิ่งที่คุณอาจไม่เคยใช้ในชีวิตการทำงานของคุณ ไม่เพียง แต่หนังสือเหล่านี้เสียเวลาและเงินของคุณ แต่พวกเขายังผลักดันให้คุณอย่างต่อเนื่องที่จะให้ขึ้นในการเรียนรู้วิชาคณิตศาสตร์และสถิติที่สำคัญทักษะ. คู่มือผู้เชี่ยวชาญด้านนี้จะสอนคุณว่าสิ่งที่คุณจำเป็นต้องรู้ มันจะสอนวิธีการใช้ประโยชน์จากความรู้ในวิชาคณิตศาสตร์และสถิติในการสั่งซื้อที่จะต้องตีความข้อมูลและดำเนินการได้อย่างรวดเร็วซึ่งสามารถปรับปรุงด้านของธุรกิจออนไลน์ของคุณ. 



การทำเหมืองข้อมูล (Data Mining)
            การทำเหมืองข้อมูล (Data Mining) คือกระบวนการที่กระทำกับข้อมูลจำนวนมากเพื่อค้นหารูปแบบและความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น ในปัจจุบันการทำเหมืองข้อมูลได้ถูกนำไปประยุกต์ใช้ในงานหลายประเภท ทั้งในด้านธุรกิจที่ช่วยในการตัดสินใจของผู้บริหาร ในด้านวิทยาศาสตร์และการแพทย์รวมทั้งในด้านเศรษฐกิจและสังคม
การประยุกต์ Web Mining เพื่อการบริการ web
 ได้มีงานวิจัยจำนวนมากที่นำ Web Mining มาช่วยในการวิเคราะห์งานบริการ web เพื่อนำไปพัฒนาการให้บริการที่ดี และน่าสนใจขึ้นส่วนใหญ่จะเน้นไปที่การนำข้อมูลในรูปของตัวอักษร  (Text ) มาวิเคราะห์รวมกับข้อมูลชนิดอื่น โดยที่ข้อมูลเหล่านี้มักจะได้จากการบันทึกรายละเอียดในทุก ๆ ครั้งที่มีผู้เข้าใช้บริการใน web แต่ละแห่ง  ตัวอย่างของการประยุกต์ใช้ Web Mining ในลักษณะนี้ได้แก่
• การรวมข้อมูลตัวอักษรเข้ากับข้อมูล Links บน web เพื่อสรุปหา web page ที่จำเป็นจะต้องได้รับอนุญาต จึงจะเข้าใช้ได้ภายใต้หัวข้อที่กำหนด โดยจะมีคุณภาพดีกว่าการใช้ Search Engines ที่มีอยู่แพร่หลายในปัจจุบัน
• การผสมข้อมูลเกี่ยวกับลักษณะการใช้ ช่วงระยะเวลาและ Link ที่มีผู้เข้าใช้บริการ web เพื่อนำมาพิจารณาปรับปรุงการให้บริการโดยอาจจะเพิ่มหรือลดบริการบางชนิดให้เหมาะสมกับกลุ่มผู้ใช้ในแต่ละสภาพแวดล้อม ซึ่งอาจจะมีความสนใจที่ต่างกันไป
• การนำข้อมูลชนิดตัวอักษร และข้อมูลของรูปภาพ ( Image ) มาผสมผสานกัน เพื่อประโยชน์ในการค้นหาของ Search Engines ในกรณีที่ต้องการค้นหาข้อมูลที่เป็นรูปภาพ (http://std.kku.ac.th : 25/06/54 )
Web Mining กับการทำธุรกิจ e-Commerce
 ในการทำธุรกิจต่าง ๆ ไม่ว่าจะในรูปของห้างร้าน บริการสั่งของทางไปรษณีย์ หรือการทำธุรกิจแบบอิเล็กทรอนิกส์นั้น ปัจจัยหนึ่งที่มีความสำคัญอย่างมากต่อความสำเร็จของธุรกิจก็คือ ความเข้าใจในตัวลูกค้า หรือกลุ่มลูกค้า ยิ่งรู้ข้อมูลมากทำให้เข้าใจลูกค้าอย่างแท้จริงมากขึ้น โอกาสที่จะทำธุรกิจให้ตรงกับความต้องการของตลาดก็จะมีมากขึ้นไปด้วย
 ข้อมูลของลูกค้าดังกล่าวมานี้ ความจริงแล้วมีให้นำมาใช้ได้มากมายอยู่แล้ว แต่อาจจะอยู่ในรูปที่เป็นได้ไม่ชัดเจน อันได้แก่ ข้อมูลที่รวบรวมไว้จากการบันทึกใน log file ของการใช้บริการ web หรือข้อมูลจากการสมัครสมาชิกในรูปแบบต่าง ๆ เป็นต้น ข้อมูลเหล่านี้สามารถอำนวยประโยชน์ในการติดตามดูผู้ใช้ (user tracking ) ยิ่งผู้ใช้เข้าใช้ web บ่อยและนานขึ้น เราก็จะยิ่งมีโอกาสทราบและรู้จักกับผู้ใช้มากขึ้นเท่านั้น สำหรับข้อมูลดังกล่าวเกี่ยวกับผู้ใช้จะมีการวิเคราะห์ออกมาใน 3 ลักษณะดังต่อไปนี้
1.Demographics เป็นข้อมูลเกี่ยวกับที่อยู่ หรือสถานที่ของผู้ใช้ในขณะที่เข้าใช้บริการ web ซึ่งจะสามารถประมวลเป็นสถิติบริเวณที่อยู่อาศัยของกลุ่มผู้ใช้ส่วนมากได้
2.Phychographics เป็นข้อมูลด้านจิตวิทยา ซึ่งแสดงถึงพฤติกรรม หรือค่านิยมในด้านต่าง ๆ ของผู้ใช้ โดยสามารถจะแบ่งแยกกลุ่มผู้ใช้ตามข้อมูลการเข้าใช้บริการ web ทั้งในแง่ของเวลาและเนื้อหา
3.Technolographics เป็นข้อมูลที่แสดงถึงระดับความรู้และความสนใจในเทคโนโลยีด้าน ต่าง ๆ ของผู้ใช้ รวมถึงเครื่องคอมพิวเตอร์ที่ติดต่อเข้ามาด้วย ซึ่งจะช่วยในการพัฒนาสินค้า และบริการให้น่าสนใจและเหมาะสมในแง่ของเทคโนโลยีได้ดีขึ้น
เมื่อนำข้อมูลที่วิเคราะห์แล้วทั้ง 3 ลักษณะนี้มาพิจารณาโดยละเอียด จะเกิดประโยชน์อย่างมากในการศึกษาเกี่ยวกับสภาพ และพฤติกรรมโดยรวมของประชากร ซึ่งจำนวนข้อมูลที่นำมาใช้วิเคราะห์มักจะมีจำนวนมาและให้ผลการวิเคราะห์ที่มีความแม่นยะสูง (http://std.kku.ac.th : 25/06/54 )
การประยุกต์ Web Mining ทางด้านการตลาดบนอินเตอร์เน็ต
 Data Mining เป็นกระบวนการสืบค้นข้อมูลสำคัญอันจะเป็นประโยชน์ต่อการดำเนินธุรกิจออกจากกองข้อมูลขนาดมหาศาลที่จัดเก็บอยู่ภายในแหล่งฐานข้อมูลของแต่ละองค์กร การขุดค้นข้อมูลด้วยเทคโนโลยี Data Mining ประกอบไปด้วยขั้นตอนเทคโนโลยีอันสลับซับซ้อนมากมาย ไม่ว่าจะเป็นการเรียนรู้จดจำแบบแผนมาตรฐานของข้อมูลเฉพาะกลุ่ม (pattern recognition technology) การใช้ประโยชน์จากอัลกอริทึม ซึ่งออกแบบมาเพื่อให้เครื่องคอมพิวเตอร์สามารถเรียนรู้และพัฒนาตัวมันเองได้ (machinelearning & genetic algorithms) หรือการเชื่อมโยงแลกเปลี่ยนข้อมูลภายในเครือข่ายเน็ตเวิร์คแบบโพลีโนเมี่ยลซึ่งเลียนแบบการทำงานระบบประสาทของมนุษย์ (Netural & Polynomial networks) ฯลฯ
 อย่างไรก็ตาม ไม่ว่าจะมีการใช้เทคโนโลยีทางคอมพิวเตอร์ที่สลับซับซ้อนเพียงไร เป้าหมายของ Data Mining ก็เป็นเรื่องง่ายๆ คือ  ทำอย่างไรถึงจะเอาชนะคู่แข่งทางธุรกิจให้ได้ ทำอย่างไรถึงจะรู้ได้ว่าประชากรกลุ่มไหนคือ ลูกค้า เป้าหมาย(Who) และประชากรกลุ่มนี้ต้องการซื้ออะไร (What) ซื้อที่ไหน (Where) ซื้อเมื่อไหร่ (When) และที่สำคัญที่สุดก็คือ อะไรคือแรงขับเคลื่อนให้ลูกค้าเป้าหมายต้องการสินค้าที่ว่านั้น (Why) ซึ่งคำถามหลักๆ เหล่านี้เมื่อมาผนวกเข้ากับรูปแบบการดำเนินธุรกิจยุคดิจิตอลที่มีเครือข่ายอินเตอร์เน็ตเป็นสมรภูมิการตลาดอันไร้พรมแดน ก็ส่งผลให้เทคโนโลยี Data Mining กลายสภาพมาเป็นเครื่องมือการตลาดที่สำคัญมาก สำคัญขนาดที่ว่า นักธุรกิจรายใดไม่ให้ความสำคัญกับมัน ก็อาจจะถูกคู่แข่งทางการค้าของตนทิ้งห่างไปเลย (http://std.kku.ac.th : 25/06/54 )
ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม
• จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet  ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด ,  เครดิตการ์ด , อีคอมเมิร์ซ
•ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support System)  เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้
• ระบบ computer สมรรถนะสูงมีราคาต่ำลง  เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ
• การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว (http://std.kku.ac.th : 25/06/54 )
การประยุกต์ใช้งานการทำเหมืองข้อมูล
• ธุรกิจค้าปลีกสามารถใช้งาน Data Mining ในการพิจารณาหากลยุทธ์ให้เป็นที่สนใจกับผู้บริโภคในรูปแบบต่าง ๆ เช่น ที่ว่างในชั้นวางของจะจัดการอย่างไรถึงจะเพิ่มยอดขายได้ เช่นที่ Midas ซึ่งเป็นผู้แทนจำหน่ายอะไหล่สำหรับอุตสาหกรรมรถยนต์ งานที่ต้องทำคือการจัดการกับข้อมูลที่ได้รับจากสาขาทั้งหมด ซึ่งจะต้องทำการรวบรวมและวิเคราะห์อย่างทันท่วงที
• กิจการโทรคมนาคม เช่นที่ Bouygues Telecom ได้นำมาใช้ตรวจสอบการโกงโดยวิเคราะห์รูปแบบการใช้งานของสมาชิกลูกข่ายในการใช้งานโทรศัพท์ เช่น คาบเวลาที่ใช้จุดหมายปลายทาง ความถี่ที่ใช้ ฯลฯ และคาดการณ์ข้อบกพร่องที่เป็นไปได้ในการชำระเงิน เทคนิคนี้ยังได้ถูกนำมาใช้กับลูกค้าโทรศัพท์เคลื่อนที่ซึ่งระบบสามารถตรวจสอบได้ว่าที่ใดที่เสี่ยงที่จะสูญเสียลูกค้าสูงในการแข่งขัน France Telecom ได้ค้นหาวิธีรวมกลุ่มผู้ใช้ให้เป็นหนึ่งเดียวด้วยการสร้างแรงดึงดูดในเรื่องค่าใช้จ่ายและพัฒนาเรื่องความจงรักภักดีต่อตัวสินค้า
• การวิเคราะห์ผลิตภัณฑ์ เก็บรวบรวมลักษณะและราคาของผลิตภัณฑ์ทั้งหมดสร้างโมเดลด้วยเทคนิค Data Mining และใช้โมเดลในการทำนายราคาผลิตภัณฑ์ตัวอื่น ๆ
• การวิเคราะห์บัตรเครดิต
• ช่วยบริษัทเครดิตการ์ดตัดสินใจในการที่จะให้เครดิตการ์ดกับลูกค้าหรือไม่
• แบ่งประเภทของลูกค้าว่ามีความเสี่ยงในเรื่องเครดิต ต่ำ ปานกลาง หรือสูง
• ป้องกันปัญหาเรื่องการทุจริตบัตรเครดิต
• การวิเคราะห์ลูกค้า
• ช่วยแบ่งกลุ่มและวิเคราะห์ลูกค้าเพื่อที่จะผลิตและเสนอสินค้าได้ตรงตามกลุ่มเป้าหมายแต่ละกลุ่ม
• ทำนายว่าลูกค้าคนใดจะเลิกใช้บริการจากบริษัทภายใน 6 เดือนหน้า
• การวิเคราะห์การขาย
• พบว่า 70 % ของลูกค้าที่ซื้อโทรทัศน์แล้วจะซื้อวิดีโอตามมา ดังนั้นผู้จัดการจึงควรมุ่งไปลูกค้าที่ซื้อโทรทัศน์ แล้วจึงส่งเมล์ไปยังลูกค้าเหล่านั้นเพื่อที่จะเชิญชวน หรือให้ข้อเสนอที่ดี เพื่อให้ลูกค้ามาซื้อวิดีโอในครั้งต่อไป
• ช่วยในการโฆษณาสินค้าได้อย่างเหมาะสมและตรงตามเป้าหมาย
• ช่วยในการจัดวางสินค้าได้อย่างเหมาะสม
• Text Mining เป็นการปรับใช้ Data Mining มาอยู่ในรูปของข้อมูลตัวอักษรซึ่งเป็นรูปแบบของภาษาเครื่อง SDP  Infoware ตัวอย่างของงานคือใช้เป็นเครื่องมือตรวจระดับความพึงพอใจของผู้ที่เข้าชมนิทรรศการโดยผ่านการประมวลผลจากแบบสอบถาม
e-Commerce
• ช่วยให้เข้าใจพฤติกรรมของลูกค้า เช่น ลูกค้ามักเข้าไปที่ web ใดตามลำดับก่อนหลัง
• ช่วยในการปรับปรุง web site เช่น พิจารณาว่าส่วนใดของ web ที่ควรปรับปรุงหรือควรเรียงลำดับการเชื่อมโยงในแต่ละหน้าอย่างไรเพื่อให้สะดวกกับผู้เข้าเยี่ยมชม ( http://open-miner.com : 17/06/54 )

เทคนิคต่างๆของการทำเหมืองข้อมูล    
1. Association rule Discovery
เป็นเทคนิคหนึ่งของ Data Mining ที่สำคัญ และสามารถนำไปประยุกต์ใช้ได้จริงกับงานต่าง ๆ หลักการทำงานของวิธีนี้ คือ การค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่เพื่อนำไปใช้ในการวิเคราะห์ หรือทำนายปรากฏการณ์ต่าง ๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “ Market Basket Analysis ” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “ กฎความสัมพันธ์ ”  ( Association Rule ) เพื่อหาความสัมพันธ์ของข้อมูล
ตัวอย่างการนำเทคนิคนี้ไปประยุกต์ใช้กับงานจริง ได้แก่ ระบบแนะนำหนังสือใหกับลูกค้าแบบอัตโนมัติ ของ SE-ED BOOK ข้อมูลการสั่งซื้อหนังสือของลูกค้า SE-ED BOOK ซึ่งมีขนาดใหญ่มากจึงต้องถูกนำมาประมวลผลเพื่อความสัมพันธ์ของข้อมูล คือ เมื่อลูกค้าที่ซื้อหนังสือ 1 เล่ม อาจจะซื้อหนังสือเล่มใดอีกเล่มหนึ่งพร้อมกันด้วยเสมอ ความสัมพันธ์ที่ได้จากกระบวนการนี้สามารถนำไปใช้คาดเดาได้ว่าควรแนะนำหนังสือเล่มใดเพิ่มเติมให้กับลูกค้าที่เพิ่งซื้อหนังสือจากร้านไป
2. Classification & Prediction
• Classification
เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี  โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้ หรือไม่โดยพิจารณาจากข้อมูลที่มีอยู่ กระบวนการ classification นี้แบ่งออกเป็น 3 ขั้นตอน ดังนี้
 Model Construction ( Learning )
 เป็นขั้นการสร้าง model โดยการเรียนรู้จากข้อมูลที่ได้กำหนดคลาสไว้เรียบร้อยแล้ว( training data ) ซึ่ง model ที่ได้อาจแสดงในรูปของ
1.แบบต้นไม้ ( Decision Tree)
2.แบบนิวรอลเน็ต ( Neural Net)
1)โครงสร้างแบบต้นไม้ของ Decision Tree
เป็นที่นิยมกันมากเนื่องจากเป็นลักษณะที่คนจำนวนมากคุ้นเคย ทำให้เข้าใจได้ง่าย มีลักษณะเหมือนแผนภูมิองค์กร  โดยที่แต่ละโหนดแสดง attribute แต่ละกิ่งแสดงผลในการทดสอบ และลีฟโหนดแสดงคลาสที่กำหนดไว้
ตัวอย่าง บริษัทขนาดใหญ่แห่งหนึ่ง ทำธุรกิจอสังหาริมทรัพย์มีสำนักงานสาขาอยู่ประมาณ 50 แห่ง แต่ละสาขามีพนักงานประจำ เป็นผู้จัดการและพนักงานขาย พนักงานเหล่านี้แต่ละคนจะ    ดูแลอาคารต่าง ๆ หลายแห่งรวมทั้งลูกค้าจำนวนมาก บริษัทจำเป็นต้องใช้ระบบฐานข้อมูลที่กำหนดความสัมพันธ์ระหว่างองค์ประกอบเหล่านี้ เมื่อรวบรวมข้อมูลแบ่งเป็นตารางพื้นฐานต่าง ๆ เช่น ข้อมูลสำนักงานสาขา ( Branch ) ข้อมูลพนักงาน ( Staff ) ข้อมูลทรัพย์สิน ( Propety) และข้อมูลลูกค้า  ( Client ) พร้อมทั้งกำหนดความสัมพันธ์( Relationship) ของข้อมูลเหล่านี้ เช่น ประวัติการเช่าบ้านของลูกค้า ( Customer_rental )รายการให้เช่า ( Rentals ) รายการขายสินทรัพย์ ( Sales ) เป็นต้น ต่อมาเมื่อมีประชุมกรรมการผู้บริหารของบริษัท ส่วนหนึ่งของรายงานจากฐานข้อมูลสรุปว่า
 “ 40 % ของลูกค้าที่เช่าบ้านนานกว่าสองปี และมีอายุเกิน 25 ปี จะซื้อบ้านเป็นของตนเอง โดยกรณีเช่นนี้เกิดขึ้น 35 % ของลูกค้าผู้เช่าบ้านของบริษัท”
 ดังรูป แสดงให้เห็นถึง Decision Tree สำหรับการวิเคราะห์ว่าลูกค้าบ้านเช่าจะมีความสนใจที่จะซื้อบ้านเป็นของตนเองหรือไม่ โดยใช้ปัจจัยในการวิเคราะห์คือ ระยะเวลาที่ลูกค้าได้เช่าบ้านมา และอายุของลูกค้า  
2)  นิวรอลเน็ต หรือ นิวรอลเน็ตเวิร์ก ( Neural Net)
 เป็นเทคโนโลยีที่มีที่มาจากงานวิจัยด้านปัญญาประดิษฐ์ Artificial Intelligence:AI เพื่อใช้ในการคำนวณค่าฟังก์ชันจากกลุ่มข้อมูล วิธีการของ นิวรอลเน็ต ( แท้จริงต้องเรียกให้เต็มว่า Artificial  Neural Networks หรือ ANN ) เป็นวิธีการที่ให้เครื่องเรียนรู้จากตัวอย่างต้นแบบ แล้วฝึก ( train ) ให้ระบบได้รู้จักที่จะคิดแก้ปัญหาที่กว้างขึ้นได้ ในโครงสร้างของนิวรอลเน็ตจะประกอบด้วยโหนด ( node ) สำหรับ Input – Output และการประมวลผล กระจายอยู่ในโครงสร้างเป็นชั้น ๆ ได้แก่ input layer , output layer และ hidden layers การประมวลผลของนิวรอลเน็ตจะอาศัยการส่งการทำงานผ่านโหนดต่าง ๆ ใน layer เหล่านี้
Model Evaluation ( Accuracy )
 เป็นขั้นการประมาณความถูกต้องโดยอาศัยข้อมูลที่ใช้ทดสอบ ( testing data ) ซึ่งคลาสที่แท้จริงของข้อมูลที่ใช้ทดสอบนี้จะถูกนำมาเปรียบเทียบกับคลาสที่หามาได้จาก model เพื่อทดสอบความถูกต้อง
Model  Usage ( Classification )
 เป็น Model สำหรับใช้ข้อมูลที่ไม่เคยเห็นมาก่อน ( unseen data ) โดยจะทำการกำหนดคลาสให้กับ object ใหม่ที่ได้มา หรือ ทำนายค่าออกมาตามที่ต้องการ
• Prediction
เป็นการทำนายหาค่าที่ต้องการจากข้อมูลที่มีอยู่ ตัวอย่างเช่น หายอดขายของเดือนถัดไปจากข้อมูลที่มีอยู่ หรือทำนายโรคจากอาการของคนไข้ในอดีต เป็นต้น
3. Database clustering หรือ Segmentation
 เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน ตัวอย่างเช่น บริษัทจำหน่ายรถยนต์ได้แยกกลุ่มลูกค้าออกเป็น 3 กลุ่ม คือ
1.กลุ่มผู้มีรายได้สูง (>$80,000)
2.กลุ่มผู้มีรายได้ปานกลาง ($25,000 to $ 80,000)
3.กลุ่มผู้มีรายได้ต่ำ (less than $25,000)
และภายในแต่ละกลุ่มยังแยกออกเป็น
-Have Children
-Married
-Last car is a used car
-Own cars
 จากข้อมูลข้างต้นทำให้ทางบริษัทรู้ว่าเมื่อมีลูกค้าเข้ามาที่บริษัทควรจะเสนอขายรถประเภทใด เช่น ถ้าเป็นกลุ่มผู้มีรายได้สูงควรจะเสนอรถใหม่ เป็นรถครอบครัวขนาดใหญ่พอสมควร แต่ถ้าเป็นผู้มีรายได้ค่อนข้างต่ำควรเสนอรถมือสอง ขนาดค่อนข้างเล็ก
4. Deviation Detection
 เป็นกรรมวิธีในการหาค่าที่แตกต่างไปจากค่ามาตรฐาน หรือค่าที่คาดคิดไว้ว่าต่างไปมากน้อยเพียงใด โดยทั่วไปมักใช้วิธีการทางสถิติ หรือการแสดงให้เห็นภาพ (Visualization) สำหรับเทคนิคนี้ใช้ในการตรวจสอบ ลายเซ็นปลอม หรือบัตรเครดิตปลอม รวมทั้งการตรวจหาจุดบกพร่องของชิ้นงานในโรงงานอุตสาหกรรม
5. Link Analysis
 จุดมุ่งหมายของ Link Analysis คือ การสร้าง link ที่รียกว่า “ associations” ระหว่าง recode เดียว หรือ กลุ่มของ recode ในฐานข้อมูล link analysis สามารถแบ่งออกเป็น 3 ชนิด คือ
•associations discovery
•sequential pattern discovery

โรงเรียนม้วน

ไม่มีความคิดเห็น:

แสดงความคิดเห็น