Page 1 of 1

อภิมหาข้อมูลBigData

Posted: 13 Mar 2015, 09:50
by brid.ladawan
อภิมหาข้อมูลBigData

เราเรียกขั้นตอนการรวบรวมชำระสะสางและจัดเก็บว่า ETL ย่อมาจากคำว่า Extract, Transform, Load กว่าจะได้มีคลังข้อมูลมาครบถ้วนใช้งานได้ต้องมีกระบวนการ ETL

หลายท่านคงสงสัยว่าเรามีฐานข้อ มูล (Database) แล้วและเราก็มีคลังข้อมูล (DataWarehouse) แล้วแต่ทำไมเราต้องมี อภิมหาข้อมูล (BigData) อีกด้วยต้องนึกย้อนเวลากลับไปตั้งแต่เรามีเทคโนโลยีการจัดการข้อมูลจากเดิมที่เราเก็บข้อมูลในแฟ้มข้อมูลดิบโดยต่างคนต่างเก็บเก็บซ้ำซ้อนกัน
วันศุกร์ 13 มีนาคม 2558 เวลา 03:00 น.

ต่อมาเราก็พยายามเก็บแบบรวบรวมในรูปแบบฐานข้อมูลซึ่งสามารถจัดการความซ้ำซ้อนได้ดีกว่ากรณีฐานข้อมูลแบบกระจาย Distributed Database ไม่ค่อยนิยมใช้กันนักเพราะเหตุผลด้านความเสถียรของเครือข่าย ปัจจุบันระบบจัดการฐานข้อมูล (DatabaseManagement System) ที่นิยมกันมาจาก Oracle หรือ DB2 ซึ่งการแข่งขันรุนแรงขนาดที่ว่าใครแพ้ก็ถูกซื้อกันเลยทีเดียวสุดท้ายปลาใหญ่ก็กินปลาเล็ก Oracle ซื้อ MySQL รวมเข้ามาและก็ไม่รู้ว่าชะตากรรมของ MySQL จะเป็นอย่างไรต่อไปเป็นไปตามวัฏจักรแห่งความจริงแท้ความไม่เที่ยง คือ มีเกิดมีตั้งอยู่ มีเสื่อมและมีดับไป

แล้วเราก็พบว่ามีเทคโนโลยีคลังข้อมูล เพิ่มขึ้นมาอีกเพื่อจะรวบรวมข้อมูลจากฐานข้อมูลแต่เดิมเพื่อนำมารวมกันอีกต่อหนึ่งการใช้งานฐานข้อมูลจึงเป็นการใช้งานสำหรับระบบงานทั่วไปที่ทำงานประจำวันเรียกว่า OperationalDatabase โดยการเข้าถึงข้อมูลต้องทำอยู่ตลอดเวลาและมีการเปลี่ยนแปลงปรับปรุงข้อมูลเสมอได้ ส่วนการใช้งานคลังข้อมูลจะมีเป้าหมายแตกต่างโดยที่ใช้เก็บข้อมูลที่เริ่มนิ่งแล้วไม่เปลี่ยนแปลง เช่นรายการซื้อขายสินค้าตอนสิ้นวันหรือการจ่ายเงินเดือนพนักงานปลายเดือนเป็นต้น ข้อมูลในกลุ่มนี้จะมีประโยชน์ในงานวิเคราะห์ผลลัพธ์ทางสถิติเพื่อช่วยในการวางแผนและตัดสินใจข้อมูลในคลังข้อมูลไม่ควรจะเปลี่ยน แปลงและจะเพิ่มขึ้นสะสมเข้ามาเรื่อย ๆ สมกับชื่อที่ใช้เรียกในภาษาไทยคือคลังข้อมูลข้อมูลที่มีสะสมเก็บเข้าในคลังข้อมูลมากมายทำให้การจัดเก็บรวบรวมและเข้าถึงข้อมูลขนาดใหญ่มาก ๆ นี้เป็นปัญหาได้เสมอเนื่องจากมาจากฐานข้อมูลหลายแหล่งการจัดเก็บจะต้องมีการชำระสะสางข้อมูลเหล่านี้ให้สามารถกองรวมกันได้ครับโดยเราต้องกำหนดไว้ก่อนว่าจะเก็บอะไรเช่นเดิม

เราเรียกขั้นตอนการรวบรวมชำระสะสางและจัดเก็บว่า ETL ย่อมาจากคำว่า Extract, Transform, Load กว่าจะได้มีคลังข้อมูลมาครบถ้วนใช้งานได้ต้องมีกระบวนการ ETL ก่อนเสมอและจะทำในลักษณะแบบออฟไลน์ เพื่อไม่ให้ส่งผลกระทบการทำงานประจำวัน (ทำตอนดึก ๆ ได้) ดังนั้นความสดใหม่ของข้อมูลจะไม่มีข้อมูลของธุรกรรม ณ วินาทีนี้ นาทีนี้ วันนี้ จะไม่ได้อยู่ในคลังข้อมูลจนกว่าจะวันถัดไปครับ ดังนั้นการที่เรามีฐานข้อมูลและคลังข้อมูลอาจจะยังไม่ตอบโจทย์ที่ยากยิ่งของผู้บริหารที่มีความต้องการคำตอบจากข้อมูลที่เป็นปัจจุบันทันด่วนมาก ๆ

อภิมหาข้อมูล อาจจะเป็นคำตอบให้ครับเพราะแนวคิดของอภิมหาข้อมูลก็คือมีความสามารถจัดการแบบ 3V เราเรียกเป็นตัวย่อมาจาก Volume, Velocity, และ Variety กล่าวคืออภิมหาข้อมูลสามารถจัดเก็บและจัดการข้อมูลขนาดใหญ่มากมากหน่วยความจุอยู่ระดับ Petabyte (1000 เท่าของ Terabyte) ขึ้นไปครับซึ่งข้อมูลใหญ่ขนาดนี้ระบบจัดการฐานข้อมูลปกติเริ่มจะทำงานไม่สะดวกแล้ว

เรื่อง Velocity คือความรวดเร็วในการจัดการและประมวลผลเพื่อส่งมอบผลลัพธ์ให้ผู้บริหารอย่างทันอกทันใจเหมือนตอนเรารู้สึกหิวมากและสั่งอาหารเมื่อสั่งแล้วมีการเสิร์ฟทันทีและอาหารที่ได้รับทำจากวัตถุดิบที่สดใหม่เพิ่งเก็บมาจากต้นเลยดังนั้นข้อมูลที่ส่งมอบมาจากอภิมหาข้อมูลจะมีความสดใหม่เป็นของวินาทีนี้ นาทีนี้ วันนี้ ได้เลยครับ

ส่วน Variety คือความหลากหลายของแหล่งข้อมูลหรือรูปแบบข้อมูลที่ส่งมาให้เก็บในอภิมหาข้อมูล เราไม่ต้องมาสนใจมากและไม่ต้องทำ ETL กันหนัก ๆ เรามีความอิสระในการจัดเก็บข้อมูลหลากหลายรูปแบบเช่น ข้อมูลจาก Text ธรรมดาข้อมูลที่มาจากหน้าเว็บข้อมูลที่มาจากฐานข้อมูล ข้อมูลที่มาจาก Excel ข้อมูลภาพเสียง ตลอดจนวีดิทัศน์ เป็นต้น พูดภาษาเทคนิคคือข้อมูลแบบไม่มีโครงสร้าง (UnstructuredData) ก็ดูแลได้ดีครับมีขั้นตอนการจัดเตรียมอยู่บ้างไม่ยุ่งยากเท่าคลังข้อมูลที่กล่าวมาเบื้องต้นนี้เพื่อให้เห็นภาพรวมโดยสังเขปสำหรับท่านที่สนใจอยากใช้อภิมหาข้อมูล คงต้องเข้าใจความต้องการตัวเองว่ามีความจำเป็นจริง ๆ แค่ไหน และรู้จักเครื่องไม้เครื่องมือเทคโนโลยีก่อนลงมือผมขอแนะนำให้เรียนหลักสูตรที่ปรับปรุงใหม่เพื่อเน้นอภิมหาข้อมูล โดยเฉพาะครับ.

รศ.ดร.วิวัฒน์ วัฒนาวุฒิ

ภาควิชาวิศวกรรมคอมพิวเตอร์

คณะวิศวกรรมศาสตร์จุฬาลงกรณ์มหาวิทยาลัย

ที่มา เดลินิวส์
วันที่ 13 มีนาคม 2558