ก่อนจะรู้จัก เราต้องมารู้ก่อนว่า ETL ย่อมาจาก Extract, transform, and load คือการดึงข้อมูลจาก Data Source ต่างๆ เข้าสู่ Data Warehouse ดังนั้น
ETL Tool คือเครืองมือที่ใช้ในการจัดการกระบวนการสำคัญต่างกับข้อมูลตามข้างล่าง
1. Extract คือ การสกัดข้อมูล การดึงข้อมูลจากแหล่งข้อมูลที่แตกต่างกัน
2. Transform คือ การนำข้อมูลที่ได้มาจากการ Extract มาจัดรูปแบบให้ถูกต้อง
3. Load คือ การนำข้อมูลที่ผ่านการ Transform แล้ว เข้าสู่ Data Warehouse (data mart, database)
ขั้นตอนการทำงานของ ETL
• การวางแผนสำหรับการรวมรวมข้อมูล
• การกำหนดกฎสำหรับการเปลี่ยนแปลง/เปลี่ยนรูปและการทำความสะอาด
• การสร้างกฎในการสกัดข้อมูล
• การเตรียมการเชื่อมโยงข้อมูลจากแหล่งข้อมูล
• การรวบรวมข้อมูลจากแหล่งข้อมูลต่างๆ ทั้งแหล่งข้อมูลภายในและภายนอก
• การกำหนดข้อมูลทั้งหมดที่ต้องการเก็บไว้ในคลังข้อมูล
• การรวมโครงสร้างข้อมูลจากหลายแหล่งข้อมูลไปเป็นข้อมูลเพียง row เดียว
• การแยกโครงสร้างข้อมูลหนึ่งๆไปเป็นข้อมูลที่มีหลายโครงสร้างเพื่อสร้างเป็นข้อมูลหลายๆ row
• การอ่านข้อมูลจากพจนานุกรมข้อมูลที่ถูกเก็บไว้ในแหล่งข้อมูล
• การอ่านข้อมูลจากหลายๆแหล่งข้อมูล
• การโหลดรายละเอียดสำหรับสร้าง table
• การรวบรวมข้อมูลหรือ ทำผลสรุปข้อมูลให้กับ tables
• การแปลงข้อมูลจากรูปแบบหนึ่งของข้อมูลไปเป็นอีกรูปแบบหนึ่งของ table
• การรับเอาข้อมูลที่เป็นเป้าหมายจาก field ต่างๆของแหล่งข้อมูล
• การเปลี่ยนข้อมูลที่มีความกำกวมให้มีความหมายมากขึ้น
ตัวอย่างในการทำ ETL
• Education (Fact Sheet, Transcript)
• PLC QA Reports (Pipe Manufacture)