Cyntia Blog

Senin, 08 Desember 2014

Resume Persentasi Klompok 10 Dataware House

Data Transformation Service adalah Sekumpulan utilitas yang memungkinkan proses Extract, Transform, dan Load secara otomatis dari atau ke database.

DTS berfungsi untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel atau Microsoft Access.

Microsoft SQL Server Integration Service (SSIS)

Platform untuk membangun kinerja tinggi solusi integrasi data, termasuk ekstraksi, transformasi, dan load (ETL) paket untuk data warehousing.

Perbedaan DTS dan SSIS :

DTS :

1.DTS adalah sekumpulan dari obyek yang digunakan sebagai alat ETS Tools untuk mengekstrak, mentransform dan memuat informasi dari sebuah database

2.DTS adalah bagian dari Microsoft SQL Server 2000

3.Menggunakan Activex Script (Salah satu komponen dalam Visual Basic)

4.Tidak ada cara cepat

5.Transformasi yang tersedia terbatas

6.Tidak didukung fungsi Business Intelegent

7.Hanya bisa dikembangkan di server local

SSIS :

1.SSIS adalah sebuah alat yang disediakan Microsoft untuk mengekstrak data dari sumber lain

2.SSIS adalah komponen dari Microsoft SQL Server 2005

3.Menggunakan Scripting Language

4.Ada cara cepat

5.Tersedianya fitur tranformasi yang sangat besar

6.Didukung oleh fungsi Business Intellegent

7.Dapat dikembangkan di berbagai server menggunakan BIDS (Business Intelligence Development Studio)

Minggu, 30 November 2014

Resume Persentasi kelompok 9 Dataware House

DATA TRANSFORMATION SERVICE

Data transformation services adalah salah satu modul pada SQL server yang bisa mengkoneksi data dari SQL Server ke format data yang lain yang kompetibel dengan OLE DB, ODBC, dan file teks.

Selain berfungsi untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel, atau Microsoft Access, DTS juga menyediakan hubungan berupa ODBC (Open Database Connectivity) data source yang disupport oleh OLE DB Provider for ODBC dan service seperti logging package execution details, controling transactions dan penanganan variable global.

„Tool-tool yang tersedia untuk menciptakan dan mengeksekusi DTS packages

1.Import Export Wizzard

Import/Export Wizard untuk membangun DTS packages sederhana dan mensupport perpindahan data dan transformasi sederhana.Import Export Wizzard

2.DTS Designer

DTS Designer mengimplementasikan DTS object model graphically yang memungkinkan user untuk menciptakan DTS packages dengan fungsi luas.

3.DTS Run

DTSRun merupakan command prompt utility yang digunakan untuk mengeksekusi DTS packages yang ada.

4.DTSRunUI

DTSRunUI merupakan grafik interface untuk DTSRun, yang juga mengijinkan pemakaian variable global dan command lines.

„Sebuah DTS package biasanya terdiri atas satu task atau lebih. Setiap task mendefinisikan

jenis pekerjaan yang akan diberikan selama eksekusi package. Task-task tersebut

dikelompokkan berdasarkan fungsinya berikut ini:

1.Transformasi data

2.Mengcopy dan mengatur data

3.Menjalankan tasks sebagai jobs dari dalam sebuah package

„Agar eksekusi DTS tasks dalam menyalin dan memindahkan data berjalan sukses, sebuah

DTS package harus mempunyai hubungan yang valid antara sumber data asal dengan sumber

data tujua. Ketika menciptakan sebuah package, user dapat mengkonfigurasikan hubungan

dengan memilih jenis hubungan dari daftar yang tersedia pada OLE DB providers dan ODBC

drivers. Jenis hubungan yang tersedia antara lain:

1.Microsoft Data Acces Component (MDAC) drivers

2.Microsoft Jet drivers

3.Other drivers

4.OLE DB CONNECTION

Minggu, 23 November 2014

Resume Data Warehouse Pertemuan 8

Apa itu Data Quality :
Mark Mosley (2008) mengatakan Data Quality adalah level data yang menyatakan data tersebut akurat, lengkap, terbaru, konsisten dan sesuai dengan semua kebutuhan bisnis.

Data Quality Characteristic

Accuary

adalah data yang mencerminkan objek dunia nyata atau seperti yang di deskripsikan.

Accessibility

data yang mudah di akses, di mengerti, serta dapat digunakan sesuai dengan keperluan yang di butuhkan.

Completeness

Sejauh mana semua data yang dibutuhkan tersedia.

Consistency

data yang ada didalam perusahaan harus sinkron dengan satu sama lain.

Integrity

setiap data harus sinkron atau dapat disinkronkan dengan data-data yang lain, sehingga setiap data bisa saling terkait.

Timeliness

data harus merepresentasikan dengan waktu saat itu juga.

Keuntunggan data yang berkualitas adalah :

Dapat meningkatkan kepercayaan diri dalam melakukan analisis.
Dapat meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi layanan.
Kebenaran yang memiliki sifat mutlak.
Dapat meningkatkan produktivitas.
Dapat meningkatkan kepuasan pelanggan.

Beberapa sumber data (yang tidak valid) dari penuaan data, kesalahan input, penipuan, dan sistem konversi

Validasi data dapat dilihat dari :

Duplikasi data
Beberapa atribut yang tercampur dalam satu filed
Ejaan yang berbeda untuk nama yang sama
Tidak adanya atribut kunci

Biaya untuk menjaga kualitas data dengan cara :

Mengatur data agar selalu berkualitas membutuhkan biaya yang tidak sedikit.
Membuat orang-orang yang berkompeten untuk me-manage data

Data Quality Tools

Data Auditing

dapat mingkatkan akurasi dan kebenaran data pada sumbernya. Tools ini pada umumnya membandingkan data pada database sumber dengan aturan bisnis yang ada.
Jika menggunakan sumber eksternal organisasi, aturan bisnis dapat ditentukan dengan menggunakan teknik data maining untuk menemukan pola dalam data.

Data Cleansing

data cleansing ini digunakan dalam staging area, data cleansing ini juga berguna untuk melakukan standarisasi dan verifikasi data terhadap data yang tidak dikenali. Beberapa fitur yang ada pada data cleansing :

Data Parsing
Data Standarization
Data Correction and verification
Data Transformation
Householding

Data Migration

Data Migration digunakan untuk mengekstrak data dari sumber untuk dikirim ke staging area dan dari staging area ke data warehouse.

Data Quality Initiative

Untuk bisa sukses, Data Quality program harus bisa dimulai oleh CEO, didukung oleh jajaran direksi, dan dijalankan oleh manajer yang khusus bertugas mengatur kualitas data.

Untuk menjalankan program ini, terdapat beberapa langkah yang harus dilakukan :

Data Stewardship Program : Bertujuan untuk memberikan konsultasi dan bantuan mengenai penanganan data yang berkualitas
Mengatur tujuan dan harapan dari program Data Quality
Melihat dan mengawasi program Data Quality

Senin, 17 November 2014

Resume Data Warehouse Pertemuan 7 (ETL)

ETL (Extraction, Transformation, Loading)

ETL adalah kumpulan proses menyiapkan data dari operational source untuk data. Proses ini terdiri dari extracting, transforming, loading, dan beberapa proses yang dilakukan sebelum dipublikasikan ke dalam data warehouse. Jadi, ETL atau extract, transform, loading adalah fase pemrosesan data dari sumber data masuk ke dalam data warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data

Dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan memiliki struktur yang dirancang untuk keperluan proses analisis. Proses ETL terdiri dari tiga tahap, yaitu :

1. Extract

Langkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan.

2. Transform

Proses membersihkan data yang telah diambil pada proses extract sehingga data itu sesuai dengan struktur data warehouse atau data mart. Hal-hal yang dapat dilakukan dalam tahap transformasi :

a)        Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.

b)       Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai 1 untuk pria dan 2 untuk wanita, tetapi data warehouse menyimpan M untuk pria dan F untuk wanita). Proses yang dilakukan disebut automated data cleansing, tidak ada pembersihan secara manual selama proses ETL.

c)        Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”, dan ”Mr ke dalam ”M”).

d)       Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price).

e)        Menggabungkan data dari berbagai sumeber bersama-sama.

f)        Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk setiap bagian).

Kesulitan yang terjadi pada proses transformasi adalah data harus digabungkan dari beberapa sistem terpisah, harus dibersihkan sehingga konsisten dan harus diagregasi untuk mempercepat analisis.

3. Load

Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (contohnya : uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.

Sabtu, 18 Oktober 2014

Resume Data Warehouse Pertemuan 6

Dalam menggambarkan relasi database pada data warehouse dapat digunakan 2 pendekatan model skema yaitu star schema atau snowflake schema. Disebut star schema karena Entity Relationship Diagram atau ERD-nya yang menyerupai bintang, tabel fakta berada di tengah dengan dikelilingi tabel dimensi di sampingnya.

Berikut adalah contoh gambar star schema :

Sedangkan snowflake schema lebih kompleks dibandingkan dengan star schema karena merupakan pengembangan dari star schema, karena tabel-tabel dimensinya merupakan hasil normalisasi dari beberapa tabel yang berhubungan.

Berikut adalah contoh gambar snowflake schema :

Berdasarkan hasil penelitian yang dilakukan oleh

Paiman dkk. (2010) yang berjudul “Analisis Perbandingan Antara Model Dimensi Star Schema Dan Snowflake”, didapat kesimpulan mengenai kelebihan dan kekurangan baik dari star schema maupun snowflake schema. Penelitian ini dilakukan dengan cara mengolah database adventureworks yang merupakan database sampel yang telah disiapkan oleh Microsoft SqlServer 2005. Dari database tersebut dibuat beberapa skenario yang diterapkan menggunakan dua model skema yaitu star schema dan snowflake schema.

Berikut adalah kelebihan dan kekurangan model dimensi star schema.

Kelebihan model dimensi star schema :

cenderung mudah dipahami karena modelnya yang lebih sederhana,
memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by step dari masing-masing dimensinya,
proses query lebih cepat pada saat proses OLAP.

Kekurangan model dimensi star schema :

ukuran data lebih besar karena ada data yang disimpan ulang,
maintenance dan update lebih sulit.

Berikut adalah kelebihan dan kekurangan model dimensi snowflake schema.

Kelebihan model dimensi snowflake schema :

ukuran data lebih kecil di dalam tempat penyimpanan,
lebih mudah dilakukan maintenance dan update,
proses query lebih cepat pada saat proses ETL.

Kekurangan model dimensi snowflake schema :

cenderung lebih sulit dipahami karena kompleksitasnya,
sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-cabang.

Pustaka :

Paiman, A.S., William, R., Willyam, F., 2010. Analisis Perbandingan Antara Model Dimensi Star Schema Dan Snowflake. Universitas Bina Nusantara, Jakarta.

Windy, 2012. OLAP (Online Analytical Processing). http://kegiatanwindy.blogspot.com/2012_02_01_archive.html.

Ramadhan, T.I., 2013. Perancangan dan Pembuatan Data Warehouse (Studi Kasus Database Swalayan Kopma UGM). Universitas Gadjah Mada, Yogyakarta.