Senin, 08 Desember 2014

Resume Persentasi Klompok 10 Dataware House


Data Transformation Service adalah Sekumpulan utilitas yang memungkinkan proses ExtractTransform, dan Load secara otomatis dari atau ke database.
DTS berfungsi untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel atau Microsoft Access. 
Microsoft SQL Server Integration Service (SSIS)
Platform untuk membangun kinerja tinggi solusi integrasi data, termasuk ekstraksi, transformasi, dan load (ETL) paket untuk data warehousing.
Perbedaan DTS dan SSIS :
DTS :
1.DTS adalah sekumpulan dari obyek yang digunakan sebagai alat ETS Tools untuk mengekstrak, mentransform dan memuat informasi dari sebuah database

2.DTS adalah bagian dari Microsoft SQL Server 2000

3.Menggunakan Activex Script (Salah satu komponen dalam Visual Basic)

4.Tidak ada cara cepat

5.Transformasi yang tersedia terbatas

6.Tidak didukung fungsi Business Intelegent

7.Hanya bisa dikembangkan di server local

SSIS :
1.SSIS adalah sebuah alat yang disediakan Microsoft untuk mengekstrak data dari sumber lain

2.SSIS adalah komponen dari Microsoft SQL Server 2005

3.Menggunakan Scripting Language

4.Ada cara cepat

5.Tersedianya fitur tranformasi yang sangat besar

6.Didukung oleh fungsi Business Intellegent

7.Dapat dikembangkan di berbagai server menggunakan BIDS (Business Intelligence Development Studio)

Minggu, 30 November 2014

Resume Persentasi kelompok 9 Dataware House




DATA TRANSFORMATION SERVICE


Data transformation services adalah salah satu modul pada SQL server yang bisa mengkoneksi data dari SQL Server ke format data yang lain yang kompetibel dengan OLE DB, ODBC, dan file teks.

Selain berfungsi untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel, atau Microsoft Access, DTS juga menyediakan hubungan berupa ODBC (Open Database Connectivity) data source yang disupport oleh OLE DB Provider for ODBC dan service seperti logging package execution details, controling transactions dan penanganan variable global.

Tool-tool yang tersedia untuk menciptakan dan mengeksekusi DTS packages
1.Import Export Wizzard
Import/Export Wizard untuk membangun DTS packages sederhana dan mensupport perpindahan data dan transformasi sederhana.Import Export Wizzard
2.DTS Designer
DTS Designer mengimplementasikan DTS object model graphically yang memungkinkan user untuk menciptakan DTS packages dengan fungsi luas.
3.DTS Run
DTSRun merupakan command prompt utility yang digunakan untuk mengeksekusi DTS packages yang ada.
4.DTSRunUI
DTSRunUI merupakan grafik interface untuk DTSRun, yang juga mengijinkan pemakaian variable global dan command lines.



Sebuah DTS package biasanya terdiri atas satu task atau lebih. Setiap task mendefinisikan
jenis pekerjaan yang akan diberikan selama eksekusi package. Task-task tersebut
dikelompokkan berdasarkan fungsinya berikut ini:
1.Transformasi data
2.Mengcopy dan mengatur data
3.Menjalankan tasks sebagai jobs dari dalam sebuah package

Agar eksekusi DTS tasks dalam menyalin dan memindahkan data berjalan sukses, sebuah
DTS package harus mempunyai hubungan yang valid antara sumber data asal dengan sumber
data tujua. Ketika menciptakan sebuah package, user dapat mengkonfigurasikan hubungan
dengan memilih jenis hubungan dari daftar yang tersedia pada OLE DB providers dan ODBC
drivers. Jenis hubungan yang tersedia antara lain:


1.Microsoft Data Acces Component (MDAC) drivers
2.Microsoft Jet drivers
3.Other drivers
4.OLE DB CONNECTION









Minggu, 23 November 2014

Resume Data Warehouse Pertemuan 8

Apa itu Data Quality :
Mark Mosley (2008) mengatakan Data Quality adalah level data yang menyatakan data tersebut akurat, lengkap, terbaru, konsisten dan sesuai dengan semua kebutuhan bisnis.



Data Quality Characteristic
  1. Accuary
adalah data yang mencerminkan objek dunia nyata atau seperti yang di deskripsikan.

  1. Accessibility
    data yang mudah di akses, di mengerti, serta dapat digunakan sesuai dengan keperluan yang di butuhkan.

  1. Completeness
    Sejauh mana semua data yang dibutuhkan tersedia.

  1. Consistency
    data yang ada didalam perusahaan harus sinkron dengan satu sama lain.

  1. Integrity
    setiap data harus sinkron atau dapat disinkronkan dengan data-data yang lain, sehingga setiap data bisa saling terkait.

  1. Timeliness
    data harus merepresentasikan dengan waktu saat itu juga.

Keuntunggan data yang berkualitas adalah :
  1. Dapat meningkatkan kepercayaan diri dalam melakukan analisis.
  2. Dapat meningkatkan kesempatan untuk menghasilkan value yang lebih baik bagi layanan.
  3. Kebenaran yang memiliki sifat mutlak.
  4. Dapat meningkatkan produktivitas.
  5. Dapat meningkatkan kepuasan pelanggan.

Beberapa sumber data (yang tidak valid) dari penuaan data, kesalahan input, penipuan, dan sistem konversi
Validasi data dapat dilihat dari :
  • Duplikasi data
  • Beberapa atribut yang tercampur dalam satu filed
  • Ejaan yang berbeda untuk nama yang sama
  • Tidak adanya atribut kunci

Biaya untuk menjaga kualitas data dengan cara :
  • Mengatur data agar selalu berkualitas membutuhkan biaya yang tidak sedikit.
  • Membuat orang-orang yang berkompeten untuk me-manage data
Data Quality Tools
  1. Data Auditing
  1. dapat mingkatkan akurasi dan kebenaran data pada sumbernya. Tools ini pada umumnya membandingkan data pada database sumber dengan aturan bisnis yang ada.
  2. Jika menggunakan sumber eksternal organisasi, aturan bisnis dapat ditentukan dengan menggunakan teknik data maining untuk menemukan pola dalam data.
  1. Data Cleansing
    data cleansing ini digunakan dalam staging area, data cleansing ini juga berguna untuk melakukan standarisasi dan verifikasi data terhadap data yang tidak dikenali. Beberapa fitur yang ada pada data cleansing :
  1. Data Parsing
  2. Data Standarization
  3. Data Correction and verification
  4. Data Transformation
  5. Householding
  1. Data Migration
Data Migration digunakan untuk mengekstrak data dari sumber untuk dikirim ke staging area dan dari staging area ke data warehouse.

Data Quality Initiative
Untuk bisa sukses, Data Quality program harus bisa dimulai oleh CEO, didukung oleh jajaran direksi, dan dijalankan oleh manajer yang khusus bertugas mengatur kualitas data.
Untuk menjalankan program ini, terdapat beberapa langkah yang harus dilakukan :
  • Data Stewardship Program : Bertujuan untuk memberikan konsultasi dan bantuan mengenai penanganan data yang berkualitas
  • Mengatur tujuan dan harapan dari program Data Quality
  • Melihat dan mengawasi program Data Quality

Senin, 17 November 2014

Resume Data Warehouse Pertemuan 7 (ETL)

ETL (Extraction, Transformation, Loading)


data-1ETL adalah kumpulan proses menyiapkan data dari operational source untuk data. Proses ini terdiri dari extracting, transforming, loading, dan beberapa proses yang dilakukan sebelum dipublikasikan ke dalam data warehouse. Jadi, ETL atau extract, transform, loading adalah fase pemrosesan data dari sumber data masuk ke dalam data warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan datadata yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data
Dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan memiliki struktur yang dirancang untuk keperluan proses analisis. Proses ETL terdiri dari tiga tahap, yaitu :
1. Extract
Langkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan.
2. Transform
Proses membersihkan data yang telah diambil pada proses extract sehingga data itu sesuai dengan struktur data warehouse atau data mart. Hal-hal yang dapat dilakukan dalam tahap transformasi :
a)        Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.
b)       Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai 1 untuk pria dan 2 untuk wanita, tetapi data warehouse menyimpan M untuk pria dan F untuk wanita). Proses yang dilakukan disebut automated data cleansing, tidak ada pembersihan secara manual selama proses ETL.
c)        Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”, dan ”Mr ke dalam ”M”).
d)       Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price).
e)        Menggabungkan data dari berbagai sumeber bersama-sama.
f)        Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk setiap bagian).
Kesulitan yang terjadi pada proses transformasi adalah data harus digabungkan dari beberapa sistem terpisah, harus dibersihkan sehingga konsisten dan harus diagregasi untuk mempercepat analisis.
3. Load
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (contohnya : uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.

Sabtu, 18 Oktober 2014

Resume Data Warehouse Pertemuan 6


Dalam menggambarkan relasi database pada data warehouse dapat digunakan 2 pendekatan model skema yaitu star schema atau snowflake schema. Disebut star schema karena Entity Relationship Diagram atau ERD-nya yang menyerupai bintang, tabel fakta berada di tengah dengan dikelilingi tabel dimensi di sampingnya.
Berikut adalah contoh gambar star schema :
Sedangkan snowflake schema lebih kompleks dibandingkan dengan star schema karena merupakan pengembangan dari star schema, karena tabel-tabel dimensinya merupakan hasil normalisasi dari beberapa tabel yang berhubungan.
Berikut adalah contoh gambar snowflake schema :
Berdasarkan hasil penelitian yang dilakukan oleh Paiman dkk. (2010) yang berjudul “Analisis Perbandingan Antara Model Dimensi Star Schema Dan Snowflake”, didapat kesimpulan mengenai kelebihan dan kekurangan baik dari star schema maupun snowflake schema. Penelitian ini dilakukan dengan cara mengolah database adventureworks yang merupakan database sampel yang telah disiapkan oleh Microsoft SqlServer 2005. Dari database tersebut dibuat beberapa skenario yang diterapkan menggunakan dua model skema yaitu star schema dan snowflake schema.
Berikut adalah kelebihan dan kekurangan model dimensi star schema.
Kelebihan model dimensi star schema :
  1. cenderung mudah dipahami karena modelnya yang lebih sederhana,
  2. memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by step dari masing-masing dimensinya,
  3. proses query lebih cepat pada saat proses OLAP.
Kekurangan model dimensi star schema :
  1. ukuran data lebih besar karena ada data yang disimpan ulang,
  2. maintenance dan update lebih sulit.
Berikut adalah kelebihan dan kekurangan model dimensi snowflake schema.
Kelebihan model dimensi snowflake schema :
  1. ukuran data lebih kecil di dalam tempat penyimpanan,
  2. lebih mudah dilakukan maintenance dan update,
  3. proses query lebih cepat pada saat proses ETL.
Kekurangan model dimensi snowflake schema :
  1. cenderung lebih sulit dipahami karena kompleksitasnya,
  2. sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-cabang.

Pustaka :
Paiman, A.S., William, R., Willyam, F., 2010. Analisis Perbandingan Antara Model Dimensi Star Schema Dan Snowflake. Universitas Bina Nusantara, Jakarta.
Windy, 2012. OLAP (Online Analytical Processing). http://kegiatanwindy.blogspot.com/2012_02_01_archive.html.
Ramadhan, T.I., 2013. Perancangan dan Pembuatan Data Warehouse (Studi Kasus Database Swalayan Kopma UGM). Universitas Gadjah Mada, Yogyakarta.