Gudang data, atau gudang data perusahaan (EDW), adalah sistem yang mengumpulkan data dari berbagai sumber menjadi satu penyimpanan data tunggal, terpusat, dan konsisten untuk mendukung analisis data, penambangan data, kecerdasan buatan (AI) , dan pembelajaran mesin.
Sistem gudang data memungkinkan organisasi untuk menjalankan analisis yang kuat pada data dalam jumlah besar (petabyte dan petabyte) dengan cara yang tidak dapat dilakukan oleh database standar.
Sistem pergudangan data telah menjadi bagian dari solusi intelijen bisnis (BI) selama lebih dari tiga dekade, tetapi mereka telah berkembang baru-baru ini dengan munculnya tipe data baru dan metode hosting data. Secara tradisional, gudang data di-host di tempat-sering kali di komputer mainframe-dan fungsinya difokuskan pada mengekstraksi data dari sumber lain, membersihkan dan menyiapkan data, serta memuat dan memelihara data dalam basis data relasional. Baru-baru ini, gudang data dapat di-host di alat khusus atau di cloud, dan sebagian besar gudang data telah menambahkan kemampuan analitik dan visualisasi data serta alat presentasi.
Pelajari blok bangunan dan praktik terbaik untuk membantu tim Anda mempercepat AI yang bertanggung jawab.
Daftar untuk ebook di Presto
Secara umum, gudang data memiliki arsitektur tiga tingkat, yang terdiri dari:
Tingkat bawah: Tingkat paling bawah terdiri dari server gudang data, biasanya sistem database relasional, yang mengumpulkan, membersihkan, dan mentransformasi data dari berbagai sumber data melalui proses yang dikenal sebagai Extract, Transform, and Load (ETL ) atau proses yang dikenal sebagai Extract, Load, and Transform (ELT). Bagi sebagian besar organisasi yang menggunakan ETL, prosesnya mengandalkan otomatisasi, dan efisien, terdefinisi dengan baik, kontinu, dan berbasis batch.
Tingkat menengah: Tingkat menengah terdiri dari server OLAP (pemrosesan analitik online ) yang memungkinkan kecepatan kueri yang cepat. Tiga jenis model OLAP dapat digunakan pada tingkat ini, yang dikenal sebagai ROLAP, MOLAP, dan HOLAP. Jenis model OLAP yang digunakan tergantung pada jenis sistem database yang ada.
Tingkat teratas: Tingkat teratas diwakili oleh semacam antarmuka pengguna front-end atau alat pelaporan, yang memungkinkan pengguna akhir untuk melakukan analisis data ad-hoc pada data bisnis mereka.
Sebagian besar gudang data akan dibangun di sekitar sistem basis data relasional, baik di lokasi maupun di cloud, di mana data disimpan dan diproses. Komponen lainnya akan mencakup sistem manajemen metadata dan lapisan konektivitas API yang memungkinkan gudang untuk menarik data dari sumber organisasi dan menyediakan akses ke alat analisis dan visualisasi.
Sebuah gudang data khas memiliki empat komponen utama: database pusat, alat ETL, metadata, dan alat akses. Semua komponen ini direkayasa untuk kecepatan sehingga Anda bisa mendapatkan hasil dengan cepat dan menganalisis data dengan cepat.
Gudang data telah ada selama beberapa dekade. Lahir pada 1980-an, ini membahas kebutuhan untuk mengoptimalkan analitik pada data. Ketika aplikasi bisnis perusahaan mulai berkembang dan menghasilkan/menyimpan lebih banyak data, mereka membutuhkan sistem data warehouse yang dapat mengelola data dan menganalisisnya. Pada tingkat tinggi, admin database dapat menarik data dari sistem operasional mereka dan menambahkan skema ke dalamnya melalui transformasi sebelum memuatnya ke gudang data mereka.
Seiring dengan berkembangnya arsitektur data warehouse dan semakin populernya, semakin banyak orang di dalam perusahaan yang mulai menggunakannya untuk mengakses data - dan data warehouse memudahkan untuk melakukannya dengan data terstruktur. Di sinilah metadata menjadi penting. Pelaporan dan dasbor menjadi kasus penggunaan utama, dan SQL (bahasa kueri terstruktur) menjadi cara de facto untuk berinteraksi dengan data tersebut.
Mari kita lihat lebih dekat setiap komponen.
Ketika analis database ingin memindahkan data dari sumber data ke gudang data mereka, ini adalah proses yang mereka gunakan. Singkatnya, ETL mengubah data ke dalam format yang dapat digunakan sehingga setelah berada di gudang data, data tersebut dapat dianalisis/ditanyakan/dll.
Metadata adalah data tentang data. Pada dasarnya, ini menjelaskan semua data yang disimpan dalam sistem agar dapat dicari. Beberapa contoh metadata mencakup penulis, tanggal atau lokasi artikel, tanggal pembuatan file, ukuran file, dll. Anggap saja seperti judul kolom di spreadsheet. Metadata memungkinkan Anda mengatur data agar dapat digunakan, sehingga Anda dapat menganalisisnya untuk membuat dasbor dan laporan.
SQL adalah bahasa standar de facto untuk menanyakan data Anda. Ini adalah bahasa yang digunakan analis untuk menarik wawasan dari data mereka yang disimpan di gudang data. Biasanya gudang data memiliki teknologi pemrosesan kueri SQL eksklusif yang digabungkan dengan komputasi. Hal ini memungkinkan kinerja yang sangat tinggi dalam hal analitik Anda. Namun, satu hal yang perlu diperhatikan adalah bahwa biaya gudang data dapat mulai menjadi mahal semakin banyak data dan sumber daya komputasi SQL yang Anda miliki.
Lapisan data adalah lapisan akses yang memungkinkan pengguna untuk benar-benar mendapatkan data. Ini biasanya di mana Anda akan menemukan data mart. Lapisan ini mempartisi segmen-segmen data Anda, tergantung pada siapa yang ingin Anda beri akses, sehingga Anda bisa mendapatkan rincian yang sangat detail di seluruh organisasi Anda. Misalnya, Anda mungkin tidak ingin memberikan tim penjualan Anda akses ke data tim SDM Anda, dan sebaliknya.
Hal ini terkait dengan lapisan data di mana Anda harus bisa menyediakan akses dan kebijakan keamanan yang baik di seluruh data organisasi Anda. Biasanya gudang data memiliki tata kelola data yang sangat baik dan kemampuan keamanan bawaan, jadi Anda tidak perlu melakukan banyak pekerjaan rekayasa data khusus untuk memasukkan ini. Penting untuk merencanakan tata kelola dan keamanan saat Anda menambahkan lebih banyak data ke gudang Anda dan seiring pertumbuhan perusahaan Anda.
Meskipun alat akses berada di luar gudang data Anda, mereka dapat dilihat sebagai ujung depan yang ramah pengguna bisnis. Di sinilah Anda akan menemukan alat bantu pelaporan dan visualisasi, yang digunakan oleh analis data dan pengguna bisnis untuk berinteraksi dengan data, mengekstrak wawasan, dan membuat visualisasi yang dapat digunakan oleh seluruh bisnis. Contoh alat ini termasuk Tableau, Looker, dan Qlik.
OLAP (pemrosesan analitik online) adalah perangkat lunak untuk melakukan analisis multidimensi dengan kecepatan tinggi pada volume data yang besar dari penyimpanan data terpadu dan terpusat, seperti gudang data. OLTP (pemrosesan transaksi online), memungkinkan eksekusi real-time dari sejumlah besar transaksi basis data oleh banyak orang, biasanya melalui internet. Perbedaan utama antara OLAP dan OLTP adalah sesuai namanya: OLAP bersifat analitis, dan OLTP bersifat transaksional.
Alat OLAP dirancang untuk analisis data multidimensi dalam gudang data, yang berisi data historis dan data transaksional. Penggunaan umum OLAP termasuk penambangan data dan aplikasi intelijen bisnis lainnya, perhitungan analitis yang kompleks, dan skenario prediktif, serta fungsi pelaporan bisnis seperti analisis keuangan, penganggaran, dan perencanaan perkiraan.
OLTP dirancang untuk mendukung aplikasi yang berorientasi pada transaksi dengan memproses transaksi terbaru secepat dan seakurat mungkin. Penggunaan umum OLTP termasuk ATM, perangkat lunak e-commerce, pemrosesan pembayaran kartu kredit, pemesanan online, sistem reservasi, dan alat pencatatan.
Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "OLAP vs OLTP: Apa Perbedaannya?"
Skema adalah cara di mana data diatur dalam database atau gudang data. Ada dua tipe utama struktur skema, skema bintang dan skema kepingan salju, yang akan memengaruhi desain model data Anda.
Skema bintang: Skema ini terdiri dari satu tabel fakta yang dapat digabungkan dengan sejumlah tabel dimensi yang telah didenormalisasi. Skema ini dianggap sebagai jenis skema yang paling sederhana dan paling umum, dan penggunanya mendapatkan keuntungan dari kecepatannya yang lebih cepat saat melakukan kueri.
Skema kepingan salju: Meskipun tidak diadopsi secara luas, skema snowflake adalah struktur organisasi lain dalam gudang data. Dalam hal ini, tabel fakta terhubung ke sejumlah tabel dimensi yang dinormalisasi, dan tabel-tabel dimensi ini memiliki tabel-tabel turunan. Pengguna skema snowflake mendapatkan keuntungan dari tingkat redundansi data yang rendah, tetapi ada biaya yang harus dibayar untuk kinerja kueri.
Data warehouse, database, data lake, dan data mart adalah semua istilah yang cenderung digunakan secara bergantian. Meskipun istilahnya serupa, ada perbedaan penting:
Menggunakan pipeline data, gudang data mengumpulkan data mentah dari berbagai sumber ke dalam repositori pusat, terstruktur menggunakan skema standar yang dirancang untuk analisis data. Data lake adalah gudang data tanpa skema yang telah ditentukan sebelumnya. Akibatnya, memungkinkan lebih banyak jenis analitik daripada gudang data. Data lake biasanya dibangun pada platform data besar seperti Apache Hadoop.
Data mart adalah bagian dari gudang data yang berisi data khusus untuk lini bisnis atau departemen tertentu. Karena berisi subset data yang lebih kecil, data mart memungkinkan departemen atau lini bisnis untuk menemukan wawasan yang lebih terfokus dengan lebih cepat daripada yang mungkin terjadi saat bekerja dengan kumpulan data gudang data yang lebih luas.
Basis data dibangun terutama untuk kueri cepat dan pemrosesan transaksi, bukan analitik. Basis data biasanya berfungsi sebagai tempat penyimpanan data terfokus untuk aplikasi tertentu, sedangkan gudang data menyimpan data dari sejumlah (atau bahkan semua) aplikasi di organisasi Anda.
Basis data berfokus pada pembaruan data waktu nyata, sementara gudang data memiliki cakupan yang lebih luas, menangkap data saat ini dan historis untuk analisis prediktif, pembelajaran mesin, dan jenis analisis lanjutan lainnya.
Gudang data cloud adalah gudang data yang secara khusus dibangun untuk berjalan di cloud, dan ditawarkan kepada pelanggan sebagai layanan terkelola. Gudang data berbasis cloud telah menjadi lebih populer selama lima hingga tujuh tahun terakhir karena semakin banyak perusahaan menggunakan layanan komputasi awan dan berusaha mengurangi jejak pusat data lokal mereka.
Dengan gudang data cloud, infrastruktur gudang data fisik dikelola oleh perusahaan cloud, artinya pelanggan tidak perlu melakukan investasi di muka pada perangkat keras atau perangkat lunak dan tidak perlu mengelola atau memelihara solusi gudang data.
Sebuah bisnis dapat membeli lisensi gudang data dan kemudian menerapkan gudang data pada infrastruktur lokalnya sendiri. Meskipun layanan ini biasanya lebih mahal daripada layanan gudang data cloud, layanan ini mungkin merupakan pilihan yang lebih baik bagi entitas pemerintah, lembaga keuangan, atau organisasi lain yang menginginkan kontrol lebih besar atas data mereka atau perlu mematuhi standar atau peraturan keamanan atau privasi data yang ketat.
Alat gudang data adalah paket perangkat keras dan perangkat lunak yang sudah terintegrasi - CPU, penyimpanan, sistem operasi, dan perangkat lunak gudang data - yang dapat disambungkan oleh bisnis ke jaringannya dan mulai digunakan sebagaimana adanya. Alat data warehouse berada di antara implementasi cloud dan on-premise dalam hal biaya di muka, kecepatan penerapan, kemudahan skalabilitas, dan kontrol manajemen data.
Gudang data memberikan landasan untuk hal-hal berikut:
Ketika perusahaan mulai menampung lebih banyak data dan membutuhkan analisis yang lebih canggih serta beragam data, gudang data mulai menjadi mahal dan tidak begitu fleksibel. Jika Anda ingin menganalisis data tidak terstruktur atau semi terstruktur, data warehouse tidak akan berfungsi. Kami melihat semakin banyak perusahaan yang beralih ke arsitektur data lakehouse , yang membantu mengatasi masalah di atas. Lakehouse data terbuka memungkinkan Anda menjalankan beban kerja gudang pada semua jenis data dalam arsitektur terbuka dan fleksibel. Data ini juga dapat digunakan oleh data scientist dan engineer yang mempelajari data untuk mendapatkan wawasan bisnis. Daripada sistem yang digabungkan secara erat, data lakehouse jauh lebih fleksibel dan juga dapat mengelola data tidak terstruktur dan semi-terstruktur seperti foto, video, data IoT, dan banyak lagi.
Data lakehouse juga dapat mendukung beban kerja ilmu data, ML, dan AI Anda selain beban kerja pelaporan dan dasbor Anda. Jika Anda ingin meningkatkan dari arsitektur gudang data, maka mengembangkan data lakehouse terbuka adalah cara yang tepat.
Solusi gudang data IBM menawarkan kinerja dan fleksibilitas untuk mendukung data terstruktur dan tidak terstruktur untuk beban kerja analitik termasuk pembelajaran mesin.
Jelajahi kemampuan gudang data cloud yang terkelola sepenuhnya dan elastis yang dibangun untuk analitik dan AI berkinerja tinggi.
IBM Cloud Pak® for Data adalah seperangkat modular komponen perangkat lunak terintegrasi untuk analisis data, organisasi, dan manajemen di seluruh silo bisnis, di tempat dan di cloud.
AI dapat menghadirkan sejumlah tantangan yang dapat diatasi oleh gudang data perusahaan dan data mart. Temukan cara menilai nilai total yang dapat diberikan oleh solusi tersebut.
Untuk memilih gudang data perusahaan, bisnis harus mempertimbangkan dampak AI, pembeda gudang utama, dan variasi model penerapan. Ebook ini membantu melakukan hal itu.
Panduan untuk membangun organisasi berbasis data dan mendorong keuntungan bisnis.