From the Desk of Andi Sama: Mengenal Bigdata (part 2)

Extracting insight from an immense volume, variety and velocity of data, in context, beyond what was previously possible
Variety (Relational & Non-Relational data), Velocity (Streaming & Data Movement) and Volume (Petabytes to Zettabytes scalability)

Kalau pada artikel yang lalu kita sekilas membahas tentang pengenalan Bigdata, sekarang marilah kita lebih mengenal tentang teknologi untuk mengelola Big Data itu sendiri. Artikel sebelumnya sempat menyinggung tentang tiga dimensi challenge dan juga opportunity Bigdata yaitu (i.) increasing volume (jumlah data), (ii.) velocity (kecepatan pergerakan data), dan (iii.) variety (berbagai tipe data dan sumber data) - didefinisikan pertama kali oleh seorang analyst META Group (sekarang bernama Gartner), Doug Laney dalam laporan risetnya pada tahun 2001.

Bigdata tidak beroperasi secara terpisah (silo), namun terintegrasi sebagai bagian dari infrastruktur informasi anda.

Trusted information dalam bentuk traditional data source (Data Warehouse) dan non-traditional data source (Bigdata), serta teknologi pendukung terkaitnya akan memiliki nilai yang lebih jika disinergikan secara bersama untuk kepentingan organisasi.

Di dunia open source, kita mengenal Apache software framework yang disebut Hadoop, yang merupakan suatu framework untuk mendukung data-intensive distributed application yang memungkinkan aplikasi menggunakan ribuan nodes dengan jumlah data dalam ukuran Petabytes. Hadoop sendiri terinspirasi dari GFS (Google File System) dan Google MapReduce. Hadoop memiliki filesystem tersendiri yang disebut sebagai HDFS (Hadoop Distributed File System).

GFS merupakan file system khusus yang dikembangkan oleh Google untuk mendukung operasional dari search engine-nya. GFS dirancang dan dioptimisasi untuk melakukan penyimpanan dan akses terhadap data secara efisien dan reliable dengan menggunakan komputer dengan konfigurasi hardware biasa (artinya tidak perlu komputer dengan high-grade branded server) dengan jumlah yang banyak yang dikonfigurasikan dalam kumpulan cluster.

MapReduce merupakan suatu software framework yang diperkenalkan oleh Google di tahun 2004 untuk mendukung distributed computing untuk suatu dataset yang sangat besar pada kumpulan cluster computer. Pada intinya, software framework yang dibangun berbasiskan bahasa pemrograman Java ini memiliki apa yang disebut sebagai master node yang bertugas untuk (1. map step) membagi-bagi data yang sangat besar (input) ke dalam bagian-bagian yang lebih kecil (smaller problem) dengan ukuran 64-128MB dan mendistribusikannya ke worker nodes untuk diproses secara paralel; Selesai memproses, worker nodes akan mengembalikan hasilnya ke master node. Tugas master node selanjutnya (2. reduce step) adalah mengumpulkan hasil dari pemrosesan worker nodes dan mengkombinasikannya sedemikian rupa untuk menghasilkan output yang diharapkan, yang merupakan jawaban dari suatu pertanyaan yang akan dicari jawabannya. Pertanyaan misalnya dapat berupa sbb.: lakukan pengurutan data (sort) dengan besar data beberapa Petabytes, dan dengan komputasi paralel ini, fungsi tersebut dapat dilakukan hanya dalam beberapa jam saja.

Mengenal Bigdata Part 1

From the Desk of Andi Sama

Translate

Sunday, February 26, 2012

Mengenal Bigdata (part 2)

No comments:

About Me