From the Desk of Andi Sama: February 2012

Sunday, February 26, 2012

Mengenal Bigdata (part 2)

Extracting insight from an immense volume, variety and velocity of data, in context, beyond what was previously possible
Variety (Relational & Non-Relational data), Velocity (Streaming & Data Movement) and Volume (Petabytes to Zettabytes scalability)

Kalau pada artikel yang lalu kita sekilas membahas tentang pengenalan Bigdata, sekarang marilah kita lebih mengenal tentang teknologi untuk mengelola Big Data itu sendiri. Artikel sebelumnya sempat menyinggung tentang tiga dimensi challenge dan juga opportunity Bigdata yaitu (i.) increasing volume (jumlah data), (ii.) velocity (kecepatan pergerakan data), dan (iii.) variety (berbagai tipe data dan sumber data) - didefinisikan pertama kali oleh seorang analyst META Group (sekarang bernama Gartner), Doug Laney dalam laporan risetnya pada tahun 2001.

Bigdata tidak beroperasi secara terpisah (silo), namun terintegrasi sebagai bagian dari infrastruktur informasi anda.

Trusted information dalam bentuk traditional data source (Data Warehouse) dan non-traditional data source (Bigdata), serta teknologi pendukung terkaitnya akan memiliki nilai yang lebih jika disinergikan secara bersama untuk kepentingan organisasi.

Di dunia open source, kita mengenal Apache software framework yang disebut Hadoop, yang merupakan suatu framework untuk mendukung data-intensive distributed application yang memungkinkan aplikasi menggunakan ribuan nodes dengan jumlah data dalam ukuran Petabytes. Hadoop sendiri terinspirasi dari GFS (Google File System) dan Google MapReduce. Hadoop memiliki filesystem tersendiri yang disebut sebagai HDFS (Hadoop Distributed File System).

GFS merupakan file system khusus yang dikembangkan oleh Google untuk mendukung operasional dari search engine-nya. GFS dirancang dan dioptimisasi untuk melakukan penyimpanan dan akses terhadap data secara efisien dan reliable dengan menggunakan komputer dengan konfigurasi hardware biasa (artinya tidak perlu komputer dengan high-grade branded server) dengan jumlah yang banyak yang dikonfigurasikan dalam kumpulan cluster.

MapReduce merupakan suatu software framework yang diperkenalkan oleh Google di tahun 2004 untuk mendukung distributed computing untuk suatu dataset yang sangat besar pada kumpulan cluster computer. Pada intinya, software framework yang dibangun berbasiskan bahasa pemrograman Java ini memiliki apa yang disebut sebagai master node yang bertugas untuk (1. map step) membagi-bagi data yang sangat besar (input) ke dalam bagian-bagian yang lebih kecil (smaller problem) dengan ukuran 64-128MB dan mendistribusikannya ke worker nodes untuk diproses secara paralel; Selesai memproses, worker nodes akan mengembalikan hasilnya ke master node. Tugas master node selanjutnya (2. reduce step) adalah mengumpulkan hasil dari pemrosesan worker nodes dan mengkombinasikannya sedemikian rupa untuk menghasilkan output yang diharapkan, yang merupakan jawaban dari suatu pertanyaan yang akan dicari jawabannya. Pertanyaan misalnya dapat berupa sbb.: lakukan pengurutan data (sort) dengan besar data beberapa Petabytes, dan dengan komputasi paralel ini, fungsi tersebut dapat dilakukan hanya dalam beberapa jam saja.

Mengenal Bigdata Part 1

Saturday, February 11, 2012

Mengenal Bigdata (part 1)

Extracting insight from an immense volume, variety and velocity of data, in context, beyond what was previously possibleVariety (Relational & Non-Relational data), Velocity (Streaming & Data Movement) and Volume (Petabytes to Zettabytes scalability)

Kita sudah mulai cukup terbiasa dengan istilah ukuran kapasitas penyimpanan data dalam skala MegaBytes, GigaBytes atau bahkan TeraBytes (MB, GB, TB), salah satunya karena cukup banyak dari kita sudah membawa personal USB disk storage dalam bentuk flash-disk ataupun external disk. Masing-masing tingkatan berbeda 1000x (contoh 1 TB = 1000 GB). Namun, kemungkinannya hanya sebagian kecil dari kita yang pernah mendengar ukuran kapasitas dalam PB (PetaBytes), EB (ExaBytes) atau bahkan ZB (ZettaBytes), masing-masing adalah peningkatan sebesar 1000x dari sebelumnya.

Dalam pemrosesan DataWarehouse suatu enterprise, ukuran jumlah data yang mencapai ratusan TeraBytes atau bahkan PetaBytes sudah umum diperbincangkan. Data ini dapat berasal dari berbagai macam sumber (data sources) yang telah diolah melalui proses ETL (extract, transform, load) dan data cleansing.

Era Big Data semakin dekat, yaitu bagaimana kita dapat melakukan pemrosesan kumpulan data yang sangat besar (datasets) yang terus bertumbuh sehingga tidak praktis lagi dikelola dengan cara tradisional seperti kita mengelola database terstruktur pada saat ini (diperkirakan ada kebutuhan untuk memproses 35 ZettaBytes data di dunia pada tahun 2020, dibandingkan dengan ‘hanya’ 800 ribu PetaBytes data di tahun 2009 – IBM Study, 2010). Kebutuhan pemrosesan ini dapat berupa capture, storage, search, sharing, analytics, dan visualizing - wikipedia.org. Studi juga mengatakan 80% dari data yang ada di dunia sekarang adalah tidak terstruktur (unstructured) – yang dihasilkan oleh social media seperti facebook dan twitter misalnya, sisanya adalah terstruktur (structured) seperti data enterprise yang terdapat pada relational databases. Data terstruktur juga dapat bertumbuh sangat besar dan membutuhkan perhatian khusus untuk pemrosesannya, misalnya log files.

Dalam mencari peluang bisnis untuk Big Data, adalah penting untuk memperhatikan tiga hal (3 V) yaitu kebutuhan akan pemrosesan data yang variatif baik structured, semi-structured maupun unstructured (Variety), kecepatan pertumbuhan aliran dan perpindahan data yang sangat besar (Velocity) maupun scalability dari pertumbuhan data itu sendiri (Volume). Contoh peluang bisnis untuk BigData: (a) 100+ TB enterprise email archives analytics; (b) Social media analytics untuk sentiment analytics (“saya suka…”, “saya benci…”, “love this product”, “mau beli… nih, “sebel, problem terus nih…”) - dari twitter, facebook; (c) Analisa data dari crime scene (video, foto, sensor, interview dengan saksi, informasi lainnya) sesegera mungkin dalam 30 menit setelah kejadian; (d) Analisa peramalan cuaca; (e) Multi-channel pattern analysis di industri perbankan.

Baca artikel selanjutnya Mengenal Bigdata Part 2

Lihat juga artikel lainnya Real Time Analytics Processsing

Solusi Smarter Commerce

Delivering Customer Value across Buy-Market-Sale-Service Lifecycle

Farah Gonzales, seorang pengusaha yang sukses di Jakarta, sedang merencanakan persiapan pernikahannya di tahun depan. Salah satu aktifitas yang sedang aktif dilakukannya adalah melengkapi villa barunya yang terletak di kawasan yang asri di kota Bandung, Jawa Barat. Dalam dunia kompetisi bisnis yang aktif dan dinamis, Farah - seperti halnya eksekutif muda lainnya juga akrab dengan gaya hidup kehidupan ibukota yang serba cepat dan menuntut perhatian yang tidak sedikit. Ini menjadikannya memiliki waktu terbatas dalam hal belanja untuk keperluan villa-nya.

Seorang teman menginformasikan bahwa ada “layanan online baru” di mana seseorang dapat melakukan berbagai macam aktifitas belanja yang terintegrasi untuk hampir segala macam kebutuhan.

Dalam beberapa weekend ini, Farah mencoba explore ke situs BelanjaApaSaja.com, di mana ia dapat melakukan pencarian informasi untuk kebutuhan di villa barunya: dari mulai furnitures, kitchen set, serta barang-barang elektronik. Ia dapat melihat info produk yang disukainya (berupa spesifikasi produk, beberapa bahkan dilengkapi dengan animasi dan video seakan ia hadir di physical store-nya), melakukan perbandingan antar beberapa produk yang serupa, mengisi keranjang belanja virtual-nya dengan produk-produk yang telah dipilihnya dengan hanya melakukan drag-and-drop saja dan melakukan pembayaran selektif secara online & realtime dengan kartu kreditnya serta memilih waktu pengiriman yang ia inginkan. Sebelumnya, ia juga telah melakukan registrasi ke situs tersebut dengan mengisi data yang diperlukan.

Saat tidak memiliki akses ke notebook-nya, Farah kadang mengakses melalui iPad atau Android tablet-nya dan mendapatkan customer experience yang sama saat browsing ke BelanjaApaSaja.com.

Di satu hari rabu sore, 2 hari sebelum waktu pengiriman yang telah dijadwalkan, Farah memutuskan untuk menunda delivery dari barang-barang yang sudah dipesannya menjadi 2 minggu ke depan. Farah menghubungi call-center BelanjaApaSaja.com. Di mana, setelah petugas call-center melakukan verifikasi data dan meng-update pesanan Farah melalui workstation-nya, maka sistem akan secara otomatis melakukan penataan kembali terhadap barang-barang pesanan dengan menginformasikan ke para supplier melalui sistem portal supply-chain-management BelanjaApaSaja.com, sehingga sistem para supplier dapat melihat proyeksi ketersediaan inventory mereka masing-masing secara real-time dan melakukan penjadwalan inventory-nya kembali terhadap pesanan Farah untuk dapat dikirimkan sesuai permintaan; serta mengalokasikan barang pesanan Farah yang sesuai ke pelanggan lainnya yang membutuhkannya dalam waktu yang lebih dekat. Berbagai data yang masuk juga di-update secara real-time ke aplikasi ERP BelanjaApaSaja.com yang telah terintegrasi dengan sistem Enterprise Marketing Management, Supply Chain Management, serta situs retail Commerce-nya.

Farah mendapatkan konfirmasi melalui email dan SMS ke nomor selulernya bahwa pengiriman pesanannya akan dijadwalkan ulang sesuai permintaan.

Advanced Case Management

Optimize Case Outcomes with Information, Process and People

Kali ini kita mencoba mengenal suatu solusi case management dengan ilustrasi suatu skenario berikut: seorang potensial high-net-worth customer (nasabah Premier) dari suatu Bank mengirimkan email dengan isi sebagai berikut “Kepada Yth. Customer Service, Saya tertarik untuk menjadi nasabah Premier di Bank anda, dan saya kira deposit awal sebesar Rp. 5 milyar sudah cukup untuk itu. Mohon dibantu untuk proses selanjutnya dengan menghubungi sekretaris pribadi saya, Ms. Mia Anggriani di no. telp. 529-001821 Tertanda: Jannes Setiadi, PT. Cemerlang Jaya Abadi”.

Dari sekian banyak email (atau fax/formulir resmi/lainnya) yang diterima, sistem akan secara otomatis melakukan klasifikasi atas email eksternal tersebut, dan trigger process-flow permintaan pembukaan rekening serta menugaskan seorang Relational Manager Senior (RM) untuk menindaklanjuti. Sistem juga dapat menyarankan bahwa ini adalah calon nasabah VIP yang potensial dan langsung menginformasikan kepada RM yang yang ditunjuk bahwa calon nasabah ini sudah menjadi nasabah loan dan kartu kredit dengan melakukan integrated search ke Datawarehouse dan online systems terkait.

Proses selanjutnya adalah melakukan prosedur standard KYC (Know Your Customer) sesuai aturan Bank Indonesia dengan melakukan verifikasi rinci terhadap data calon nasabah secara face-to-face serta verifikasi data tambahan lainnya yang diperlukan, sebelum melakukan proses pembukaan rekening sesuai dengan Bisnis Proses baku yang ada di bank tersebut.

Kalau kita mengamati skenario di atas, sistem di bank tersebut melakukan berbagai hal mulai dari content capture, content classification (dari ribuan incoming unstructured content - email), melakukan automatic routing sesuai content (content analytics), dan secara otomatis memulai proses pembukaan rekening (trigger suatu bisnis proses yang diimplementasikan menurut business rules tertentu – Business Process Management) dan dapat menyarankan bahwa ini adalah merupakan potensial nasabah premier (history transaksi pada datawarehouse, Rp. 5 Milyar pada email, fakta ada nama PT. Cemerlang Jaya Abadi, average sales annual turnover dalam 3 tahun terakhir sebesar Rp. 600 Milyar dan mengetahui bahwa Bapak Jannes memiliki 89% saham di perusahaan tersebut).

Semua ini dapat terintegrasi karena bank tersebut mengimplementasikan Advanced Case Management (ACM). Proses yang berulang (repeatable) dan predictable dengan memiliki fleksibilitas tinggi (case management) sangat cocok diimplementasikan dengan solusi ini.

From the Desk of Andi Sama

Translate