25.12.2007

Google'a Açık Kaynaklı Rakip: Hadoop

toz.jpg

Arama motoru pazarında başarılı olmak öncelikle teknolojik altyapının dağıtımlı çalışmasından geçiyor. Yani bütün arama, depolama, ve indeksleme gibi işleri birden fazla bilgisayara dağıtarak yapmak. Hatta böyle bir altyapısı olduğu için Google’dan aslında bir dağıtımlı bilgisayar şirketi diye bahsedilir. Yani herkes internetten bilgileri toplayıp depolayabilir ama bunu yüksek performansta yapmak yükü bir bilgisayar tarlasına dağıtabilmekten geçiyor. Bilgisayarlar arasındaki bu iş bölümünü Google kendi geliştirdiği MapReduce denilen bir yazılım platformu ile yapıyor. Ancak MapReduce ile aynı işi yapan ve açık kaynaklı olan bir yazılım platformu daha var: Hadoop.

Hadoop’un Google’un MapReduce’undan en büyük farkı tabii ki açık kaynaklı olması (Hadoop nasıl çalışıyor). Dolayısıyla Hadoop kullanarak isteyen herkes Google kadar hızlı çalışabilen bir arama motoru yapabilir, tabii bir miktar bütçeyle bir bilgisayar tarlası kurabiliyorsanız. Burada durup bir kere daha düşünün. Hadoop açık kaynaklı olduğundan Google’a bir değil binlerce rakip çıkabilir.

architecture.gif
MapReduce işlemleri küçük parçalara bölüyor ve farklı bilgisayarlara dağıtıyor, sonra işlenenleri toplayıp sonucu veriyor.

Hadoop giderek bir endüstri standardı olmaya başlıyor. Mesela Facebook Hadoop kullanarak kullanıcı davranışlarının analizini yapıyor (50 milyon kişi ve ilişkileri) ve sosyal reklamların etkisini ölçüyor. Geçtiğimiz aylarda New York Times bilgi işlem ekibi Hadoop kullanarak 150 yıllık arşivindeki 11 milyon makaleyi dijitalleştirdi ve aranabilir hale getirdi. Normalde aylar sürebilecek bilgi işleme bir kaç günde bitirildi. Amazon ile Hadoop kullanarak EC2 (dağııtmlı işlemci) ve S3 (dağıtımlı depolama) servislerinden faydalanabilirsiniz.

Hadoop projesini başlatan Doug Cutting aynı zamanda Yahoo ArGe bölümünde çalışmaya başladı, haliyle Yahoo içinde arama dahil bir çok başka bilgi işleme sisteminin performansını geliştiriyor. Daha fazla geliştiricinin katılmasıyla Hadoop giderek daha da iyileşiyor ve tabii üniversitelerde de yayılmaya başlıyor. Hadoop kullanabilmek / programlayabilmek önemli bir beceri haline geliyor. Sonuçta Hadoop kullanabilen yeni mezunlar piyasaya çıktıkça sadece Google gibi şirketler değil daha fazla kişi veya şirket yüksek performanslı iş yapabilecek.

Bir zamanlar dağıtımlı bilgisayar sistemlerine bilgisayar tarlası denilmekteydi, bugünlerde ise bilgisayar bulutu (“cloud computing“) diyoruz. Çok daha dinamik bir dünyanın tasviri bu. Nasıl bugün herkesin kişisel bilgisayarı varsa yakında hepimiz günlük hayatımızdaki bilgileri düzenleyebilmek için bilgisayar bulutu kullanıyor olabiliriz. Aslında yaptığımız her Google aramasında kullanıyoruz bile.

İlgili Bağlantılar: