25.12.2007

Google'a Açık Kaynaklı Rakip: Hadoop

toz.jpg

Arama motoru pazarında başarılı olmak öncelikle teknolojik altyapının dağıtımlı çalışmasından geçiyor. Yani bütün arama, depolama, ve indeksleme gibi işleri birden fazla bilgisayara dağıtarak yapmak. Hatta böyle bir altyapısı olduğu için Google’dan aslında bir dağıtımlı bilgisayar şirketi diye bahsedilir. Yani herkes internetten bilgileri toplayıp depolayabilir ama bunu yüksek performansta yapmak yükü bir bilgisayar tarlasına dağıtabilmekten geçiyor. Bilgisayarlar arasındaki bu iş bölümünü Google kendi geliştirdiği MapReduce denilen bir yazılım platformu ile yapıyor. Ancak MapReduce ile aynı işi yapan ve açık kaynaklı olan bir yazılım platformu daha var: Hadoop.

Hadoop’un Google’un MapReduce’undan en büyük farkı tabii ki açık kaynaklı olması (Hadoop nasıl çalışıyor). Dolayısıyla Hadoop kullanarak isteyen herkes Google kadar hızlı çalışabilen bir arama motoru yapabilir, tabii bir miktar bütçeyle bir bilgisayar tarlası kurabiliyorsanız. Burada durup bir kere daha düşünün. Hadoop açık kaynaklı olduğundan Google’a bir değil binlerce rakip çıkabilir.

architecture.gif
MapReduce işlemleri küçük parçalara bölüyor ve farklı bilgisayarlara dağıtıyor, sonra işlenenleri toplayıp sonucu veriyor.

Hadoop giderek bir endüstri standardı olmaya başlıyor. Mesela Facebook Hadoop kullanarak kullanıcı davranışlarının analizini yapıyor (50 milyon kişi ve ilişkileri) ve sosyal reklamların etkisini ölçüyor. Geçtiğimiz aylarda New York Times bilgi işlem ekibi Hadoop kullanarak 150 yıllık arşivindeki 11 milyon makaleyi dijitalleştirdi ve aranabilir hale getirdi. Normalde aylar sürebilecek bilgi işleme bir kaç günde bitirildi. Amazon ile Hadoop kullanarak EC2 (dağııtmlı işlemci) ve S3 (dağıtımlı depolama) servislerinden faydalanabilirsiniz.

Hadoop projesini başlatan Doug Cutting aynı zamanda Yahoo ArGe bölümünde çalışmaya başladı, haliyle Yahoo içinde arama dahil bir çok başka bilgi işleme sisteminin performansını geliştiriyor. Daha fazla geliştiricinin katılmasıyla Hadoop giderek daha da iyileşiyor ve tabii üniversitelerde de yayılmaya başlıyor. Hadoop kullanabilmek / programlayabilmek önemli bir beceri haline geliyor. Sonuçta Hadoop kullanabilen yeni mezunlar piyasaya çıktıkça sadece Google gibi şirketler değil daha fazla kişi veya şirket yüksek performanslı iş yapabilecek.

Bir zamanlar dağıtımlı bilgisayar sistemlerine bilgisayar tarlası denilmekteydi, bugünlerde ise bilgisayar bulutu (“cloud computing“) diyoruz. Çok daha dinamik bir dünyanın tasviri bu. Nasıl bugün herkesin kişisel bilgisayarı varsa yakında hepimiz günlük hayatımızdaki bilgileri düzenleyebilmek için bilgisayar bulutu kullanıyor olabiliriz. Aslında yaptığımız her Google aramasında kullanıyoruz bile.

İlgili Bağlantılar:

Etiketler

, , , , , , ,

Geri beslemeler (Trackback)

Trackback Adresi
  1. Düğümküme » 2007 Düğümküme Başlıkları

5 Yorum

  1. tuncay

    Başlık biraz yanıltıcı olmuş bence. Aslında Hadoop Google’ın rakibi değil. Hadoop’un yaygınlaşmasını Google da destekliyor. Bu şekilde gelecekte kendisine lazım olacak insan kaynağını da yetiştirmiş olmayı hedefliyor. Örneğin http://code.google.com/edu/tools/ adresinde MapReduce için Hadoop öneriyor.

    Ayrıca sadece yazılım ile de artık Google ile mücadele edilmez bence. Şu anda toplamda “500 bin” bilgisayarlı birkaç datacenter sahibi olan Google yakın gelecekte yeni datacenter’lar da açacak. Yazılım hepimizin elinde olabilir ama bu kadar büyük ölçekli yatırımları Google, Microsoft gibi finansal açıdan çok güçlü firmalar yapabilir.

  2. arikan

    Tuncay bağlantı için sağol. Google içinde de bir çok ağır işlemi düzenlemek için Hadoop kullanılması ve Hadoop’un desteklenmesi kaçınılmaz bir gelişme gibi geliyor bana (gerçi MapReduce’u geliştiren Google programcılarının Hadoop projesine kod ile katkıda bulunmasının yasak olduğunu duymuştum). Her açık kaynaklı geliştirilen yazılımın geçmişte yaptığı gibi Hadoop da bence arama gibi ağır işlemler yapabilme tekelini kıracak bir proje.

    Tabi dediğin gibi piyasalar değişiyor, Google’u bu kadar büyüten mantık sadece yazılım veya PageRank gibi patentli mantıklar değil, sürekli dünyanın verisini toplayabiliyor ve bunları veri merkezlerinde depolayabiliyor olması. Hatta enerji tasarrufu için elektrik santrallerine yakın yerlere veri merkezleri kurmaya çalışıyorlar.

    Bir veri merkezi kaç para? Bugün ekransız bir bilgisayarın maliyeti $100 diye düşünelim. 500 bin bilgisayarlık bir veri merkezi 50 milyon dolara mal olur. Böyle bir parayı Türkiye’de bile bir çok orta boyutta şirket rahat rahat karşılayabilir.

    Sonuçta ortada çok parametre var: yönetici yazılım (Hadoop gibi), donanımın işletilmesi (bilgisayar tarlaları), ve bütün bu öğelerin birbirleriyle düzenli çalışabilmesi. Bütün bu karmaşayla uğraşabilmek yeni norm oluyor.

    Data Center Fabric
    http://en.wikipedia.org/wiki/Data_center_fabric

    Bu da böyle bir tekno-kahve muhabbeti oldu ;)

  3. arikan

    Dağıtımlı Sistem Tasarımına Giriş
    http://code.google.com/edu/parallel/dsd-tutorial.html

    MapReduce ve Paralel Programlamaya Giriş
    http://code.google.com/edu/parallel/mapreduce-tutorial.html

  4. Ahmet Tolga Tat

    Bence Hadoop’un en büyük özelligi acik kaynak olmasi ve tabiki Grid Computing olayini kolaylastirmasi. Google’in basarili olmasinin baska nedenleride var. Google’la rakip olabilmek icin Google’dan daha üstün arama makinalari gelistirmek gerek. Bence hakia.com bunu basaracak.

    Ayrica Hadoop’a benzer GridGain (http://gridgain.com/) diye bir yazilim daha var ve Ruslar tarafindan gelistirilmis. Kendileri GridGain’in daha üstün oldugunu söylüyorlar.

  5. burak

    Hadoop hakkinda bir yazi:

    http://sayilarvekuramlar.blogspot.com/2009/04/hadoop.html

Yorum Yaz