Arama Motoru Nedir?
Bir arama motoru; temel olarak, bir bilgisayar sisteminde saklanan veriler içerisinden, belirtilen kelime ve sözcükleri içeren ya da bu kelime ve sözcüklerle ilişkili olan bilgilerin getirilmesini sağlayan bilgi alma sistemidir. Arama motorunun kullanıcıya getirdiği bilgilere, arama sonuçları denir. Arama sonuçları, genellikle alaka düzeyine bağlı olarak, kullanıcılara listeler halinde sunulurlar. Arama motorları, istenilen bilgiyi en kısa sürede bulmayı, en alakalı sonuçları getirmeyi hedefler ve bu doğrultuda geliştirilirler.
Arama Motorlarının Kullanım Alanları
Arama motoru denildiğinde akla ilk gelen genellikle web arama motorlarıdır ancak web sitesi aramak ve indekslemek dışında, farklı amaçlara yönelik arama motorları da bulunmaktadır. Kullanıcıların kendi bilgisayarları içerisinde yaptığı klasör ve dosya aramaları, metin içi arama; video, görsel ve ses arama; semantik arama; içerdiği etken maddeye göre ilaç bulmayı sağlayan, medikal alana özel arama motorları gibi çok çeşitli alanlar düşünülebilir.
Arama Motorlarının Tarihçesi
İlk arama motoru Archie, 1990 yılında, bir üniversite öğrencisi olan Alan Emtage tarafından geliştirildi ancak bu arama motorunun algoritması günümüzdeki arama motorlarından çok farklıydı. Çünkü bu sistem, dosya arama üzerine kurgulanmıştı. Bunu, şu an bilgisayarınızda dosya araması yapmaya benzetebilirsiniz.
Arama motorlarının günümüzde kullandığımız hale gelmesi epey süreç aldı. Günümüzde hala varlığını sürdüren ve popüler arama motorları arasında gösterilen Yahoo, 1995 yılında hizmete başladı. Yahoo, ilk zamanlarında arama motoru olarak hizmet vermiş, sonrasında ise e-posta vb. benzeri hizmetler de sunarak, şirket hacmini geliştirme yoluna girmiştir.
Yıl 1998’i gösterdiğinde, şu an dünyada en çok kullanılan ve hayatımızdaki etkisini her geçen gün arttıran Google kurulmuştur.
WEB Arama Motorlarının Çalışma Prensibi
WEB arama motorları; web crawler, dizin ve kullanıcı arabirimi olmak üzere üç ayrı bileşenden oluşur. Spider/web crawler denilen arama motoru robotları, internet ortamındaki tüm web sitelerini tarayarak, arama motoru dizinine (veri tabanına) indekslenmesi gereken içeriklerin URL’lerini toplar. Ardından topladığı bilgileri arama motorunun veri merkezindeki sunuculara taşır. Bir web sitesinin site haritası ve sayfalarındaki tüm linkleri bularak, internetteki diğer web sitelerinde yer alan içeriklerle ilişkilendirir ve birbirleri ile olan link ilişkilerini kayıt altına alır.
Arama motorları, bir dizi faktörü içeren karışık algoritmalar ile web site içeriklerini ve linklerin birbiriyle ilişkisine göre puanlama yapar. Yüksek puanlı web site ve içerikler, arama motoru sonuçlarında en üst sıralarda yer alır.
Arama motoru sıralama algoritması; link yapısı, web site yaşı, anahtar kelimeler, responsive tasarım (mobil uyumluluk) ve web site ziyaretçi istatistikleri gibi faktörleri kullanır. Arama motoru optimizasyonu çalışmaları ile sıralama faktörleri doğrultusunda performans iyileştirmeleri (SEO) yapılabilir.
Web üzerindeki tüm linkler crawl metoduyla indekslendikten sonra, arama motorunun ikinci bileşeni olan dizinler devreye girer. Arama motorları, içerik ve konumlarına (URL) dair bilgi edindiği web sayfalarını, arama sonuçlarında listeleyebilmek için dizine eklerler. Web sayfalarının online kayıtlarının tutulduğu dizinler, kullanıcının arama yaptığı anahtar kelimeler ile internetteki tüm web sitelerinde bulunan içerikleri ilişkilendirmek için tanımlama ve düzenleme işlevini üstlenirler.
Bir kitabın içindekiler bölümü mantığında çalışan dizin, crawler’ın topladığı içerikleri saklayan bir modüldür. Dizine eklenen web sayfaları, kalite kriterlerine göre sınıflandırılırlar.
Arama motorları, tüm interneti tarayıp linkleri hafızasına alarak kaydeder. Dizine indekslenen bağlantılar, üçüncü bileşen olan kullanıcı arabirimi ile arama motorunda sorgulama yapan kullanıcılara sunulur.
Birden fazla arama motorunda tarama yapan metasearch kategorisinde arama motorları da vardır. En prestijli dizinlerden biri olan Yahoo, hem Google sonuçlarını hem de kendi dizinindeki bilgileri kullanır.
Open Directory de Google’a hizmet veren dizinlerdendir. Google ise, arama sonuçlarındaki web sitelerini domain otorite değeri, sayfa değeri ve Pagerank, Panda algoritmaları gibi kendine özgü kriterleri baz alarak tamamen kendi algoritmasına göre listeler.
Sürünme (Crawling)
Arama motorları, örümcek (spider) adını verdikleri web site tarama botlarını geliştirir. Bu botlar, bir web sitesindeki tüm bölümleri, klasörleri, alt sayfaları, içerikleri yani neredeyse her şeyi dolaşarak ilgili web site hakkında bilgiler toplar. Örümcek botlar, bu işlemleri web sitede keşfettikleri URL’leri takip ederek yapar.
İndeksleme (Indexing)
Arama motorlarının örümcek botları, işlerini bitirdiğinde, sıra indeksleme işlemine gelir. İndeksleme, web sitelerinin arama motoru sonuçlarında görünür hale gelmelerini sağlayan bir sistemdir. İndekslenen web siteler, çevrimiçi veri tabanlarında saklanarak kalıcı hale getirilir. Zaman geçtikçe örümcek botlar yeni yeni veriler keşfeder ise bu verilerin de indeksleme işlemleri yapılarak veri tabanına eklenir.
Sıralama (Ranking)
Arama motorları, kullanıcılarına her zaman en doğru sonuçları verebilmek için sıralama algoritmaları kullanır. Bu algoritmalar sayesinde kullanıcının sorgusu ile ilgili en doğru sonuçlar üst sıralarda yer alır. Günümüzdeki arama motorları, kullanıcı eğilimlerini takip ederek kişi bazlı sıralamalar yaparak daha doğru sonuçlar verir.
Google Arama Motoruna Özgü Algoritmalar
PageRank Algoritması
Page Rank, Google’ın arama algoritmasının orijinal çekirdeğini oluşturan kısmıdır. Google’ı Lycos ve AltaVista gibi erken rakiplerinden ayıran bu büyük faktördür. 90’lı yıllarda Larry Page ve Sergey Brin tarafından geliştirilen bu algoritma, bir sayfanın veya alanın işaret ettiği bağlantıları sayıp değerlendirerek, önemini belirliyor ve ardından 0 ile 10 arasında göreli bir puan vererek çalışmaktaydı.
Page Rank; linklerin, bir sayfanın, alan adının veya içeriğin başka kullanıcılarca onaylanması ve işlevsel olması fikrine dayanıyor, bu nedenle bir sayfadan ne kadar çok bahsedilmiş ve referans olunmuş ise sayfanın değeri o kadar artıyordu.
Günümüzde PageRank algoritması güncellenmese de, PageRank’in çalışma prensipleri halen geçerlidir
Panda Algoritması
Eskiden web sitelerinde daha az içerik yoğunluğu olan çok sayıda içerik yayınlanırdı. Bu içerikler ya birebir ingilizce çeviri ya da benzer bir yazının kelimeleri eşdeğerleri ile değiştirilerek yayınlanırdı. Hatta, genellikle bu makalelerin anchor textleri bile birebir eşleşirdi.
Arama sonuçlarının en üstünde görünmeye çalışmak için içeriklerden açıkça intihal yapıyorlardı. Bu tür web sitelerine içerik çiftlikleri denirdi ve çok üst sıralarda sıralanırlardı. Google, 2011 Şubat ayında, bu durumun önüne geçmek ve düşük kaliteli içeriğe sahip siteleri ayırmak için arama sonuçlarına uygulanan bir filtre olan Panda güncellemelerini duyurmuştur.