Bilgi Keşfi
/ Knowledge Discovery >> Bilgi Keşfi >> teknoloji >> bilgisayar >> internet >> internet temelleri >>

Nasıl İnternet Arama Motorları
Giriş Çalışacak Work

ı kılan bir şekilde bilgi depolamak gerekir. Kullanıcılara toplanan veriler erişilebilir hale katılan iki temel bileşeni vardır:
  • veri
  • bilgi
    dizine hangi yöntemi ile depolanan bilgiler

    En basit durumda, bir arama motoru sadece kelime ve tespit edilmiştir URL'yi saklamak. Kelimesi önemli veya sayfada önemsiz bir şekilde kullanılıp kullanılmadığı söylüyorum yolu yoktur olacağından kelime kez ya da birçok kez veya sayfa olup kullanılıp kullanılmadığı Gerçekte, bu, sınırlı kullanım bir motor için yapacak kelimesini içeren diğer sayfalara bağlantılar içeriyordu. Diğer bir deyişle, arama sonuçlarının listenin en üstündeki en yararlı sayfaları sunmak için çalışır sıralama listesi oluşturmanın yolu yoktur olacaktı.

    çoğu arama motorları mağaza daha daha yararlı sonuçlar için yapmak sadece kelime ve URL'ye daha. Bir motor kelime sayfada görünen sayısını saklayabilir. Motor onlar belgenin üstüne yakın göründükleri gibi meta etiketleri veya sayfanın başlığında, bağlantıları, alt başlıklar halinde, kelimelerin atanan değerleri artan, her girişin bir ağırlık atayabilirsiniz. Her ticari arama motoru kendi endeksinde kelimelere ağırlık atamak için farklı bir formüle sahiptir. Bu, farklı arama motorları üzerinde aynı kelime için bir arama farklı sıralarda yer alan sayfaları, farklı listeler üretecek nedenlerinden biridir.

    Ne olursa olsun bir arama tarafından depolanan bilginin ek parçaları hassas kombinasyonu Motor, veri depolama alanından tasarruf etmek kodlanmış olacaktır. Örneğin, özgün Google kağıt ağırlık bilgi depolamak için, 8 bit her 2 bayt kullanarak açıklar - kelime büyük harfle olup olmadığını, onun yazı tipi boyutu, konumu ve diğer bilgiler hit sıralamasında yardımcı olmak için. Her bir faktör 2 byte gruplandırma içinde 2 ya da 3 bit (8 bit = 1 bayt) kadar sürebilir. Bunun bir sonucu olarak, bilgilerin büyük bir oldukça kompakt bir biçimde depolanabilir. Bilgi sıkıştırıldıktan sonra, indeksleme için hazır

    Bir dizin tek bir amacı vardır:. Bu bilgiler mümkün olduğunca çabuk bulunmasını verir. Orada inşa edilecek bir dizin için epeyce yolu vardır, ancak en etkili yollarından biri, bir hash tablosu oluşturmaktır. Karma olarak, formülü her kelime için bir sayısal değer eklemek için uygulanır. Formül eşit bölümlerin önceden saptanmış bir sayısı boyunca girişleri dağıtmak için tasarlanmıştır. Bu sayısal dağılım alfabenin genelinde kelimelerin dağılımı farklıdır ve bu karma tablonun etkinliği için anahtardır.

    Page [1] [2] [3] [4] [5] [6]