Anahtar Kelime Çıkartma

Cümleyi oluşturan temel olgu kelimelerdir. Bir konuşmadaki konuları anlamak açısından, içindeki önemli kelimelere bakılabilir. İyi bir anahtar kelime çıkarma modeli, aşağıdakilerle ilgili sorunları etkili bir şekilde çözer:

  • Metin özetleme, etiketleme;
  • İndeksleme ve arama;
  • Metin sınıflandırması.

  • Bir metin birkaç konu ile ilgiliyse, mevcut diğer algoritmalar kelime bazında anahtar kelimeleri çıkarır, ancak konuların anahtar kelimelerini ayrı ayrı temsil etmek istenir. Bunların sonucunda ArKeywordExtractor, denetimsiz öğrenme ve TF/IDF puanlarının kullanıldığı bir hibrit model ile oluşturulmuştur.

    ArKeywordExtractor işlem adımları:

  • Verilen metin içinden stopwords, html kodları ve uygunsuz kelimeler filtrelenir.
  • Metne ait kelimelerin her birinin kökü alınır.
  • Denetimsiz öğrenme ile ayrıştırılan kelime gruplarından metne en yakın olanları dinamik olarak seçilir.
  • Seçilen grupta metnin içerisinde bulunan kelimeler TF/IDF algoritmasına göre çıkartılır.

  • Word embedding veya kelime vektörleştirme, kelimelerin birbiriyle olan yakınlıklarını diğer bir deyişle kelime benzerliklerini bulmak için kullanılan, kelimelerin gerçek sayılara karşılık gelen vektörlerle temsil edilmesine olanak sağlayan bir NLP metodolojisidir.
    ArKeywordExtractor tarafından kelime vektörleri alınırken FastText algoritmasından yararlanılmaktadır.