Metin Madenciliğinde Anahtar Kelime Seçimi Bir Üniversite Örneği

Osman YILDIZ
450

Öz


Kurumların ileri düzey bilişim sistemlerine sahip olması ne kadar önemliyse, bu sistemlerdeki verilerin kurum yöneticilerine işlevsel, ayırt edici ve anlamlı bir şekilde sunulması da o kadar önemlidir. Bu bağlamda büyük metinlerin içerisinde yöneticiler için anahtar kelime çıkarımı oldukça önem arz etmektedir. Bu çalışmada, halen bir üniversitede kullanılan kurum ile ilgili şikayet, teşekkür, görüş ve öneri mesajlarının yazılabildiği ve bu mesajlara ilgili kurum tarafından cevap verilebildiği bir bilişim sistemine ait veriler kullanılmıştır.  Veri setindeki yaklaşık 3961 mesaj, metin madenciliği teknikleri kullanılarak ön işlemden geçirilmiştir.  Ön işlem sonrası elde edilen metinlerin içindeki önemli kelimeleri tespit etmek için tf-idf ve ki-kare istatistik algoritması kullanılarak anahtar kelime seçimi yapılmıştır.

Referanslar


Akba, F. (2014). Duygu Analizinde Öznitelik Seçme Metriklerinin Değerlendirilmesi: Türkçe Film Eleştirileri. Ankara: Yüksek Lisans Tezi , Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü.

Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source NLP framework for Turkic languages. Structure, 10,1-5.

Chen, Y. H., Lu, E. J., & Tsai, M. F. (2014). inding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors. Expert Systems with Applications, 41(2), 663-670.

Cover, T. M., & Thomas, J. A. (2012). Elements Of Information Theory. Canada: John Wiley & Sons.

Çalış, K., Gazdağı, O., & Yıldız, O. (2013). Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri ile Otomatik Tespiti. Bilişim Teknolojileri Dergisi, 6(1),1-7.

Çelikyay, E. K. (2010). Metin madenciliği yöntemiyle Türkçe'de en sık kullanılan ve birbirini takip eden harflerin analizi ve birliktelik kuralları. İstanbul: Yüksek Lisans Beykent Üniversitesi, Fen Bilimleri Enstitüsü.

Döven, S. (2013). Metin Madenciliği ile Dokümanlar Arasındaki Benzerliklerin Bulunması. İstanbul: Yüksek Lisans, Bahçeşehir Üniversitesi, Fen Bilimleri Enstitüsü.

Feldman, R., & Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press.

Hong, B., & Zhen, A. (2012). An extended keyword extraction method. Physics Procedia, 24,1120-1127.

Huan, C., Tian, Y., Zhou, Z., Ling, C. X., & Huang, T. (2006). Keyphrase extraction us- ing semantic network structure analysis. In Proceedings of the sixth international conference on data mining, (s. 275-284).

Kang, S. S. (2003). Keyword-based document clustering. In Proceedings of the sixth international workshop on Information retrieval with Asian languages (s. 132-137). Association for Computational Linguistics.

Karaca, M. F. (2012). Metin madenciliği yöntemi ile haber sitelerindeki köşe yazılarının sınıflandırılması. Kocaeli: Yüksek Lisans, Karabük Üniversitesi, Fen Bilimleri Enstitüsü.

Krapivin, M., Autayeu, A., Marchese, M., Blanzieri, E., & Segata, N. (2010). Keyphrase extraction from scientific documents: Improving machine learning approaches with natural language processing. Lecture Notes in Computer Science, 6102 , 102–111.

Liu, Z., Chen, X., & Sun, M. (2012). Mining the interests of Chinese microbloggers via keyword extraction. Frontiers of Computer Science, 6(1), 76-87.

Najafi, E., & Darooneh, A. H. (2015). The fractal patterns of words in a text: A method for automatic keyword extraction. PLoS One, 10 (6).

Noh, H., Jo, Y., & Lee, S. (2015). Keyword selection and processing strategy for applying text mining to patent analysis. Expert Systems with Applications, 42(9), 4348-4360.

Onan, A., Korukoğlu, S., & Bulut, H. (2016). Ensemble of keyword extraction methods and classifiers in text classification. Expert Systems with Applications, 57, 232-247.

Pilavcılar, İ. F. (2007). Metin madenciliği ile metin sınıflandırma. İstanbul: Yüksek Lisans, Yıldız Teknik Üniversitesi, Fen Bilimleri Enstitüsü.

Taha, S. M. (2011). Metin madenciliği ile doküman demetleme. Ankara: Yüksek Lisans, Gazi Üniversitesi, Bilişim Enstitüsü.

Usui, S., Palmes, P., Nagata, K., Taniguchi, T., & Ueda, N. (2007). Keyword extraction, ranking, and organization for the neuro informatics platform. Biosystems, 88(3), 334–342.

Visa, A. (2001). Technology of text mining. In International Workshop on Machine Learning and Data Mining in Pattern Recognition (s. 1-11). Berlin: Springer.