Analysis of hierarchical and non-hierarchical clustering algorithms for textual data

Agnieszka Nowak, Tomasz Jach, Tomasz Xięski

Abstract


Autorzy prezentują wybrane metody grupowania dokumentów tekstowych za pomocą ręcznie generowanych słów kluczowych. Dokonano porównania hierarchicznych i niehierarchicznych algorytmów grupowania. Zaprezentowano wyniki obu grup algorytmów, uwzględniając kompletność i dokładność wyszukiwania. Podejścia sprawdzane są dla tego samego zbioru danych (tematów prac licencjackich).

Keywords


clustering; textual data; K-medoids; Agnes

Full Text:

PDF (Polski)

References


Abonyi J., Feil B.: Cluster Analysis for Data Mining and System Identification. Birkhauser Verlag AG, Niemcy, 2007.

Jain A. K., Dubes R. C: Algorithms for clustering data. Prentice Hall, New Jersey 1988.

Świniarski R. W., Kurgan Ł. A., Cios K. J., Pedrycz W.: Data mining. A Knowledge Discovery Approach. Springer Science+Business Media, LLC, USA, 2007.

Myatt G. J.: Making Sense of Data A Practical Guide to Exploratory Data Analysis and Data Mining. John Wiley and Sons, Inc., Hoboken, New Jersey 2007.

Kumar V., Tan P. N., Steinbach M.: Introduction to Data Mining. Addison-Wesley, USA, 2006.

Nowak A., Wakulicz-Deja A.: Effectiveness comparison of classification rules based on k-means clustering and Salton's method. Monitoring, Security and Rescue Techniques In Multiagent Systems, Advanced In Soft Computing, Springer-Verlag, Berlin 2005.

Nowak A., Wakulicz-Deja A.: Analiza efektywności wnioskowania w złożonych bazach wiedzy. Systemy Wspomagania Decyzji, Zakopane 2007.

Nowak A., Wakulicz-Deja A., Bachliński S.: Optimization of Speech Recognition by Clustering of Phones. Fundamenta Informaticae, Vol. 72, 2006, s. 283-293.

Salton G: Automatic Information Organization and Retreival. McGraw-Hill, New York, USA, 1975.

Wakulicz-Deja A.: Podstawy systemów wyszukiwania informacji. Analiza metod. Akademicka Oficyna Wydawnicza PLJ, Warszawa 1995.

C. J. Van Rijsbergen.: Information Retrieval, 2nd edition. Dept. of Computer Science, University of Glasgow, 1979.

Ćwik J., Koronacki J.: Statystyczne systemy uczące się. WNT, Waszawa 2005.

Jach T.: Grupowanie jako metoda eksploracji wiedzy w systemach wspomagania decyzji. Analiza algorytmów hierarchicznych. Sosnowiec 2008.

Xieski T.: Grupowanie jako metoda eksploracji wiedzy w systemach wspomagania decyzji. Analiza algorytmów niehierarchicznych (k-optymalizacyjnych). Sosnowiec 2008.

Osiński S., Weiss D.: Carrot2: An Open Source Framework for Search Results Clustering. 26th European Conference on Information Retrieval (Poster session), Sunderland, United Kingdom, 2004.

System Carrot2 - http://project.carrot2.org/.
DOI: http://dx.doi.org/10.21936/si2009_v30.n2A.488