The workload balancing ETL system basing on a learning machine

Marcin Gorawski, Rafał Wardas

Abstract


Data warehouses users usually expects both: short response time and high level of data “freshness”. The LEMAT presented as the ETL process manager bases on a concept of a adaptive load balancing of queries and actualizations according to user changing needs. The LEMAT system uses new workload balancing algorithm that uses LMWB (Learning Machine-based Workload Balancing) with the advanced query classifier SVM (Support Vector Machine). Moreover the method of a LEMAT system adaptation is presented. This method bases on collection of changing work conditions characteristics and reactions to congestions.

Keywords


ETL; SVM; classification; adaptation; LMWB

Full Text:

PDF (Polski)

References


Bruckner R., List B., Schiefer J.: Striving towards Near Real-Time Data Integration for Data Warehouses. Data Warehousing and Knowledge Discovery, 4th International Conference, DaWaK’02, France, LNCS, Vol. 2454, 2002, s. 317-326.

Bruckner R., Tjoa A.M.: Capturing Delays and Valid Times in Data Warehouses Towards Timely Consistent Analyses. Journal of Intelligent Information Systems, Vol. 19, No. 2, 2002, s. 169-190.

Campos M., Milenova B.: Creation and Deployment of Data Mining-Based Intrusion Detection Systems in Oracle Database 10g. Oracle Data Mining Technologies 2005.

Galhardas H., Florescu D., Shasha D., Simon E.: Ajax. An Extensible Data CleaningTool ACM SIGMOD, May 16-18, 2000, Dallas, Texas. ACM Press 2000, s. 590.

Gorawski M., Ciepluch M.: Przyrostowa ekstrakcja danych ETL(5). Studia Informatica Vol. 27, No. 1, Wyd. Politechnika Śląska, Gliwice 2006, s. 27-40.

Gorawski M., Jabłoński P.: Uniwersalne środowisko graficzne do modelowania procesów ekstrakcji i odtwarzania. Studia Informatica, Vol. 26, No. 3, Wyd. Politechniki Śląskiej, Gliwice 2005, s. 7-28.

Gorawski M., Marks P.: Data Loading Based on UB-Tree Index Implemented in Design-Resume /JavaBeans Environment. Studia Informatica, Vol. 25, No. 1,2004, s. 141-153.

Gorawski M., Marks P.: Grouping and Joining Transformations in Data Extraction Process. AI Informatica, Annales Univ. Marii Curie-Skłodowska, Vol. 4. 2006, s. 135-147.

Gorawski M., Piekarek M.: Rozproszony proces ekstrakcji danych z protokołem SimpleRMI. Red. S. Kozielski i in. Tom 2. Bazy danych. Modele, technologie, narzędzia Analiza danych i wybrane zastosowania. Wyd. Komunikacji i Łączności, 2005, s. 43-50.

Gorawski M., Siódemak P.: Graficzne projektowanie aplikacji ETL. Studia Informatica, Vol. 24, No. 4(56), Wyd. Politechniki Śląskiej, Gliwice 2003, s. 345-367.

Gorawski M.: Zaawansowane hurtownie danych. Gliwice: Wydaw. Politechniki Śląskiej, (Rozprawa habilitacyjna) 2009, s. 387.

Gorawski M.: 3 perspektywy procesu ekstrakcji danych. Red. J. S. Nowak, J. K. Grabara, Z. Szyjewski. Strategie informatyzacji i zarządzanie wiedzą. WNT, 2004, s. 295-341.

Gorawski, M.: Charakterystyka procesu ekstrakcji danych. Studia Informatica, Vol. 24, No. 4(56), Wyd. Politechniki Śląskiej, Gliwice 2003, s. 211-232.

Gorawski M.: Ekstrakcja i integracja danych w czasie rzeczywistym. Red. A. Kwiecień, P. Gaj. Współczesne problemy systemów czasu rzeczywistego. Wyd. Naukowo-Techniczne, Warszawa 2004, s. 435-445.

Huiming Qu., Labrinidis A.: Preference-Aware Query and Update Scheduling in Web-database. Data Engineering, ICDE 2007.

Microsoft, Services Managing Data with Data Transformation. http://www.microsoft.com/technet/community/events/sql2000/tnt1-78.mspx.

Oracle Data Warehousing, OLAP Option to Oracle Database 11g, http://www.oracle.com/solutions/business_intelligence/dw_home.html. 2009.

Oracle®, Complex Event Processing in the Real World September 2007.

Oracle®CEP, IDE Dev. Guide for Eclipse Release 11gR1 (11.1.1), E14301-01, 2009.

Rahm E., Hai Do H.: Data Cleaning: Problems and Current approches. Bulletin of the Technical Committee on Data Engineering, Vol. 23. 2000.

Remco R. Bouckaert, Eibe Frank, Mark Hall - WEKA Manual for Version 3-6-1, University of Waikato - 2009.

Schrefl M., Thalhammer T.: On Making Data Warehouses Active. 2nd International Conference Data Warehousing and Knowledge Discovery, DaWaK’00, September 4-6, 2000, London. Lecture Notes in Computer Science, Vol. 1874, Springer 2000, s. 34-46.

Thiele M., Fischer U., Lehner W.: Partition-based Workload Scheduling in Living Data Warehouse Environments, DOLAP’07, Portugal, ACM 2007.

Vassiliadis P., Simitsis A., Georgantas P., Tenwitis M.: A Framework for the Design of ETL Scenarios. Advanced Information Systems Engineering, CaiSE’03, Lecture Notes in Computer Science, Vol. 2681, Springer 2003, s. 520-535.

Vassiliadis P., Simitsis A., Skiadopoulos S.: Modeling ETL Activities asGraphs. Design and Management of Data Warehouses, DMDW’02, May 27, 2002, Toronto. CEUR-WS.org 2002, s. 52-61.

Vassiliadis P., Simitsis A., Skiadopoulos S.: Conceptual Modeling for ETL Processes. DOLAP’02, November 8, 2002, McLean, VA. ACM 2002, s. 14-21.




DOI: http://dx.doi.org/10.21936/si2010_v31.n2A.388