CUDA architecture in zero-latency data warehouse

Marcin Gorawski, Damian Lis

Abstract


There is a growing importance and the need to ensure data actualisation and efficiency of their processing in zero-latency data warehouses. The standard approach, based on the traditional process of data extraction (ETL) was not sufficient because of the need for time-sharing access during the process of refreshing the data and the time of analysis. The paper presents an ETL system for the zero-latency data warehouse. This system implements the WINE-HYBRIS algorithm based on CUDA and CPU architectures. Presented performance testing of the system, is based on two completely different architectures, allowing the possibility of observing upcoming opportunities that arises during usage of the CUDA architecture in data warehousing systems.

Keywords


Zero-latency data warehouse; CUDA architecture; WINE-HYBRIS algorithm

Full Text:

PDF (Polski)

References


Bruckner R., Tjoa A. M.: Capturing Delays and Valid Times in Data Warehouses –Towards Timely Consistent Analyses. J. Intell. Inf. Syst. 19(2), 2002, s. 169÷190.

Bruckner R., List B., Schiefer J.: Striving towards Near Real-Time Data Integration for Data Warehouses. Data Warehousing and Knowledge Discovery, 4th International Conference, DaWaK’02, LNCS, Vol. 2454, France 2002, s. 317÷326.

CUDA w badaniach naukowych, http://www.nvidia.pl/object/cuda_home_new_pl.html.

CUDA processing flow, http://en.wikipedia.org/wiki/CUDA.

Gorawski M.: Zaawansowane hurtownie danych. Wydawnictwo Politechniki Śląskiej, (Rozprawa habilitacyjna), Gliwice 2009, s. 387.

Gorawski M.Ś Bezopóźnieniowe przestrzenne hurtownie danych z zapytaniami klasy kNN. CPI, IX edycja konferencji z cyklu hurtownie danych i business intelligence, Warszawa 2007.

Gorawski M., Marks P.: Grouping and Joining Transformations in Data Extraction Process. AI Informatica, Annales Univ.Marii Curie-Skłodowska, Vol. 4, 2006, s. 135÷147.

Gorawski M., Siódemak P.Ś Graficzne projektowanie aplikacji ETL. Studia Informatica, Vol. 24, No. 4(56), Wydawnictwo Politechniki Śląskiej, Gliwice 2003, s. 345÷367.

Gorawski M.: Ekstrakcja i integracja danych w czasie rzeczywistym. Kwiecie1 A., Gaj P. (red.): Współczesne problemy systemów czasu rzeczywistego. Wydawnictwa Naukowo- Techniczne, Warszawa 2004, s. 435÷445.

Gorawski M., Jabło1ski P.Ś Uniwersalne Środowisko graficzne do modelowania procesów ekstrakcji i odtwarzania. Studia Informatica, Vol. 26, No. 3, Wydawnictwo Politechniki Śląskiej, Gliwice 2005, s. 7÷28.

Gorawski M., Marks P.: Data Loading Based on UB-Tree Index Implemented in Design-Resume JavaBeans Environment. Studia Informatica, Vol. 25, No. 1, 2004, s. 141÷153.

Gorawski M., Piekarek M.Ś Rozproszony proces ekstrakcji danych z protokołem SimpleRMI. Kozielski S. i in. (red.): Bazy danych. Modele, technologie, narzędzia Analiza danych i wybrane zastosowania, tom 2. Wydawnictwa Komunikacji i Łączności, 2005, s. 43÷50.

Gorawski M.: 3 perspektywy procesu ekstrakcji danych. Nowak J. S., Grabara J. K., Szyjewski Z. (red.): Strategie informatyzacji i zarządzanie wiedzą. WNT, 2004, s. 295÷341.

Gorawski M.: Charakterystyka procesu ekstrakcji danych. Studia Informatica, Vol. 24, No. 4(56), Wydawnictwo Politechniki Śląskiej, Gliwice 2003, s. 211÷232.

Gorawski M., Wardas R.: The workload balancing ETL system basing on a learning machine. Studia Informatica, Vol. 31, No. 2A (89), Wydawnictwo Politechniki Śląskiej, Gliwice 2010, s. 517÷530.

Huiming Qu., Labrinidis A.: Preference-Aware Query and Update Scheduling in Webdatabase. Data Engineering, ICDE 2007.

JCUDA, Java and CUDA, http://www.jcuda.de/

Rahm E., Hai Do H.: Data Cleaning: Problems and Current approches. Bulletin of the Technical Committee on Data Engineering, Vol. 23. 2000.

Thiele M., Fischer U., Lehner W.: Partition-based Workload Scheduling in Living Data Warehouse Environments, DOLAP’07, Portugal ACM 2007.




DOI: http://dx.doi.org/10.21936/si2011_v32.n2A.257