Optimasi Query RDF Melalui Transformasi Kolumnar Parquet Menggunakan Apache Spark

Astria Febrian Anggraini; Nadya Rudie Sucipto; Master Edison Siregar

doi:10.33795/jip.v12i3.9666

Authors

Astria Febrian Anggraini Pradita University
Nadya Rudie Sucipto Pradita University
Master Edison Siregar Pradita University

DOI:

https://doi.org/10.33795/jip.v12i3.9666

Keywords:

RDF, Query Optimization, Partition Pruning, Parquet, distributed database, apache spark

Abstract

Perkembangan teknologi Semantic Web mendorong peningkatan signifikan dalam produksi metadata terstruktur yang direpresentasikan menggunakan Resource Description Framework (RDF). Seiring dengan pertumbuhan volume data RDF yang semakin besar, proses querying terhadap dataset RDF dalam format teks seperti N-Triples menghadapi berbagai kendala performa, terutama akibat mekanisme full table scan pada pemrosesan query, terutama saat query bersifat selektif. Kondisi ini menyebabkan peningkatan beban Input/Output (I/O), latensi eksekusi yang tinggi, serta pemanfaatan sumber daya komputasi yang kurang optimal. Meskipun berbagai pendekatan optimasi RDF telah dikembangkan, sebagian besar penelitian masih terfokus pada level algoritma query dan sistem triple store khusus, sehingga belum banyak mengeksplorasi pendekatan optimasi berbasis format penyimpanan kolumnar pada platform distributed computing modern seperti Apache Spark. Oleh karena itu, penelitian ini mengusulkan Proof of Concept (PoC) transformasi RDF ke format Parquet dengan partitioning berbasis predikat menggunakan Apache Spark untuk meningkatkan efisiensi query RDF. Metode yang digunakan adalah pendekatan eksperimental kuantitatif dengan membandingkan performa query pada dataset RDF sebelum dan sesudah penerapan optimasi. Dataset yang digunakan berasal dari DBpedia Mapping-Based Objects yang tersedia melalui DBpedia Databus dalam format N-Triples dan terdiri dari jutaan triple RDF yang merepresentasikan relasi antar entitas pada knowledge graph DBpedia. Proses optimasi dilakukan dengan mentransformasikan dataset ke format kolumnar Parquet serta menerapkan partitioning berbasis predikat pada platform Apache Spark. Evaluasi dilakukan melalui enam skenario query berbasis predikat tunggal, yaitu team, careerStation, birthPlace, subdivision, country, dan starring. Hasil pengujian mengonfirmasi bahwa secara arsitektural, pendekatan yang diusulkan mampu menghindari full table scan melalui mekanisme partition pruning, menghasilkan rata-rata peningkatan performa waktu eksekusi sebesar 99.87% pada skala data uji. Waktu eksekusi juga turun drastis dari rentang 224–234 detik menjadi sekitar 0.18–0.58 detik. Temuan awal ini membuktikan bahwa kombinasi format kolumnar dan partitioning memiliki potensi fundamental yang efektif. Penelitian ini meletakkan dasar eksperimental yang valid, yang ke depannya perlu dievaluasi lebih lanjut pada dataset berskala masif dan skenario query multi-join yang lebih kompleks untuk menguji batas skalabilitasnya.

Downloads

Download data is not yet available.

References

Ben Mahria, B., Chaker, I., & Zahi, A. (2021). An empirical study on the evaluation of the RDF storage systems. Journal of Big Data, 8(1). https://doi.org/https://doi.org/10.1186/s40537-021-00486-y

DBpedia Association. (2022). DBpedia Mapping-based Objects Dataset. Retrieved May 12, 2026, from https://databus.dbpedia.org/dbpedia/mappings/mappingbased-objects

Elzein, N. M., Majid, M. A., Hashem, I. A. T., Ibrahim, A. O., Abulfaraj, A. W., & Binzagr, F. (2023). JQPro:Join Query Processing in a Distributed System for Big RDF Data Using the Hash-Merge Join Technique. Mathematics, 11(5). https://doi.org/https://doi.org/10.3390/math11051275

Hogan, A., Blomqvist, E., Cochez, M., D’Amato, C., Melo, G. De, Gutierrez, C., … Zimmermann, A. (2022). Knowledge graphs. ACM Computing Surveys, 54(4). https://doi.org/https://doi.org/10.48550/arXiv.2003.02320

Kalogeros, E., Gergatsoulis, M., Damigos, M., & Nomikos, C. (2023). Efficient query evaluation techniques over large amount of distributed linked data. Information Systems, 115, 1–71. https://doi.org/https://doi.org/10.1016/j.is.2023.102194

Kumar, V. N., & P.S., A. K. (2023). An efficient and scalable SPARQL query processing framework for big data using MapReduce and hybrid optimum load balancing. Data & Knowledge Engineering, 148(C), 102239. Retrieved from https://doi.org/10.1016/j.datak.2023.102239

Lim, J., Kim, Lee, H., Choi, D., Bok, K., & Yoo, J. (2022). An Efficient Distributed SPARQL Query Processing Scheme Considering Communication Costs in Spark Environments. Applied Sciences (Switzerland), 12(1). https://doi.org/https://doi.org/10.3390/app12010122

Mahmudul Hasan, & Bansal, S. (2023). S3QLRDF: distributed SPARQL query processing using Apache Spark—a comparative performance study. Distributed and Parallel Database, 41, 191–231. https://doi.org/https://doi.org/10.1007/s10619-023-07422-4

Palagin, O., Petrenko, M., Kaverinskiy, V., & Malakhov, K. (2025). A Method for Enhancing the Efficiency of RDF/Xml-Structure Processing in the Apache Jena Semantic Web Framework. Cybernetics and Systems Analysis, 61, 469–486. https://doi.org/https://doi.org/10.1007/s10559-025-00784-w

Peng, P., Ji, S., Özsu, M. T., & Zou, L. (2024). Minimum motif-cut: a workload-aware RDF graph partitioning strategy. The VLDB Journal, 33, 1517–1542. https://doi.org/10.1007/s00778-024-00860-1

Regino, A. G., Rossanez, A., Torres, R. da S., & dos Reis, J. C. (2026). A Systematic Literature Review on RDF Triple Generation From Natural Language Texts. Semantic Web: – Interoperability, Usability, Applicability, 17(1). https://doi.org/https://doi.org/10.1177/22104968251398355

Ryen, V., Soylu, A., & Roman, D. (2022). Building Semantic Knowledge Graphs from (Semi-)Structured Data: A Review. Future Internet, 14(5), 1–24. https://doi.org/https://doi.org/10.3390/fi1405012

Sagi, T., Lissandrini, M., Pedersen, T. B., & Hose, K. (2022). A design space for RDF data representations. VLDB Journal, 31(2), 347–373. https://doi.org/10.1007/s00778-021-00725-x

Troullinou, G., Agathangelos, G., Kondylakis, H., Stefanidis, K., & Plexousakis, D. (2024). DIAERESIS: RDF data partitioning and query processing on SPARK. Semantic Web, 15(5), 1763–1789. https://doi.org/https://doi.org/10.3233/SW-243554

Yamasaki, K., & Amagasa, T. (2023). RDF Data Partitioning for Efficient SPARQL Query Processing with Spark SQL. In Information Integration and Web Intelligence (pp. 92–106). Springe, Cham. Retrieved from https://link.springer.com/chapter/10.1007/978-3-031-48316-5_12