Optimasi Query RDF Melalui Transformasi Kolumnar Parquet Menggunakan Apache Spark
DOI:
https://doi.org/10.33795/jip.v12i3.9666Keywords:
RDF, Query Optimization, Partition Pruning, Parquet, distributed database, apache sparkAbstract
Perkembangan teknologi Semantic Web mendorong peningkatan signifikan dalam produksi metadata terstruktur yang direpresentasikan menggunakan Resource Description Framework (RDF). Seiring dengan pertumbuhan volume data RDF yang semakin besar, proses querying terhadap dataset RDF dalam format teks seperti N-Triples menghadapi berbagai kendala performa, terutama akibat mekanisme full table scan pada pemrosesan query, terutama saat query bersifat selektif. Kondisi ini menyebabkan peningkatan beban Input/Output (I/O), latensi eksekusi yang tinggi, serta pemanfaatan sumber daya komputasi yang kurang optimal. Meskipun berbagai pendekatan optimasi RDF telah dikembangkan, sebagian besar penelitian masih terfokus pada level algoritma query dan sistem triple store khusus, sehingga belum banyak mengeksplorasi pendekatan optimasi berbasis format penyimpanan kolumnar pada platform distributed computing modern seperti Apache Spark. Oleh karena itu, penelitian ini mengusulkan Proof of Concept (PoC) transformasi RDF ke format Parquet dengan partitioning berbasis predikat menggunakan Apache Spark untuk meningkatkan efisiensi query RDF. Metode yang digunakan adalah pendekatan eksperimental kuantitatif dengan membandingkan performa query pada dataset RDF sebelum dan sesudah penerapan optimasi. Dataset yang digunakan berasal dari DBpedia Mapping-Based Objects yang tersedia melalui DBpedia Databus dalam format N-Triples dan terdiri dari jutaan triple RDF yang merepresentasikan relasi antar entitas pada knowledge graph DBpedia. Proses optimasi dilakukan dengan mentransformasikan dataset ke format kolumnar Parquet serta menerapkan partitioning berbasis predikat pada platform Apache Spark. Evaluasi dilakukan melalui enam skenario query berbasis predikat tunggal, yaitu team, careerStation, birthPlace, subdivision, country, dan starring. Hasil pengujian mengonfirmasi bahwa secara arsitektural, pendekatan yang diusulkan mampu menghindari full table scan melalui mekanisme partition pruning, menghasilkan rata-rata peningkatan performa waktu eksekusi sebesar 99.87% pada skala data uji. Waktu eksekusi juga turun drastis dari rentang 224–234 detik menjadi sekitar 0.18–0.58 detik. Temuan awal ini membuktikan bahwa kombinasi format kolumnar dan partitioning memiliki potensi fundamental yang efektif. Penelitian ini meletakkan dasar eksperimental yang valid, yang ke depannya perlu dievaluasi lebih lanjut pada dataset berskala masif dan skenario query multi-join yang lebih kompleks untuk menguji batas skalabilitasnya.
Downloads
References
Ben Mahria, B., Chaker, I., & Zahi, A. (2021). An empirical study on the evaluation of the RDF storage systems. Journal of Big Data, 8(1). https://doi.org/https://doi.org/10.1186/s40537-021-00486-y
DBpedia Association. (2022). DBpedia Mapping-based Objects Dataset. Retrieved May 12, 2026, from https://databus.dbpedia.org/dbpedia/mappings/mappingbased-objects
Elzein, N. M., Majid, M. A., Hashem, I. A. T., Ibrahim, A. O., Abulfaraj, A. W., & Binzagr, F. (2023). JQPro:Join Query Processing in a Distributed System for Big RDF Data Using the Hash-Merge Join Technique. Mathematics, 11(5). https://doi.org/https://doi.org/10.3390/math11051275
Hogan, A., Blomqvist, E., Cochez, M., D’Amato, C., Melo, G. De, Gutierrez, C., … Zimmermann, A. (2022). Knowledge graphs. ACM Computing Surveys, 54(4). https://doi.org/https://doi.org/10.48550/arXiv.2003.02320
Kalogeros, E., Gergatsoulis, M., Damigos, M., & Nomikos, C. (2023). Efficient query evaluation techniques over large amount of distributed linked data. Information Systems, 115, 1–71. https://doi.org/https://doi.org/10.1016/j.is.2023.102194
Kumar, V. N., & P.S., A. K. (2023). An efficient and scalable SPARQL query processing framework for big data using MapReduce and hybrid optimum load balancing. Data & Knowledge Engineering, 148(C), 102239. Retrieved from https://doi.org/10.1016/j.datak.2023.102239
Lim, J., Kim, Lee, H., Choi, D., Bok, K., & Yoo, J. (2022). An Efficient Distributed SPARQL Query Processing Scheme Considering Communication Costs in Spark Environments. Applied Sciences (Switzerland), 12(1). https://doi.org/https://doi.org/10.3390/app12010122
Mahmudul Hasan, & Bansal, S. (2023). S3QLRDF: distributed SPARQL query processing using Apache Spark—a comparative performance study. Distributed and Parallel Database, 41, 191–231. https://doi.org/https://doi.org/10.1007/s10619-023-07422-4
Palagin, O., Petrenko, M., Kaverinskiy, V., & Malakhov, K. (2025). A Method for Enhancing the Efficiency of RDF/Xml-Structure Processing in the Apache Jena Semantic Web Framework. Cybernetics and Systems Analysis, 61, 469–486. https://doi.org/https://doi.org/10.1007/s10559-025-00784-w
Peng, P., Ji, S., Özsu, M. T., & Zou, L. (2024). Minimum motif-cut: a workload-aware RDF graph partitioning strategy. The VLDB Journal, 33, 1517–1542. https://doi.org/10.1007/s00778-024-00860-1
Regino, A. G., Rossanez, A., Torres, R. da S., & dos Reis, J. C. (2026). A Systematic Literature Review on RDF Triple Generation From Natural Language Texts. Semantic Web: – Interoperability, Usability, Applicability, 17(1). https://doi.org/https://doi.org/10.1177/22104968251398355
Ryen, V., Soylu, A., & Roman, D. (2022). Building Semantic Knowledge Graphs from (Semi-)Structured Data: A Review. Future Internet, 14(5), 1–24. https://doi.org/https://doi.org/10.3390/fi1405012
Sagi, T., Lissandrini, M., Pedersen, T. B., & Hose, K. (2022). A design space for RDF data representations. VLDB Journal, 31(2), 347–373. https://doi.org/10.1007/s00778-021-00725-x
Troullinou, G., Agathangelos, G., Kondylakis, H., Stefanidis, K., & Plexousakis, D. (2024). DIAERESIS: RDF data partitioning and query processing on SPARK. Semantic Web, 15(5), 1763–1789. https://doi.org/https://doi.org/10.3233/SW-243554
Yamasaki, K., & Amagasa, T. (2023). RDF Data Partitioning for Efficient SPARQL Query Processing with Spark SQL. In Information Integration and Web Intelligence (pp. 92–106). Springe, Cham. Retrieved from https://link.springer.com/chapter/10.1007/978-3-031-48316-5_12






