PENERAPAN ALGORITMA RANDOM FOREST UNTUK KLASIFIKASI STATUS PEROKOK BERDASARKAN DATA FISIOLOGIS
Keywords:
klasifikasi merokkok, random forest, parameter fisiologis, machine learning, preprocessing dataAbstract
Penelitian ini bertujuan untuk mengembangkan model klasifikasi status merokok menggunakan algoritma Random Forest berbasis parameter fisiologis dari data klinis. Pendekatan ini menawarkan alternatif yang lebih objektif dibandingkan metode survei atau pelaporan mandiri yang rentan terhadap bias dan underreporting. Data yang digunakan merupakan dataset terbuka dengan total 55.692 baris dan 27 kolom yang mencakup berbagai parameter fisiologis, seperti tinggi badan, hemoglobin, tekanan darah, dan informasi demografis. Penelitian ini terdiri atas lima tahapan utama, yaitu akuisisi data, prapemrosesan, pembagian data, pelatihan model, dan evaluasi. Proses prapemrosesan mencakup Exploratory Data Analysis (EDA), pengecekan nilai hilang dan data duplikat, deteksi outlier, encoding variabel kategorikal, dan standarisasi data numerik. Model baseline Random Forest menghasilkan akurasi sebesar 75,65%. Setelah dilakukan tuning menggunakan RandomizedSearchCV, performa model meningkat menjadi 76,38%. Analisis feature importance menunjukkan bahwa fitur paling berpengaruh terhadap klasifikasi status merokok adalah gender_male, height_cm, dan hemoglobin. Hasil ini menunjukkan bahwa algoritma Random Forest dengan tuning dapat secara efektif memanfaatkan parameter fisiologis untuk mengklasifikasikan status merokok, serta memberikan kontribusi terhadap pengembangan sistem skrining kesehatan berbasis data.
References
Aishwarya, S., Siddalingaswamy, P. C., & Chadaga, K. (2025). Explainable artificial intelligence driven insights into smoking prediction using machine learning and clinical parameters. Scientific Reports, 15, 24069. https://doi.org/10.1038/s41598-025-09409-w
Ebrahimi, A., Henriksen, M. B. H., Brasen, C. L., Hilberg, O., Hansen, T. F., Jensen, L. H., Peimankar, A., & Wiil, U. K. (2024). Identification of patients’ smoking status using an explainable AI approach: a Danish electronic health records case study. BMC Medical Research Methodology, 24(1). https://doi.org/10.1186/s12874-024-02231-4
Sinha, K., Ghosh, N., & Sil, P. C. (2025). Harnessing machine learning in contemporary tobacco research. In Toxicology Reports (Vol. 14). Elsevier Inc. https://doi.org/10.1016/j.toxrep.2024.101877
Downloads
Published
Issue
Section
Citation Check
License
Copyright (c) 2026 Fajrur Rohman, Rudi Kurniawan, Bani Nurhakim, Indra Wiguna Marthanu, Kaslani .

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.




