Default
Pengembangan Model Prediksi Harga Sewa Kos di Makassar Menggunakan Teknik Data Mining
๐ Deskripsi Proyek
Proyek ini mengembangkan model prediksi harga sewa kos di Kota Makassar menggunakan teknik data mining dan machine learning. Model ini bertujuan untuk membantu pemilik properti dalam menetapkan harga sewa yang objektif dan kompetitif berdasarkan analisis data.
๐ฏ Tujuan Penelitian
- Mengidentifikasi faktor-faktor yang mempengaruhi harga sewa kos di Makassar
- Membangun model prediksi yang akurat menggunakan teknik data mining
- Mengembangkan prototipe alat bantu keputusan untuk pemilik properti
๐ Hasil Utama
- Model Terbaik: XGBoost Regressor
- Mean Absolute Error (MAE): Rp 219.420
- R-squared (Rยฒ): 0.606 (60.6% variasi harga dapat dijelaskan)
- Faktor Penentu Utama: AC, Kloset Duduk, Tipe Campur, Lokasi
๐ Dataset
- Sumber Data: Web scraping dari Mamikos.com
- Jumlah Data Awal: 1,162 listing
- Data Final: 562 listing unik (setelah pembersihan duplikasi)
- Cakupan: Seluruh Kota Makassar
Fitur Dataset:
- Harga sewa bulanan
- Lokasi (kecamatan)
- Tipe kos (putra, putri, campur)
- Fasilitas yang tersedia
- Jarak ke kampus-kampus utama
๐ ๏ธ Teknologi yang Digunakan
Bahasa Pemrograman
- Python 3.8+
Library Utama
class="highlight">
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# Data Manipulation & Analysis
pandas
numpy
# Machine Learning
scikit-learn
xgboost
# Geospatial Analysis
geopy
# Web Scraping
selenium
# Visualization
matplotlib
seaborn
๐ Struktur Proyek
class="highlight">1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
kos-price-prediction/
โ
โโโ data/
โ โโโ raw/ # Data mentah hasil scraping
โ โโโ processed/ # Data yang sudah diproses
โ โโโ final/ # Data final untuk modeling
โ
โโโ notebooks/
โ โโโ 01_data_collection.ipynb # Web scraping
โ โโโ 02_data_preprocessing.ipynb # Preprocessing & EDA
โ โโโ 03_feature_engineering.ipynb # Feature engineering
โ โโโ 04_modeling.ipynb # Model development
โ โโโ 05_evaluation.ipynb # Model evaluation
โ
โโโ src/
โ โโโ data_collection.py # Script web scraping
โ โโโ preprocessing.py # Data preprocessing
โ โโโ feature_engineering.py # Feature engineering
โ โโโ models.py # Model definitions
โ โโโ utils.py # Utility functions
โ
โโโ models/
โ โโโ xgboost_model.pkl # Model XGBoost terbaik
โ โโโ random_forest_model.pkl # Model Random Forest
โ
โโโ dashboard/ # Prototype dashboard
โ โโโ app.py # Main dashboard application
โ โโโ static/ # Static files
โ
โโโ requirements.txt # Dependencies
โโโ README.md # Documentation
โโโ LICENSE # License file
๐ Metodologi
1. Pengumpulan Data
- Web scraping otomatis menggunakan Selenium
- Ekstraksi dari platform Mamikos.com
- Pengumpulan 1,162 listing awal
2. Preprocessing Data
- Pembersihan duplikasi data
- Penanganan missing values
- Konversi tipe data
3. Feature Engineering
- Encoding Fasilitas: MultiLabelBinarizer untuk fitur fasilitas
- Encoding Tipe Kos: One-Hot Encoding untuk kategori tipe kos
- Fitur Spasial: Perhitungan jarak Haversine ke kampus-kampus utama
4. Penanganan Outlier
- Metode Interquartile Range (IQR)
- Batas atas = Q3 + 1.5 ร IQR
- Peningkatan signifikan performa setelah penanganan outlier
5. Model Development
- Random Forest Regressor
- XGBoost Regressor (Model Terbaik)
- Split data: 80% training, 20% testing
๐ Hasil Evaluasi
Model MAE (Rupiah) RMSE (Rupiah) R-squared Random Forest 238,753 332,766 0.531 XGBoost 219,420 302,442 0.606
๐ Feature Importance
Berdasarkan analisis XGBoost, 10 faktor teratas yang mempengaruhi harga:
- AC (0.607) - Faktor dominan
- Kloset Duduk (0.090)
- Tipe Kos Campur (0.053)
- Lokasi Ujung Pandang (0.041)
- WiFi
- Akses 24 Jam
- Kamar Mandi Dalam
- Jarak ke Kampus
- Kasur
- Lokasi Rappocini
๐ฏ Implikasi Praktis
Untuk Pemilik Properti:
- Alat bantu penetapan harga objektif
- Panduan investasi fasilitas berdasarkan data
- Mengurangi risiko overpricing/underpricing
Untuk Penelitian Lanjutan:
- Baseline model untuk pengembangan lebih lanjut
- Framework yang dapat diadaptasi untuk kota lain
๐ฎ Pengembangan Masa Depan
- Web scraping data yang lebih detail (luas kamar, foto properti)
- Dashboard interaktif dengan analisis SHAP
- Implementasi model Neural Network (MLP)
- Optimasi hyperparameter lebih ekstensif
- Integrasi data real-time dan analisis tren temporal
๐ฅ Tim Peneliti
- Muh. Tegar Adyaksa - Universitas Hasanuddin
- Athifah Nur Rahman MD - Universitas Hasanuddin
- M. Ervin - Universitas Hasanuddin
- Cholyn Sharon Enos - Universitas Hasanuddin
- Imam Ahmad Mirza - Universitas Hasanuddin
๐ Acknowledgments
Terima kasih kepada:
- Dr. Eng. Supri Bin Hj. Amir, S.Si., M.Eng.
- Octavian, S.Si., M.Kom.
Dosen pengampu mata kuliah Data Mining, Universitas Hasanuddin.
๐ Referensi
- Al Hanif, F. I., et al. (2023). โThe Effect of Campus Existence on Boarding House Rental Pricesโ
- Christian, Y., & Herman (2023). โRental Price Prediction of Boarding Houses in Batam Cityโ
- Fitri, E. (2023). โAnalisis Perbandingan Metode Regresi untuk Prediksi Harga Rumahโ
- Wisnuadhi, B., & Setiawan, I. (2021). โRekomendasi Fitur yang Mempengaruhi Harga Sewaโ