/* */
MEDIA PENDIDIKAN dan PEMBELAJARAN Ilmu Mantiq (Logika): Kaidah Berfikir yang Memelihara Akal, agar tidak terjadi Kerancuan dalam Berfikir.

Wednesday, February 26, 2025

Dataset

Dataset

1. Apa Itu Dataset?

Dataset adalah kumpulan data yang terstruktur atau tidak terstruktur yang digunakan dalam berbagai aplikasi, termasuk machine learning, analisis data, dan penelitian ilmiah. Dataset terdiri dari data yang dikumpulkan, diproses, dan disusun dalam bentuk tabel, gambar, teks, atau format lainnya.

 

2. Jenis-Jenis Dataset

Dataset dapat dikategorikan berdasarkan struktur datanya, formatnya, dan cara penggunaannya.

a. Berdasarkan Struktur Data

Jenis Dataset

Deskripsi

Contoh

Terstruktur

Data yang tersusun dalam format tabel dengan baris dan kolom.

Data pelanggan (nama, usia, alamat, transaksi).

Tidak Terstruktur

Data yang tidak memiliki format tetap.

Gambar, video, audio, teks bebas (Twitter, artikel).

Semi-Terstruktur

Data yang memiliki struktur tetapi tidak dalam format tabel.

Data dalam format JSON, XML, atau log file.

 

b. Berdasarkan Sumber Data

Jenis Dataset

Deskripsi

Contoh

Dataset Primer

Data yang dikumpulkan langsung dari eksperimen atau survei.

Data hasil wawancara, eksperimen laboratorium.

Dataset Sekunder

Data yang dikumpulkan dari sumber lain.

Data dari situs pemerintah, publikasi akademik.

 

c. Berdasarkan Tujuan Penggunaan

Jenis Dataset

Deskripsi

Contoh Penggunaan

Dataset Latih (Training Set)

Data yang digunakan untuk melatih model machine learning.

Data wajah untuk model pengenalan wajah.

Dataset Validasi (Validation Set)

Data yang digunakan untuk menyetel parameter model.

Dataset tambahan untuk hyperparameter tuning.

Dataset Uji (Test Set)

Data yang digunakan untuk menguji performa model.

Dataset yang belum pernah dilihat model sebelumnya.

 

3. Komponen dalam Dataset

Sebuah dataset biasanya terdiri dari beberapa komponen utama berikut:

3.1. Fitur (Features) atau Atribut (Attributes)

  • Fitur adalah variabel independen dalam dataset yang digunakan untuk membuat prediksi.
  • Contoh:
    • Dalam dataset harga rumah, fitur bisa berupa luas tanah, jumlah kamar, lokasi.
    • Dalam dataset kesehatan, fitur bisa berupa usia, tekanan darah, kadar gula darah.

 

3.2. Label (Target)

  • Label adalah variabel dependen dalam dataset yang menjadi hasil atau target yang ingin diprediksi.
  • Contoh:
    • Dalam klasifikasi email, labelnya adalah spam atau bukan spam.
    • Dalam prediksi harga rumah, labelnya adalah harga rumah dalam dolar.

 

3.3. Sampel (Samples) atau Observasi (Instances)

  • Sampel adalah satu unit data dalam dataset.
  • Contoh: Jika sebuah dataset memiliki 10.000 baris data pelanggan, maka setiap baris adalah satu sampel.

 

4. Format Dataset yang Sering Digunakan

Dataset dapat disimpan dalam berbagai format tergantung pada kebutuhan:

Format

Deskripsi

Contoh Penggunaan

CSV (Comma-Separated Values)

Format berbasis teks dengan data dipisahkan koma.

Dataset tabular untuk analisis data dan machine learning.

JSON (JavaScript Object Notation)

Format data semi-terstruktur berbasis objek.

Data API, data streaming.

XML (Extensible Markup Language)

Format berbasis tag untuk penyimpanan data.

Data dalam sistem web dan database.

SQL Database

Dataset tersimpan dalam basis data relasional.

Manajemen data dalam aplikasi skala besar.

 

5. Cara Memeriksa Kualitas Dataset

Sebelum digunakan dalam analisis atau pelatihan model machine learning, dataset harus dicek kualitasnya. Beberapa langkah utama dalam data preprocessing adalah:

5.1. Mengecek Data yang Hilang (Missing Data)

Masalah: Nilai kosong dalam dataset dapat menyebabkan kesalahan dalam analisis.

Solusi:

    • Menghapus baris atau kolom dengan nilai hilang.
    • Mengisi nilai yang hilang dengan mean, median, atau modus.

Contoh dalam Python:

import pandas as pd

df = pd.read_csv("dataset.csv")

print(df.isnull().sum()) # Mengecek jumlah missing values

df.fillna(df.mean(), inplace=True) # Mengisi dengan rata-rata

 

5.2. Mengecek Outlier (Data Ekstrem)

Masalah: Data yang sangat berbeda dari mayoritas dapat mengganggu hasil analisis.

Solusi:

    • Menggunakan metode IQR (Interquartile Range) untuk menghapus outlier.
    • Menormalkan atau mentransformasikan data untuk mengurangi dampak outlier.

Contoh dalam Python:

import numpy as np

Q1 = df['nilai'].quantile(0.25)

Q3 = df['nilai'].quantile(0.75)

IQR = Q3 - Q1

df_clean = df[(df['nilai'] >= (Q1 - 1.5 * IQR)) & (df['nilai'] <= (Q3 + 1.5 * IQR))]

 

5.3. Normalisasi dan Standarisasi Data

Masalah: Beberapa algoritma machine learning bekerja lebih baik jika data memiliki skala yang seragam.

Solusi:

    • Normalisasi (Min-Max Scaling) → Mengubah nilai ke dalam rentang [0,1].
    • Standarisasi (Z-score Scaling) → Mengubah data agar memiliki mean = 0 dan standar deviasi = 1.

Contoh dalam Python:

from sklearn.preprocessing import MinMaxScaler, StandardScaler

scaler = MinMaxScaler()

df_scaled = scaler.fit_transform(df[['fitur1', 'fitur2']])

scaler = StandardScaler()

df_standardized = scaler.fit_transform(df[['fitur1', 'fitur2']])

 

6. Dataset Populer untuk Machine Learning

Berikut beberapa dataset populer yang sering digunakan dalam machine learning dan analisis data:

Nama Dataset

Deskripsi

Sumber

Iris Dataset

Data klasifikasi bunga iris.

sklearn.datasets

MNIST

Data gambar tulisan tangan (0-9).

tensorflow.keras.datasets

Titanic

Data penumpang Titanic untuk prediksi selamat atau tidak.

Kaggle

IMDB Reviews

Dataset ulasan film untuk analisis sentimen.

TensorFlow

 

7. Kesalahan Umum dalam Penggunaan Dataset & Cara Menghindarinya

1. Tidak Memeriksa Kualitas Data

  • Solusi: Selalu lakukan data cleaning sebelum analisis.

2. Tidak Membagi Data dengan Benar (Data Splitting yang Salah)

  • Solusi: Gunakan teknik train-test split atau cross-validation.

3. Menggunakan Dataset yang Tidak Representatif

  • Solusi: Pastikan dataset mencerminkan populasi yang ingin dianalisis.

 

8. Kesimpulan

  Dataset adalah komponen utama dalam analisis data dan machine learning.

  Memahami struktur, format, dan preprocessing dataset sangat penting untuk hasil yang akurat.

  Gunakan teknik cleaning, normalisasi, dan data splitting yang tepat untuk menghindari kesalahan.

 

 

/*
*/