Education and Learning: Dataset

Wednesday, February 26, 2025

Dataset

Dataset

1. Apa Itu Dataset?

Dataset adalah kumpulan data yang terstruktur atau tidak terstruktur yang digunakan dalam berbagai aplikasi, termasuk machine learning, analisis data, dan penelitian ilmiah. Dataset terdiri dari data yang dikumpulkan, diproses, dan disusun dalam bentuk tabel, gambar, teks, atau format lainnya.

2. Jenis-Jenis Dataset

Dataset dapat dikategorikan berdasarkan struktur datanya, formatnya, dan cara penggunaannya.

a. Berdasarkan Struktur Data

Jenis Dataset	Deskripsi	Contoh
Terstruktur	Data yang tersusun dalam format tabel dengan baris dan kolom.	Data pelanggan (nama, usia, alamat, transaksi).
Tidak Terstruktur	Data yang tidak memiliki format tetap.	Gambar, video, audio, teks bebas (Twitter, artikel).
Semi-Terstruktur	Data yang memiliki struktur tetapi tidak dalam format tabel.	Data dalam format JSON, XML, atau log file.

b. Berdasarkan Sumber Data

Jenis Dataset	Deskripsi	Contoh
Dataset Primer	Data yang dikumpulkan langsung dari eksperimen atau survei.	Data hasil wawancara, eksperimen laboratorium.
Dataset Sekunder	Data yang dikumpulkan dari sumber lain.	Data dari situs pemerintah, publikasi akademik.

c. Berdasarkan Tujuan Penggunaan

Jenis Dataset	Deskripsi	Contoh Penggunaan
Dataset Latih (Training Set)	Data yang digunakan untuk melatih model machine learning.	Data wajah untuk model pengenalan wajah.
Dataset Validasi (Validation Set)	Data yang digunakan untuk menyetel parameter model.	Dataset tambahan untuk hyperparameter tuning.
Dataset Uji (Test Set)	Data yang digunakan untuk menguji performa model.	Dataset yang belum pernah dilihat model sebelumnya.

3. Komponen dalam Dataset

Sebuah dataset biasanya terdiri dari beberapa komponen utama berikut:

3.1. Fitur (Features) atau Atribut (Attributes)

Fitur adalah variabel independen dalam dataset yang digunakan untuk membuat prediksi.
Contoh:

Dalam dataset harga rumah, fitur bisa berupa luas tanah, jumlah kamar, lokasi.
Dalam dataset kesehatan, fitur bisa berupa usia, tekanan darah, kadar gula darah.

3.2. Label (Target)

Label adalah variabel dependen dalam dataset yang menjadi hasil atau target yang ingin diprediksi.
Contoh:

Dalam klasifikasi email, labelnya adalah spam atau bukan spam.
Dalam prediksi harga rumah, labelnya adalah harga rumah dalam dolar.

3.3. Sampel (Samples) atau Observasi (Instances)

Sampel adalah satu unit data dalam dataset.
Contoh: Jika sebuah dataset memiliki 10.000 baris data pelanggan, maka setiap baris adalah satu sampel.

4. Format Dataset yang Sering Digunakan

Dataset dapat disimpan dalam berbagai format tergantung pada kebutuhan:

Format	Deskripsi	Contoh Penggunaan
CSV (Comma-Separated Values)	Format berbasis teks dengan data dipisahkan koma.	Dataset tabular untuk analisis data dan machine learning.
JSON (JavaScript Object Notation)	Format data semi-terstruktur berbasis objek.	Data API, data streaming.
XML (Extensible Markup Language)	Format berbasis tag untuk penyimpanan data.	Data dalam sistem web dan database.
SQL Database	Dataset tersimpan dalam basis data relasional.	Manajemen data dalam aplikasi skala besar.

5. Cara Memeriksa Kualitas Dataset

Sebelum digunakan dalam analisis atau pelatihan model machine learning, dataset harus dicek kualitasnya. Beberapa langkah utama dalam data preprocessing adalah:

5.1. Mengecek Data yang Hilang (Missing Data)

Masalah: Nilai kosong dalam dataset dapat menyebabkan kesalahan dalam analisis.

Solusi:

Menghapus baris atau kolom dengan nilai hilang.
Mengisi nilai yang hilang dengan mean, median, atau modus.

Contoh dalam Python:

import pandas as pd

df = pd.read_csv("dataset.csv")

print(df.isnull().sum()) # Mengecek jumlah missing values

df.fillna(df.mean(), inplace=True) # Mengisi dengan rata-rata

5.2. Mengecek Outlier (Data Ekstrem)

Masalah: Data yang sangat berbeda dari mayoritas dapat mengganggu hasil analisis.

Solusi:

Menggunakan metode IQR (Interquartile Range) untuk menghapus outlier.
Menormalkan atau mentransformasikan data untuk mengurangi dampak outlier.

Contoh dalam Python:

import numpy as np

Q1 = df['nilai'].quantile(0.25)

Q3 = df['nilai'].quantile(0.75)

IQR = Q3 - Q1

df_clean = df[(df['nilai'] >= (Q1 - 1.5 * IQR)) & (df['nilai'] <= (Q3 + 1.5 * IQR))]

5.3. Normalisasi dan Standarisasi Data

Masalah: Beberapa algoritma machine learning bekerja lebih baik jika data memiliki skala yang seragam.

Solusi:

Normalisasi (Min-Max Scaling) → Mengubah nilai ke dalam rentang [0,1].
Standarisasi (Z-score Scaling) → Mengubah data agar memiliki mean = 0 dan standar deviasi = 1.

Contoh dalam Python:

from sklearn.preprocessing import MinMaxScaler, StandardScaler

scaler = MinMaxScaler()

df_scaled = scaler.fit_transform(df[['fitur1', 'fitur2']])

scaler = StandardScaler()

df_standardized = scaler.fit_transform(df[['fitur1', 'fitur2']])

6. Dataset Populer untuk Machine Learning

Berikut beberapa dataset populer yang sering digunakan dalam machine learning dan analisis data:

Nama Dataset	Deskripsi	Sumber
Iris Dataset	Data klasifikasi bunga iris.	sklearn.datasets
MNIST	Data gambar tulisan tangan (0-9).	tensorflow.keras.datasets
Titanic	Data penumpang Titanic untuk prediksi selamat atau tidak.	Kaggle
IMDB Reviews	Dataset ulasan film untuk analisis sentimen.	TensorFlow

7. Kesalahan Umum dalam Penggunaan Dataset & Cara Menghindarinya

1. Tidak Memeriksa Kualitas Data

Solusi: Selalu lakukan data cleaning sebelum analisis.

2. Tidak Membagi Data dengan Benar (Data Splitting yang Salah)

Solusi: Gunakan teknik train-test split atau cross-validation.

3. Menggunakan Dataset yang Tidak Representatif

Solusi: Pastikan dataset mencerminkan populasi yang ingin dianalisis.

8. Kesimpulan

Dataset adalah komponen utama dalam analisis data dan machine learning.

Memahami struktur, format, dan preprocessing dataset sangat penting untuk hasil yang akurat.

Gunakan teknik cleaning, normalisasi, dan data splitting yang tepat untuk menghindari kesalahan.

Education and Learning

Wednesday, February 26, 2025

Dataset

Arsip

Research Database

Daftar Blog

online newspaper

Software PHP

Media Sosial

OnLine Library

Qurban-2022

Link Ke UAD

Scientific Writing

BUKU GRID

Buku Cloud

Jurnal Dikti & Lipi dan Sumber Informasi Ilmiah Global

Free eBook

College

Genetic algorithms website

Soccer

Total Pageviews