Legal NER: Identifikasi Entitas Hukum dengan BERT

Tentang Proyek

Legal NER adalah proyek tugas akhir saya yang bertujuan untuk mengotomatisasi identifikasi entitas hukum dalam dokumen putusan pengadilan Indonesia. Entitas yang diidentifikasi meliputi nama orang, institusi, pasal hukum, dan istilah legal lainnya.

Mengapa NER untuk Dokumen Hukum?

Dokumen hukum di Indonesia sangat banyak dan panjang. Proses manual untuk mengekstrak informasi penting dari dokumen-dokumen ini memakan waktu yang sangat lama. Dengan NER, proses ini bisa diotomatisasi sehingga:

Mempercepat analisis dokumen hukum
Mengurangi human error dalam ekstraksi informasi
Memungkinkan pencarian dan indexing yang lebih baik

Metodologi

Dataset

Dataset dikumpulkan dari putusan pengadilan yang tersedia secara publik. Proses anotasi dilakukan secara manual dengan label:

PER — Nama orang
ORG — Organisasi/institusi
LOC — Lokasi
LAW — Pasal/undang-undang
DATE — Tanggal

Model

Kami menggunakan BERT (Bidirectional Encoder Representations from Transformers) yang di-fine-tune pada dataset hukum Indonesia. BERT dipilih karena kemampuannya memahami konteks bidirectional, yang sangat penting untuk dokumen hukum yang memiliki struktur kalimat kompleks.

Training

Model di-train menggunakan PyTorch dengan konfigurasi:

Learning rate: 2e-5
Batch size: 16
Epochs: 10
Optimizer: AdamW

Hasil

Model mencapai F1-score yang cukup baik untuk setiap kategori entitas. Demo aplikasi tersedia di Hugging Face Spaces menggunakan Gradio sebagai interface.

Kesimpulan

NER berbasis BERT terbukti efektif untuk dokumen hukum Indonesia. Ke depannya, model ini bisa dikembangkan lebih lanjut dengan dataset yang lebih besar dan label entitas yang lebih beragam.