#stemming #language #removal #php #indonesia #bahasa #indonesian

sastrawi

A library for stemming and stopword removal for Bahasa Indonesia based on PHP sastrawi project by Andy Librian

2 releases

Uses old Rust 2015

0.1.1 Jul 18, 2020
0.1.0 Jul 17, 2020

#1330 in Text processing

MIT and GPL-3.0-only

405KB
4.5K SLoC

rust-sastrawi

rust-sastrawi is a Rust Library based from PHP Sastrawi made by Andy Librian, which allows you to do Stemming and StopWord Removal in Bahasa Indonesia (Indonesian Language)

rust-sastrawi adalah library untuk Rust Language yang didasarkan dari PHP Sastrawi yang dibuat oleh Andy Librian, digunakan untuk Stemming dan StopWord Removal pada Bahasa Indonesia

Penggunaan

  1. Menambahkan Dependency di Cargo.tompl
.
[dependencies]
sastrawi = "0.1.0"
  1. mengunduh Dependency dengan terminal anda dengan syntax

cargo check

  1. contoh penggunaan sastrawi
use sastrawi::*;

fn main() {
    let dict = Dictionary::new();
    let stemmer = Stemmer::new(&dict);
    let sentence = String::from("Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan");
    let stemmed_words = stemmer.stem_sentence(&sentence);
    for word in stemmed_words.iter() {
        println!("{}", word);
    }
}

Pustaka

Algoritma

  1. Algoritma Nazief dan Adriani
  2. Asian J. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. (PDF dan Amazon)
  3. Arifin, A.Z., I.P.A.K. Mahendra dan H.T. Ciptaningtyas. 2009. Enhanced Confix Stripping Stemmer and Ants Algorithm for Classifying News Document in Indonesian Language, Proceeding of International Conference on Information & Communication Technology and Systems (ICTS). (PDF)
  4. A. D. Tahitoe, D. Purwitasari. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming, Institut Teknologi Sepuluh Nopember (ITS) – Surabaya, 60111, Indonesia. (PDF)
  5. Tambahan aturan stemming dari kontributor Sastrawi.

Kamus Kata Dasar

Proses stemming oleh Sastrawi sangat bergantung pada kamus kata dasar. Sastrawi menggunakan kamus kata dasar dari kateglo.com dengan sedikit perubahan.

Lisensi

Sebagaimana Sastrawi untuk PHP, Go-Sastrawi juga disebarkan dengan lisensi MIT. Untuk lisensi kamus kata dasar dari Kateglo adalah CC-BY-NC-SA 3.0.

Di Bahasa Pemrograman Lain

Dependencies

~2.8–4.5MB
~75K SLoC