Posted by: andra on: Oktober 1, 2007
Text mining (disebut juga dengan text data mining), adalah suatu proses untuk mengambil informasi dari teks yang ada. Text mining mencari pola-pola yang ada di teks teks dalam bahasa natural yang tidak terstuktur seperti buk, email, artikel, halaman web, dll. Kegiatan yang biasa dilakukan oleh text mining adalah text categorization, text clustering, conception/entity extraction, dll.
Ada 3 proses yang biasanya ada dalam sebuah kegiatan text mining
1. Characterization of data
Teks yang ada distrukturkan dengan proses seperti parsing, dan diamsukkan ke dalam sebuah database
2. Data mining
Dari data yang ada lalu dilakukan sebuah pencarian dengan algoritma tertentu untuk mendapatkan pola dari data tersebut
3. Data visualization
Hasil pencarian yang ada akan diinterpretasi dan dikeluarkan dalam bentuk output yang dapat dimengerti dengan mudah.
Salah satu metode yang dapat digunakan untuk text mining adalah PIMIENTO, yang berarti Platform Independent Text Mining Engine Tool.
PIMIENTO, adalah suatu framework untuk melakukan kegiatan text mining berbasis JAVA. PIMIENTO berdasar kepada OOAF (Object Oriented Application Framework), dan dikembangkan pada tahun 2004.
Arsitektur dari PIMIENTO adalah dia terbagi-bagi dalam berdasarkan modul-modul sesuai dengan fitur-fitur text mining yang dapat digunakan olehnya. Modul-modul yang ada diantaranya seperti : Similarity Analysis, Summarization, dan Language Identification.
Aplikasi dapat berinteraksi dengan PIMIENTO dengan menggunakan Web Service atau menggunakan API. Pengguna lalu dapat menggunakan sebuah interface web untuk melakukan monitoring sistem.
Fitur-fitur utama PIMIENTO
PIMIENTO nya bisa didapat dimana ?? Adakah url nya yg bisa dishare ??
November 6, 2007 pada 10:45 am
code java untuk klasifikasi dokumen bahasa inggris ada ga ya