Powered By Blogger

Kamis, 25 Oktober 2012



Berikut adalah pemrosesan korpus/documets dimulai dari Text Processing hingga proses Term Weighting menggunakan verctor space model.
a.   Tokenization
Adalah proses pemotongan sebuah dokumen menjadi bagian-bagian, yang disebut token. Pada saat bersamaan, token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca. Seperti (titik, koma,dsb)
b.    Case Folding
    Adalah mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar      (biasanya huruf kecil).
c.    Filtering
Adalah menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol).
d.   Stopword Removal
   Adalah Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen seperti “di, ke, yang” dsb.
e.   Stemming
   Adalah suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root).  Misalnya “memahami = paham” karena bangun merupakn kata dasar dari membangun.

Soal :
D1        Bagi mereka yang belum memahami dunia komputer, khususnya dunia pemrograman, terkadang masih di hadapkan pada pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang bisa diambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer kedepan sehingga investasi waktu dan lainnya dalam mempelajari pemrograman tidak sia-sia.
D2        Saat ini ada ribuan aplikasi yang siap pakai untuk berbagai keperluan. Mungkin anda bertanya-tanya mengapa kita harus membuat program. Bukankah program yang sudah ada dapat kita gunakan, sebagaimana tujuan pembuatan komputer itu sendiri.
D3        Program dibuat untuk mendapatkan jawaban atas suatu masalah, memperpendek langkah penyelesaian suatu masalah. Pengembangan aplikasi bisnis di Indonesia sudah sangat berkembang dan memiliki potensi pasar yang masih sangat luas.

D4        Bahasa pemrograman merupakan cikal bakal suatu program atau aplikasi komputer. Dengannya Anda bisa merangkai perintah-perintah yang sudah di tetapkan untuk membentuk suatu fungsi yang dinginkan.

D5        Ada banyak bahasa pemrograman yang sudah dibuat sejak diciptakannya computer pertama kali. Bahasa-bahasa tersebut ada yang tergolong untuk pembuatan aplikasi umum, namun ada juga yang memang dirancang untuk suatu aplikasi tertentu.
           
D6        Python dapat di jalankan di berbagai sistem operasi seperti Linux, Unix, dan juga Windows. Pengurangan source program secara besar-besaran juga merupakan tujuan di buatnya bahasa ini.
           
Query:
“Komputer  Program”
TEXT PROCESSING
D1

Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Bagi
bagi
bagi
bagi
bagi
Mereka
mereka
mereka
mereka
mereka
Belum
belum
belum
belum
belum
Memahami
memahami
memahami
memahami
paham
Dunia
dunia
dunia
dunia
dunia
Komputer
komputer
komputer
komputer
komputer
Khususnya
khususnya
khususnya
khususnya
khusus
Pemrograman
pemrograman
pemrograman
pemrograman
program
Terkadang
terkadang
terkadang
terkadang
kadang
Masih
masih
masih


Dihadapkan
dihadapkan
dihadapkan
dihadapkan
hadap
Pada
pada
pada
pada
pada
Pertanyaan
pertanyaan
pertanyaan
pertanyaan
tanya
Tentang
tentang
tentang
tentang
tentang
Alasan-alasan
alasan-alasan
alasan-alasan
alasan-alasan
alasan
Kita
kita
kita


Membuat
membuat
membuat
membuat
buat
Program
program
program
program
program
Apa
apa
apa
apa
apa
Manfaat
manfaat
manfaat
manfaat
manfaat
Yang
yang
yang


Bisa
bisa
bisa
bisa
bisa
Diambil
diambil
diambil
diambil
ambil
Bagaimana
bagaimana
bagaimana
bagaimana
bagaimana
Kelanjutannya
kelanjutannya
kelanjutannya
kelanjutannya
lanjut
Dan
dan
dan


Bagaimana
bagaimana
bagaimana
bagaimana
bagaimana
Arah
arah
arah
arah
arah
Teknologi
teknologi
teknologi
teknologi
teknologi
Komputer
komputer
komputer
komputer
komputer
Ke
ke
ke


depan
depan
depan
depan
depan
Sehingga
sehingga
sehingga
sehingga
sehingga
Investasi
investasi
investasi
investasi
investasi
Waktu
waktu
waktu
waktu
waktu
Dan
dan
dan


Lainnya
lainnya
lainnya
lainnya
lain
Dalam
dalam
dalam
dalam
dalam
Mempelajari
mempelajari
mempelajari
mempelajari
pelajar
Pemrograman
pemrograman
pemrograman
pemrograman
program
Tidak
tidak
tidak


Sia-sia
sia-sia
sia-sia
sia-sia
sia





 
D2
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Saat
saat
saat
saat
saat
Ini
ini
ini


Ada
ada
ada
ada
ada
Ribuan
ribuan
ribuan
ribuan
ribu
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Yang
yang
yang


Siap
siap
siap
siap
siap
Pakai
pakai
pakai
pakai
pakai
Untuk
untuk
untuk


Berbagai
berbagai
berbagai


Keperluan
keperluan
keperluan
keperluan
perlu
Mungkin
mungkin
mungkin
mungkin
mungkin
Anda
anda
anda


Bertanya-tanya
bertanya-tanya
bertanya-tanya
bertanya-tanya
tanya
Mengapa
mengapa
mengapa
mengapa
apa
Kita
kita
kita


Harus
harus
harus
harus
harus
Membuat
membuat
membuat
membuat
buat

Tidak ada komentar:

Posting Komentar