Powered By Blogger

Kamis, 25 Oktober 2012

Berikut adalah pemrosesan korpus/documets dimulai dari Text Processing hingga proses Term Weighting menggunakan verctor space model.
a.   Tokenization
Adalah proses pemotongan sebuah dokumen menjadi bagian-bagian, yang disebut token. Pada saat bersamaan, token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca. Seperti (titik, koma,dsb)
b.    Case Folding
    Adalah mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar      (biasanya huruf kecil).
c.    Filtering
Adalah menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol).
d.   Stopword Removal
   Adalah Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen seperti “di, ke, yang” dsb.
e.   Stemming
   Adalah suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root).  Misalnya “memahami = paham” karena bangun merupakn kata dasar dari membangun.

Soal :
D1        Bagi mereka yang belum memahami dunia komputer, khususnya dunia pemrograman, terkadang masih di hadapkan pada pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang bisa diambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer kedepan sehingga investasi waktu dan lainnya dalam mempelajari pemrograman tidak sia-sia.
D2        Saat ini ada ribuan aplikasi yang siap pakai untuk berbagai keperluan. Mungkin anda bertanya-tanya mengapa kita harus membuat program. Bukankah program yang sudah ada dapat kita gunakan, sebagaimana tujuan pembuatan komputer itu sendiri.
D3        Program dibuat untuk mendapatkan jawaban atas suatu masalah, memperpendek langkah penyelesaian suatu masalah. Pengembangan aplikasi bisnis di Indonesia sudah sangat berkembang dan memiliki potensi pasar yang masih sangat luas.

D4        Bahasa pemrograman merupakan cikal bakal suatu program atau aplikasi komputer. Dengannya Anda bisa merangkai perintah-perintah yang sudah di tetapkan untuk membentuk suatu fungsi yang dinginkan.

D5        Ada banyak bahasa pemrograman yang sudah dibuat sejak diciptakannya computer pertama kali. Bahasa-bahasa tersebut ada yang tergolong untuk pembuatan aplikasi umum, namun ada juga yang memang dirancang untuk suatu aplikasi tertentu.
           
D6        Python dapat di jalankan di berbagai sistem operasi seperti Linux, Unix, dan juga Windows. Pengurangan source program secara besar-besaran juga merupakan tujuan di buatnya bahasa ini.
           
Query:
“Komputer  Program”
TEXT PROCESSING
D1
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Bagi
bagi
bagi
bagi
bagi
Mereka
mereka
mereka
mereka
mereka
Belum
belum
belum
belum
belum
Memahami
memahami
memahami
memahami
paham
Dunia
dunia
dunia
dunia
dunia
Komputer
komputer
komputer
komputer
komputer
Khususnya
khususnya
khususnya
khususnya
khusus
Pemrograman
pemrograman
pemrograman
pemrograman
program
Terkadang
terkadang
terkadang
terkadang
kadang
Masih
masih
masih


Dihadapkan
dihadapkan
dihadapkan
dihadapkan
hadap
Pada
pada
pada
pada
pada
Pertanyaan
pertanyaan
pertanyaan
pertanyaan
tanya
Tentang
tentang
tentang
tentang
tentang
Alasan-alasan
alasan-alasan
alasan-alasan
alasan-alasan
alasan
Kita
kita
kita


Membuat
membuat
membuat
membuat
buat
Program
program
program
program
program
Apa
apa
apa
apa
apa
Manfaat
manfaat
manfaat
manfaat
manfaat
Yang
yang
yang


Bisa
bisa
bisa
bisa
bisa
Diambil
diambil
diambil
diambil
ambil
Bagaimana
bagaimana
bagaimana
bagaimana
bagaimana
Kelanjutannya
kelanjutannya
kelanjutannya
kelanjutannya
lanjut
Dan
dan
dan


Bagaimana
bagaimana
bagaimana
bagaimana
bagaimana
Arah
arah
arah
arah
arah
Teknologi
teknologi
teknologi
teknologi
teknologi
Komputer
komputer
komputer
komputer
komputer
Ke
ke
ke


depan
depan
depan
depan
depan
Sehingga
sehingga
sehingga
sehingga
sehingga
Investasi
investasi
investasi
investasi
investasi
Waktu
waktu
waktu
waktu
waktu
Dan
dan
dan


Lainnya
lainnya
lainnya
lainnya
lain
Dalam
dalam
dalam
dalam
dalam
Mempelajari
mempelajari
mempelajari
mempelajari
pelajar
Pemrograman
pemrograman
pemrograman
pemrograman
program
Tidak
tidak
tidak


Sia-sia
sia-sia
sia-sia
sia-sia
sia













D2
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Saat
saat
saat
saat
saat
Ini
ini
ini


Ada
ada
ada
ada
ada
Ribuan
ribuan
ribuan
ribuan
ribu
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Yang
yang
yang


Siap
siap
siap
siap
siap
Pakai
pakai
pakai
pakai
pakai
Untuk
untuk
untuk


Berbagai
berbagai
berbagai


Keperluan
keperluan
keperluan
keperluan
perlu
Mungkin
mungkin
mungkin
mungkin
mungkin
Anda
anda
anda


Bertanya-tanya
bertanya-tanya
bertanya-tanya
bertanya-tanya
tanya
Mengapa
mengapa
mengapa
mengapa
apa
Kita
kita
kita


Harus
harus
harus
harus
harus
Membuat
membuat
membuat
membuat
buat
Program
program
program
program
program
Bukankah
bukankah
bukankah
bukankah
bukan
Program
program
program
program
program
Yang
yang
yang


Sudah
sudah
sudah
sudah
sudah
Ada
ada
ada


Dapat
dapat
dapat
dapat
dapat
Kita
kita
kita


Gunakan
gunakan
gunakan
gunakan
guna
Sebagaimana
sebagaimana
sebagaimana
sebagaimana
bagaimana
Tujuan
tujuan
tujuan
tujuan
tujuan
Pembuatan
pembuatan
pembuatan
pembuatan
buat
Komputer
komputer
komputer
komputer
komputer
Itu
itu
itu


Sendiri
sendiri
sendiri
sendiri
sendiri
D3
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Program
program
program
program
program
Dibuat
dibuat
dibuat
dibuat
buat
Untuk
untuk
untuk


Mendapatkan
mendapatkan
mendapatkan
mendapatkan
dapat
Jawaban
jawaban
jawaban
jawaban
jawaban
Atas
atas
atas
atas
atas
Suatu
suatu
suatu
suatu
suatu
Masalah
masalah
masalah
masalah
masalah
Memperpendek
memperpendek
memperpendek
memperpendek
pendek
Langkah
langkah
langkah
langkah
langkah
Penyelesaian
penyelesaian
penyelesaian
penyelesaian
selesai
Suatu
suatu
suatu
suatu
suatu
Masalah
masalah
masalah
masalah
masalah
Pengembangan
pengembangan
pengembangan
pengembangan
kembang
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Bisnis
bisnis
bisnis
bisnis
bisnis
Di
di
di


Indonesia
indonesia
indonesia
indonesia
indonesia
Sudah
sudah
sudah
sudah
sudah
Sangat
sangat
sangat


Berkembang
berkembang
berkembang
berkembang
kembang
Dan
dan
dan


Memiliki
memiliki
memiliki
memiliki
milik
Potensi
potensi
potensi
potensi
potensi
Pasar
pasar
pasar
pasar
pasar
Yang
yang
yang


Masih
masih
masih


Sangat
sangat
sangat


Luas
luas
luas
luas
luas
D4
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Bahasa
bahasa
bahasa
bahasa
bahasa
Pemrograman
pemrograman
pemrograman
pemrograman
program
Merupakan
merupakan
merupakan
merupakan
rupa
Cikal
cikal
cikal
cikal
cikal
Bakal
bakal
bakal
bakal
bakal
Suatu
suatu
suatu
suatu
suatu
Program
program
program
program
program
Atau
atau
atau


Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Komputer
komputer
komputer
komputer
komputer
Dengannya
dengannya
dengannya
dengannya
dengan
Anda
anda
anda


Bisa
bisa
bisa
bisa
bisa
Merangkai
merangkai
merangkai
merangkai
rangkai
Perintah-perintah
perintah-perintah
perintah-perintah
perintah-perintah
perintah
Yang
yang
yang


Sudah
sudah
sudah
sudah
sudah
Di
di
di


Tetapkan
tetapkan
tetapkan
tetapkan
tetap
Untuk
untuk
untuk


Membentuk
membentuk
membentuk
membentuk
bentuk
Suatu
suatu
suatu
suatu
suatu
Fungsi
fungsi
fungsi
fungsi
fungsi
Yang
yang
yang


Diinginkan
diinginkan
diinginkan
diinginkan
ingin
D5
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Ada
ada
ada
ada
ada
Banyak
banyak
banyak
banyak
banyak
Bahasa
bahasa
bahasa
bahasa
bahasa
Pemrograman
pemrograman
pemrograman
pemrograman
program
Yang
yang
yang


sudah
sudah
sudah
sudah
sudah
Dibuat
dibuat
dibuat
dibuat
buat
sejak
sejak
sejak


diciptakannya
diciptakannya
diciptakannya
diciptakannya
cipta
komputer
komputer
komputer
komputer
komputer
Pertama
pertama
pertama
pertama
pertama
Kali
kali
kali
kali
kali
Bahasa-bahasa
bahasa-bahasa
bahasa-bahasa
bahasa-bahasa
bahasa
Tersebut
tersebut
tersebut
tersebut
sebut
Ada
ada
ada
ada
ada
yang
yang
yang


Tergolong
tergolong
tergolong
tergolong
golong
untuk
untuk
untuk


Pembuatan
pembuatan
pembuatan
pembuatan
buat
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Umum
umum
umum
umum
umum
Namun
namun
namun


ada
ada
ada
ada
ada
juga
juga
juga


Yang
yang
yang


memang
memang
memang


dirancang
dirancang
dirancang
dirancang
rancang
untuk
untuk
untuk


suatu
suatu
suatu
suatu
suatu
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
tertentu
tertentu
tertentu
tertentu
tentu
D6
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Pyton
Pyton
Pyton
Pyton
Pyton
Dapat
Dapat
Dapat
Dapat
Dapat
Dijalankan
Dijalankan
Dijalankan
Dijalankan
jalan
Di
di
di


Berbagai
Berbagai
Berbagai


Sistem
Sistem
Sistem
Sistem
Sistem
Operasi
Operasi
Operasi
Operasi
Operasi
Seperti
Seperti
Seperti
Seperti

Linux
Linux
Linux
Linux
Linux
Unix
Unix
Unix
Unix
Unix
Dan
Dan
Dan


Juga
Juga
Juga


Windows
Windows
Windows
Windows
Windows
Pengurangan
Pengurangan
Pengurangan
Pengurangan
Kurang
Source
Source
Source
Source
Source
Program
Program
Program
Program
Program
Secara
Secara
Secara
Secara
cara
Besar-besaran
Besar-besaran
Besar-besaran
Besar-besaran
Besar
Juga
Juga
Juga


Merupakan
Merupakan
Merupakan
Merupakan
rupa
Tujuan
Tujuan
Tujuan
Tujuan
Tujuan
Dibuatnya
Dibuatnya
Dibuatnya
Dibuatnya
buat
Bahsa
Bahasa
Bahasa
Bahasa
Bahasa
Ini
Ini
Ini


INCIDENCE INDEX
 
 
 
 
 
INVERTED