Powered By Blogger

Kamis, 25 Oktober 2012



Berikut adalah pemrosesan korpus/documets dimulai dari Text Processing hingga proses Term Weighting menggunakan verctor space model.
a.   Tokenization
Adalah proses pemotongan sebuah dokumen menjadi bagian-bagian, yang disebut token. Pada saat bersamaan, token juga membuang beberapa karakter tertentu yang dianggap sebagai tanda baca. Seperti (titik, koma,dsb)
b.    Case Folding
    Adalah mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar      (biasanya huruf kecil).
c.    Filtering
Adalah menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol).
d.   Stopword Removal
   Adalah Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen seperti “di, ke, yang” dsb.
e.   Stemming
   Adalah suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root).  Misalnya “memahami = paham” karena bangun merupakn kata dasar dari membangun.

Soal :
D1        Bagi mereka yang belum memahami dunia komputer, khususnya dunia pemrograman, terkadang masih di hadapkan pada pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang bisa diambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer kedepan sehingga investasi waktu dan lainnya dalam mempelajari pemrograman tidak sia-sia.
D2        Saat ini ada ribuan aplikasi yang siap pakai untuk berbagai keperluan. Mungkin anda bertanya-tanya mengapa kita harus membuat program. Bukankah program yang sudah ada dapat kita gunakan, sebagaimana tujuan pembuatan komputer itu sendiri.
D3        Program dibuat untuk mendapatkan jawaban atas suatu masalah, memperpendek langkah penyelesaian suatu masalah. Pengembangan aplikasi bisnis di Indonesia sudah sangat berkembang dan memiliki potensi pasar yang masih sangat luas.

D4        Bahasa pemrograman merupakan cikal bakal suatu program atau aplikasi komputer. Dengannya Anda bisa merangkai perintah-perintah yang sudah di tetapkan untuk membentuk suatu fungsi yang dinginkan.

D5        Ada banyak bahasa pemrograman yang sudah dibuat sejak diciptakannya computer pertama kali. Bahasa-bahasa tersebut ada yang tergolong untuk pembuatan aplikasi umum, namun ada juga yang memang dirancang untuk suatu aplikasi tertentu.
           
D6        Python dapat di jalankan di berbagai sistem operasi seperti Linux, Unix, dan juga Windows. Pengurangan source program secara besar-besaran juga merupakan tujuan di buatnya bahasa ini.
           
Query:
“Komputer  Program”
TEXT PROCESSING
D1
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Bagi
bagi
bagi
bagi
bagi
Mereka
mereka
mereka
mereka
mereka
Belum
belum
belum
belum
belum
Memahami
memahami
memahami
memahami
paham
Dunia
dunia
dunia
dunia
dunia
Komputer
komputer
komputer
komputer
komputer
Khususnya
khususnya
khususnya
khususnya
khusus
Pemrograman
pemrograman
pemrograman
pemrograman
program
Terkadang
terkadang
terkadang
terkadang
kadang
Masih
masih
masih


Dihadapkan
dihadapkan
dihadapkan
dihadapkan
hadap
Pada
pada
pada
pada
pada
Pertanyaan
pertanyaan
pertanyaan
pertanyaan
tanya
Tentang
tentang
tentang
tentang
tentang
Alasan-alasan
alasan-alasan
alasan-alasan
alasan-alasan
alasan
Kita
kita
kita


Membuat
membuat
membuat
membuat
buat
Program
program
program
program
program
Apa
apa
apa
apa
apa
Manfaat
manfaat
manfaat
manfaat
manfaat
Yang
yang
yang


Bisa
bisa
bisa
bisa
bisa
Diambil
diambil
diambil
diambil
ambil
Bagaimana
bagaimana
bagaimana
bagaimana
bagaimana
Kelanjutannya
kelanjutannya
kelanjutannya
kelanjutannya
lanjut
Dan
dan
dan


Bagaimana
bagaimana
bagaimana
bagaimana
bagaimana
Arah
arah
arah
arah
arah
Teknologi
teknologi
teknologi
teknologi
teknologi
Komputer
komputer
komputer
komputer
komputer
Ke
ke
ke


depan
depan
depan
depan
depan
Sehingga
sehingga
sehingga
sehingga
sehingga
Investasi
investasi
investasi
investasi
investasi
Waktu
waktu
waktu
waktu
waktu
Dan
dan
dan


Lainnya
lainnya
lainnya
lainnya
lain
Dalam
dalam
dalam
dalam
dalam
Mempelajari
mempelajari
mempelajari
mempelajari
pelajar
Pemrograman
pemrograman
pemrograman
pemrograman
program
Tidak
tidak
tidak


Sia-sia
sia-sia
sia-sia
sia-sia
sia













D2
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Saat
saat
saat
saat
saat
Ini
ini
ini


Ada
ada
ada
ada
ada
Ribuan
ribuan
ribuan
ribuan
ribu
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Yang
yang
yang


Siap
siap
siap
siap
siap
Pakai
pakai
pakai
pakai
pakai
Untuk
untuk
untuk


Berbagai
berbagai
berbagai


Keperluan
keperluan
keperluan
keperluan
perlu
Mungkin
mungkin
mungkin
mungkin
mungkin
Anda
anda
anda


Bertanya-tanya
bertanya-tanya
bertanya-tanya
bertanya-tanya
tanya
Mengapa
mengapa
mengapa
mengapa
apa
Kita
kita
kita


Harus
harus
harus
harus
harus
Membuat
membuat
membuat
membuat
buat
Program
program
program
program
program
Bukankah
bukankah
bukankah
bukankah
bukan
Program
program
program
program
program
Yang
yang
yang


Sudah
sudah
sudah
sudah
sudah
Ada
ada
ada


Dapat
dapat
dapat
dapat
dapat
Kita
kita
kita


Gunakan
gunakan
gunakan
gunakan
guna
Sebagaimana
sebagaimana
sebagaimana
sebagaimana
bagaimana
Tujuan
tujuan
tujuan
tujuan
tujuan
Pembuatan
pembuatan
pembuatan
pembuatan
buat
Komputer
komputer
komputer
komputer
komputer
Itu
itu
itu


Sendiri
sendiri
sendiri
sendiri
sendiri
D3
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Program
program
program
program
program
Dibuat
dibuat
dibuat
dibuat
buat
Untuk
untuk
untuk


Mendapatkan
mendapatkan
mendapatkan
mendapatkan
dapat
Jawaban
jawaban
jawaban
jawaban
jawaban
Atas
atas
atas
atas
atas
Suatu
suatu
suatu
suatu
suatu
Masalah
masalah
masalah
masalah
masalah
Memperpendek
memperpendek
memperpendek
memperpendek
pendek
Langkah
langkah
langkah
langkah
langkah
Penyelesaian
penyelesaian
penyelesaian
penyelesaian
selesai
Suatu
suatu
suatu
suatu
suatu
Masalah
masalah
masalah
masalah
masalah
Pengembangan
pengembangan
pengembangan
pengembangan
kembang
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Bisnis
bisnis
bisnis
bisnis
bisnis
Di
di
di


Indonesia
indonesia
indonesia
indonesia
indonesia
Sudah
sudah
sudah
sudah
sudah
Sangat
sangat
sangat


Berkembang
berkembang
berkembang
berkembang
kembang
Dan
dan
dan


Memiliki
memiliki
memiliki
memiliki
milik
Potensi
potensi
potensi
potensi
potensi
Pasar
pasar
pasar
pasar
pasar
Yang
yang
yang


Masih
masih
masih


Sangat
sangat
sangat


Luas
luas
luas
luas
luas
D4
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Bahasa
bahasa
bahasa
bahasa
bahasa
Pemrograman
pemrograman
pemrograman
pemrograman
program
Merupakan
merupakan
merupakan
merupakan
rupa
Cikal
cikal
cikal
cikal
cikal
Bakal
bakal
bakal
bakal
bakal
Suatu
suatu
suatu
suatu
suatu
Program
program
program
program
program
Atau
atau
atau


Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Komputer
komputer
komputer
komputer
komputer
Dengannya
dengannya
dengannya
dengannya
dengan
Anda
anda
anda


Bisa
bisa
bisa
bisa
bisa
Merangkai
merangkai
merangkai
merangkai
rangkai
Perintah-perintah
perintah-perintah
perintah-perintah
perintah-perintah
perintah
Yang
yang
yang


Sudah
sudah
sudah
sudah
sudah
Di
di
di


Tetapkan
tetapkan
tetapkan
tetapkan
tetap
Untuk
untuk
untuk


Membentuk
membentuk
membentuk
membentuk
bentuk
Suatu
suatu
suatu
suatu
suatu
Fungsi
fungsi
fungsi
fungsi
fungsi
Yang
yang
yang


Diinginkan
diinginkan
diinginkan
diinginkan
ingin
D5
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Ada
ada
ada
ada
ada
Banyak
banyak
banyak
banyak
banyak
Bahasa
bahasa
bahasa
bahasa
bahasa
Pemrograman
pemrograman
pemrograman
pemrograman
program
Yang
yang
yang


sudah
sudah
sudah
sudah
sudah
Dibuat
dibuat
dibuat
dibuat
buat
sejak
sejak
sejak


diciptakannya
diciptakannya
diciptakannya
diciptakannya
cipta
komputer
komputer
komputer
komputer
komputer
Pertama
pertama
pertama
pertama
pertama
Kali
kali
kali
kali
kali
Bahasa-bahasa
bahasa-bahasa
bahasa-bahasa
bahasa-bahasa
bahasa
Tersebut
tersebut
tersebut
tersebut
sebut
Ada
ada
ada
ada
ada
yang
yang
yang


Tergolong
tergolong
tergolong
tergolong
golong
untuk
untuk
untuk


Pembuatan
pembuatan
pembuatan
pembuatan
buat
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
Umum
umum
umum
umum
umum
Namun
namun
namun


ada
ada
ada
ada
ada
juga
juga
juga


Yang
yang
yang


memang
memang
memang


dirancang
dirancang
dirancang
dirancang
rancang
untuk
untuk
untuk


suatu
suatu
suatu
suatu
suatu
Aplikasi
aplikasi
aplikasi
aplikasi
aplikasi
tertentu
tertentu
tertentu
tertentu
tentu
D6
Tokenization
Case-Folding
Filtering
Stop-word removal
Stemming
Pyton
Pyton
Pyton
Pyton
Pyton
Dapat
Dapat
Dapat
Dapat
Dapat
Dijalankan
Dijalankan
Dijalankan
Dijalankan
jalan
Di
di
di


Berbagai
Berbagai
Berbagai


Sistem
Sistem
Sistem
Sistem
Sistem
Operasi
Operasi
Operasi
Operasi
Operasi
Seperti
Seperti
Seperti
Seperti

Linux
Linux
Linux
Linux
Linux
Unix
Unix
Unix
Unix
Unix
Dan
Dan
Dan


Juga
Juga
Juga


Windows
Windows
Windows
Windows
Windows
Pengurangan
Pengurangan
Pengurangan
Pengurangan
Kurang
Source
Source
Source
Source
Source
Program
Program
Program
Program
Program
Secara
Secara
Secara
Secara
cara
Besar-besaran
Besar-besaran
Besar-besaran
Besar-besaran
Besar
Juga
Juga
Juga


Merupakan
Merupakan
Merupakan
Merupakan
rupa
Tujuan
Tujuan
Tujuan
Tujuan
Tujuan
Dibuatnya
Dibuatnya
Dibuatnya
Dibuatnya
buat
Bahsa
Bahasa
Bahasa
Bahasa
Bahasa
Ini
Ini
Ini


INCIDENCE INDEX










OVERLAP
1.      Hitung tfdi. tf(term frecuency): Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen, serta kita juga memasukkan query yang disimbolkan Q. seperti dibawah ini :
Tf (D1) adalah setiap dokumen yang ada,
           
           
2.      Setelah mendapatkan hasil dari tf dan tf normalisasi (ntf), maka selanjutnya mencari df yang di dapat dari tf.
3.      Setelah kita mencari df, maka selanjutnya  Kita bis mencari idf.
idf(Inverse Document Frequency):  Rumus idf = log (N/df)  
4.      Dari tf dan idf yang sudah didapat, selanjutnya kita akan mendpatkan hasil tf-idf weighting  yaitu suatu formula untuk menghitung bobot hubungan suatu token di dalam dokumen.

5.      Langkah selanjutnya kita menghitung dot productnya. Yaitu perhitungannya :
6.      Lalu langkah selanjutnya…
7.      Setelah semua dihitung langkah selanjutnya mencari pada documents mana yang nilainya relevan sehingga dapat diambil hasilnya.
Tetapi kita harus melakukan perhitungan untuk mendapatkan hasil pada D1, D2, D3, D4, D5, D6, yaitu :
D1 =  = 0.085
D2 =  = 0.061
D3 =  = 0
D4 =  = 0.059
D5 =  = 0.067
D6 =  = 0
Kesimpulan : nilai relevan yang didapat adalah D1











Kesimpulan :
Search
Q = “Komputer Program”
D1 = Bagi mereka yang belum memahami  dunia komputer, khususnya dunia pemrograman, terkadang masih di hadapkan pada pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang bisa di ambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer kedepan sehingga investasi waktu dan lainnya dalam mempelajari pemrograman tidak sia-sia.
D2 = Saat ini ada ribuan aplikasi yang siap pakai untuk berbagai keperluan. Mungkin anda bertanya-tanya mengap kita harus membuat program. Bukankah program yang sudah ada dapat kita gunakan, sebagaimana tujuan pembuatan komputer itu sendiri.
D4 = Bahasa pemrograman merupakan cikal bakal suatu program atau aplikasi komputer. Dengannya Anda bisa merangkai perintah-perintah yang sudah ditetapkan untuk membentuk suatu fungsi yang di inginkan.
D5 = Ada banyak bahasa pemrograman yang sudah dibuat sejak diciptakannya komputer pertama kali. Bahasa-bahasa tersebut ada yang tergolong untuk pembuatan aplikasi umum, namun ada juga yang memang dirancang untuk suatu aplikasi tertentu.
Kesimpulan :
Dari corpus yang sudah ada, dapat disimpilkan dokumen yang paling relevan dangan query “ Komputer Program” adalah :
D1 = Bagi mereka yang belum memahami  dunia komputer, khususnya dunia pemrograman, terkadang masih di hadapkan pada pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang bisa di ambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer kedepan sehingga investasi waktu dan lainnya dalam mempelajari pemrograman tidak sia-sia.
Dengan Bobot nilai tertinggi yaitu : 0, 117394173

Vector space




        Keterangan :
Dari banyaknya jumlah documen yang telah dikerjakan maka dapat dihasilkan nilai tertinggi     sesuai query yang diberikan, yaitu :
Q = Komputer Program
        D1= 0,0858 à nilai tertinggi

Tidak ada komentar:

Posting Komentar