Berikut
adalah pemrosesan korpus/documets dimulai dari Text Processing hingga proses
Term Weighting menggunakan verctor space model.
a. Tokenization
Adalah proses pemotongan sebuah dokumen menjadi
bagian-bagian, yang disebut token. Pada saat bersamaan, token juga membuang
beberapa karakter tertentu yang dianggap sebagai tanda baca. Seperti (titik,
koma,dsb)
b.
Case Folding
Adalah mengkonversi
keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil).
c.
Filtering
Adalah menghilangkan
karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan
simbol).
d. Stopword
Removal
Adalah Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak
pada isi dokumen seperti “di, ke, yang” dsb.
e. Stemming
Adalah suatu
proses pengembalian suatu kata berimbuhan
ke bentuk dasarnya (stem/root). Misalnya “memahami = paham” karena bangun
merupakn kata dasar dari membangun.
Soal :
D1 Bagi mereka yang belum memahami dunia
komputer, khususnya dunia pemrograman, terkadang masih di hadapkan pada
pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang bisa
diambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer kedepan
sehingga investasi waktu dan lainnya dalam mempelajari pemrograman tidak
sia-sia.
D2 Saat ini ada ribuan aplikasi yang siap
pakai untuk berbagai keperluan. Mungkin anda bertanya-tanya mengapa kita harus
membuat program. Bukankah program yang sudah ada dapat kita gunakan,
sebagaimana tujuan pembuatan komputer itu sendiri.
D3 Program
dibuat untuk mendapatkan jawaban atas suatu masalah, memperpendek langkah
penyelesaian suatu masalah. Pengembangan aplikasi bisnis di
Indonesia sudah sangat berkembang dan memiliki potensi pasar yang masih sangat
luas.
D4 Bahasa pemrograman merupakan cikal bakal
suatu program atau aplikasi komputer. Dengannya Anda bisa merangkai
perintah-perintah yang sudah di tetapkan untuk membentuk suatu fungsi yang
dinginkan.
D5 Ada banyak bahasa pemrograman yang sudah
dibuat sejak diciptakannya computer pertama kali. Bahasa-bahasa tersebut ada yang
tergolong untuk pembuatan aplikasi umum, namun ada juga yang memang dirancang
untuk suatu aplikasi tertentu.
D6 Python dapat di jalankan di berbagai
sistem operasi seperti Linux, Unix, dan juga Windows. Pengurangan source
program secara besar-besaran juga merupakan tujuan di buatnya bahasa ini.
Query:
“Komputer Program”
TEXT PROCESSING
D1
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Bagi
|
bagi
|
bagi
|
bagi
|
bagi
|
Mereka
|
mereka
|
mereka
|
mereka
|
mereka
|
Belum
|
belum
|
belum
|
belum
|
belum
|
Memahami
|
memahami
|
memahami
|
memahami
|
paham
|
Dunia
|
dunia
|
dunia
|
dunia
|
dunia
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Khususnya
|
khususnya
|
khususnya
|
khususnya
|
khusus
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Terkadang
|
terkadang
|
terkadang
|
terkadang
|
kadang
|
Masih
|
masih
|
masih
|
|
|
Dihadapkan
|
dihadapkan
|
dihadapkan
|
dihadapkan
|
hadap
|
Pada
|
pada
|
pada
|
pada
|
pada
|
Pertanyaan
|
pertanyaan
|
pertanyaan
|
pertanyaan
|
tanya
|
Tentang
|
tentang
|
tentang
|
tentang
|
tentang
|
Alasan-alasan
|
alasan-alasan
|
alasan-alasan
|
alasan-alasan
|
alasan
|
Kita
|
kita
|
kita
|
|
|
Membuat
|
membuat
|
membuat
|
membuat
|
buat
|
Program
|
program
|
program
|
program
|
program
|
Apa
|
apa
|
apa
|
apa
|
apa
|
Manfaat
|
manfaat
|
manfaat
|
manfaat
|
manfaat
|
Yang
|
yang
|
yang
|
|
|
Bisa
|
bisa
|
bisa
|
bisa
|
bisa
|
Diambil
|
diambil
|
diambil
|
diambil
|
ambil
|
Bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
Kelanjutannya
|
kelanjutannya
|
kelanjutannya
|
kelanjutannya
|
lanjut
|
Dan
|
dan
|
dan
|
|
|
Bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
Arah
|
arah
|
arah
|
arah
|
arah
|
Teknologi
|
teknologi
|
teknologi
|
teknologi
|
teknologi
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Ke
|
ke
|
ke
|
|
|
depan
|
depan
|
depan
|
depan
|
depan
|
Sehingga
|
sehingga
|
sehingga
|
sehingga
|
sehingga
|
Investasi
|
investasi
|
investasi
|
investasi
|
investasi
|
Waktu
|
waktu
|
waktu
|
waktu
|
waktu
|
Dan
|
dan
|
dan
|
|
|
Lainnya
|
lainnya
|
lainnya
|
lainnya
|
lain
|
Dalam
|
dalam
|
dalam
|
dalam
|
dalam
|
Mempelajari
|
mempelajari
|
mempelajari
|
mempelajari
|
pelajar
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Tidak
|
tidak
|
tidak
|
|
|
Sia-sia
|
sia-sia
|
sia-sia
|
sia-sia
|
sia
|
D2
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Saat
|
saat
|
saat
|
saat
|
saat
|
Ini
|
ini
|
ini
|
|
|
Ada
|
ada
|
ada
|
ada
|
ada
|
Ribuan
|
ribuan
|
ribuan
|
ribuan
|
ribu
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Yang
|
yang
|
yang
|
|
|
Siap
|
siap
|
siap
|
siap
|
siap
|
Pakai
|
pakai
|
pakai
|
pakai
|
pakai
|
Untuk
|
untuk
|
untuk
|
|
|
Berbagai
|
berbagai
|
berbagai
|
|
|
Keperluan
|
keperluan
|
keperluan
|
keperluan
|
perlu
|
Mungkin
|
mungkin
|
mungkin
|
mungkin
|
mungkin
|
Anda
|
anda
|
anda
|
|
|
Bertanya-tanya
|
bertanya-tanya
|
bertanya-tanya
|
bertanya-tanya
|
tanya
|
Mengapa
|
mengapa
|
mengapa
|
mengapa
|
apa
|
Kita
|
kita
|
kita
|
|
|
Harus
|
harus
|
harus
|
harus
|
harus
|
Membuat
|
membuat
|
membuat
|
membuat
|
buat
|
Program
|
program
|
program
|
program
|
program
|
Bukankah
|
bukankah
|
bukankah
|
bukankah
|
bukan
|
Program
|
program
|
program
|
program
|
program
|
Yang
|
yang
|
yang
|
|
|
Sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Ada
|
ada
|
ada
|
|
|
Dapat
|
dapat
|
dapat
|
dapat
|
dapat
|
Kita
|
kita
|
kita
|
|
|
Gunakan
|
gunakan
|
gunakan
|
gunakan
|
guna
|
Sebagaimana
|
sebagaimana
|
sebagaimana
|
sebagaimana
|
bagaimana
|
Tujuan
|
tujuan
|
tujuan
|
tujuan
|
tujuan
|
Pembuatan
|
pembuatan
|
pembuatan
|
pembuatan
|
buat
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Itu
|
itu
|
itu
|
|
|
Sendiri
|
sendiri
|
sendiri
|
sendiri
|
sendiri
|
D3
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Program
|
program
|
program
|
program
|
program
|
Dibuat
|
dibuat
|
dibuat
|
dibuat
|
buat
|
Untuk
|
untuk
|
untuk
|
|
|
Mendapatkan
|
mendapatkan
|
mendapatkan
|
mendapatkan
|
dapat
|
Jawaban
|
jawaban
|
jawaban
|
jawaban
|
jawaban
|
Atas
|
atas
|
atas
|
atas
|
atas
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Masalah
|
masalah
|
masalah
|
masalah
|
masalah
|
Memperpendek
|
memperpendek
|
memperpendek
|
memperpendek
|
pendek
|
Langkah
|
langkah
|
langkah
|
langkah
|
langkah
|
Penyelesaian
|
penyelesaian
|
penyelesaian
|
penyelesaian
|
selesai
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Masalah
|
masalah
|
masalah
|
masalah
|
masalah
|
Pengembangan
|
pengembangan
|
pengembangan
|
pengembangan
|
kembang
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Bisnis
|
bisnis
|
bisnis
|
bisnis
|
bisnis
|
Di
|
di
|
di
|
|
|
Indonesia
|
indonesia
|
indonesia
|
indonesia
|
indonesia
|
Sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Sangat
|
sangat
|
sangat
|
|
|
Berkembang
|
berkembang
|
berkembang
|
berkembang
|
kembang
|
Dan
|
dan
|
dan
|
|
|
Memiliki
|
memiliki
|
memiliki
|
memiliki
|
milik
|
Potensi
|
potensi
|
potensi
|
potensi
|
potensi
|
Pasar
|
pasar
|
pasar
|
pasar
|
pasar
|
Yang
|
yang
|
yang
|
|
|
Masih
|
masih
|
masih
|
|
|
Sangat
|
sangat
|
sangat
|
|
|
Luas
|
luas
|
luas
|
luas
|
luas
|
D4
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Bahasa
|
bahasa
|
bahasa
|
bahasa
|
bahasa
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Merupakan
|
merupakan
|
merupakan
|
merupakan
|
rupa
|
Cikal
|
cikal
|
cikal
|
cikal
|
cikal
|
Bakal
|
bakal
|
bakal
|
bakal
|
bakal
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Program
|
program
|
program
|
program
|
program
|
Atau
|
atau
|
atau
|
|
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Dengannya
|
dengannya
|
dengannya
|
dengannya
|
dengan
|
Anda
|
anda
|
anda
|
|
|
Bisa
|
bisa
|
bisa
|
bisa
|
bisa
|
Merangkai
|
merangkai
|
merangkai
|
merangkai
|
rangkai
|
Perintah-perintah
|
perintah-perintah
|
perintah-perintah
|
perintah-perintah
|
perintah
|
Yang
|
yang
|
yang
|
|
|
Sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Di
|
di
|
di
|
|
|
Tetapkan
|
tetapkan
|
tetapkan
|
tetapkan
|
tetap
|
Untuk
|
untuk
|
untuk
|
|
|
Membentuk
|
membentuk
|
membentuk
|
membentuk
|
bentuk
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Fungsi
|
fungsi
|
fungsi
|
fungsi
|
fungsi
|
Yang
|
yang
|
yang
|
|
|
Diinginkan
|
diinginkan
|
diinginkan
|
diinginkan
|
ingin
|
D5
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Ada
|
ada
|
ada
|
ada
|
ada
|
Banyak
|
banyak
|
banyak
|
b`nyak
|
banyak
|
Bahasa
|
bahasa
|
bahasa
|
bahasa
|
bahasa
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Yang
|
yang
|
yang
|
|
|
sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Dibuat
|
dibuat
|
dibuat
|
dibuat
<.td>
|
buat
|
sejak
|
sejak
|
sejak
|
|
|
diciptakannya
|
diciptakannya
|
diciptakannya
|
diciptakannya
|
cipta
|
komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Pertama
|
pertama
|
pertama
|
pertama
|
pertama
|
Kali
|
kali
|
kali
|
kali
|
kali
|
Bahasa-bahasa
|
bahasa-bahasa
|
bahasa-bahasa
|
bahasa-bahasa
|
bahasa
|
Tersebut
|
tersebut
|
tersebut
|
tersebut
|
sebut
|
Ada
|
ada
|
ada
|
ada
|
ada
|
yang
|
yang
|
yang
|
|
|
Tergolong
|
tergolong
|
tergolong
|
tergolong
|
golong
|
untuk
|
untuk
|
untuk
|
|
|
Pembuatan
|
pembuatan
|
pembuatan
|
pembuatan
|
buat
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Umum
|
umum
|
umum
|
umum
|
umum
|
Namun
|
namun
|
namun
|
|
|
ada
|
ada
|
ada
|
ada
|
ada
|
juga
|
juga
|
juga
|
|
|
Yang
|
yang
|
yang
|
|
|
memang
|
memang
|
memang
|
|
|
dirancang
|
dirancang
|
dirancang
|
dirancang
|
rancang
|
untuk
|
untuk
|
untuk
|
|
|
suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
tertentu
|
tertentu
|
tertentu
|
tertentu
|
tentu
|
D6
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Pyton
|
Pyton
|
Pyton
|
Pyton
|
Pyton
|
Dapat
|
Dapat
|
Dapat
|
Dapat
|
Dapat
|
Dijalankan
|
Dijalankan
|
Dijalankan
|
Dijalankan
|
jalan
|
Di
|
di
|
di
|
|
|
Berbagai
|
Berbagai
|
Berbagai
|
|
|
Sistem
|
Sistem
|
Sistem
|
Sistem
|
Sistem
|
Operasi
|
Operasi
|
Operasi
|
Operasi
|
Operasi
|
Seperti
|
Seperti
|
Seperti
|
Seperti
|
|
Linux
|
Linux
|
Linux
|
Linux
|
Linux
|
Unix
|
Unix
|
Unix
|
Unix
|
Unix
|
Dan
|
Dan
|
Dan
|
|
|
Juga
|
Juga
|
Juga
|
|
|
Windows
|
Windows
|
Windows
|
Windows
|
Windows
|
Pengurangan
|
Pengurangan
|
Pengurangan
|
Pengurangan
|
Kurang
|
Source
|
Source
|
Source
|
Source
|
Source
|
Program
|
Program
|
Program
|
Program
|
Program
|
Secara
|
Secara
|
Secara
|
Secara
|
cara
|
Besar-besaran
|
Besar-besaran
|
Besar-besaran
|
Besar-besaran
|
Besar
|
Juga
|
Juga
|
Juga
|
|
|
Merupakan
|
Merupakan
|
Merupakan
|
Merupakan
|
rupa
|
Tujuan
|
Tujuan
|
Tujuan
|
Tujuan
|
Tujuan
|
Dibuatnya
|
Dibuatnya
|
Dibuatnya
|
Dibuatnya
|
buat
|
Bahsa
|
Bahasa
|
Bahasa
|
Bahasa
|
Bahasa
|
Ini
|
Ini
|
Ini
|
|
|
INCIDENCE INDEX
OVERLAP
1. Hitung tfdi.
tf(term frecuency): Bobot token ditentukan dari jumlah kemunculan token tersebut
di dalam dokumen, serta kita juga memasukkan query yang disimbolkan Q. seperti
dibawah ini :
Tf (D1) adalah setiap dokumen yang ada,
2. Setelah
mendapatkan hasil dari tf dan tf normalisasi (ntf), maka selanjutnya mencari df
yang di dapat dari tf.
3. Setelah kita mencari
df, maka selanjutnya Kita bis mencari
idf.
idf(Inverse Document Frequency):
Rumus idf = log (N/df)
4. Dari tf dan idf yang
sudah didapat, selanjutnya kita akan mendpatkan hasil tf-idf weighting yaitu suatu formula untuk menghitung bobot
hubungan suatu token di dalam dokumen.
5. Langkah selanjutnya
kita menghitung dot productnya. Yaitu perhitungannya :
6. Lalu langkah
selanjutnya…
7. Setelah
semua dihitung langkah selanjutnya mencari pada documents mana yang nilainya
relevan sehingga dapat diambil hasilnya.
Tetapi
kita harus melakukan perhitungan untuk mendapatkan hasil pada D1, D2, D3, D4,
D5, D6, yaitu :
D1 = = 0.085
D2 = =
0.061
D3 = = 0
D4 = =
0.059
D5 = = 0.067
D6 = =
0
Kesimpulan
: nilai relevan yang didapat
adalah D1
Kesimpulan
:
Search
Q = “Komputer Program”
D1 = Bagi mereka yang belum memahami
dunia komputer, khususnya dunia pemrograman, terkadang masih di hadapkan
pada pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang
bisa di ambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer
kedepan sehingga investasi waktu dan lainnya dalam mempelajari pemrograman
tidak sia-sia.
D2 = Saat ini ada ribuan aplikasi yang siap pakai untuk berbagai
keperluan. Mungkin anda bertanya-tanya mengap kita harus membuat program.
Bukankah program yang sudah ada dapat kita gunakan, sebagaimana tujuan
pembuatan komputer itu sendiri.
D4 = Bahasa pemrograman merupakan cikal bakal suatu program atau
aplikasi komputer. Dengannya Anda bisa merangkai perintah-perintah yang sudah
ditetapkan untuk membentuk suatu fungsi yang di inginkan.
D5 = Ada banyak bahasa pemrograman yang sudah dibuat sejak
diciptakannya komputer pertama kali. Bahasa-bahasa tersebut ada yang tergolong
untuk pembuatan aplikasi umum, namun ada juga yang memang dirancang untuk suatu
aplikasi tertentu.
Kesimpulan :
Dari corpus yang sudah ada, dapat disimpilkan dokumen yang paling
relevan dangan query “ Komputer Program” adalah :
D1 = Bagi mereka yang belum memahami
dunia komputer, khususnya dunia pemrograman, terkadang masih di hadapkan
pada pertanyaan tentang alasan-alasan kita membuat program, apa manfaat yang
bisa di ambil. Bagaimana kelanjutannya, dan bagaimana arah teknologi komputer
kedepan sehingga investasi waktu dan lainnya dalam mempelajari pemrograman
tidak sia-sia.
Dengan Bobot nilai tertinggi yaitu : 0, 117394173
Vector space
Keterangan
:
Dari
banyaknya jumlah documen yang telah dikerjakan maka dapat dihasilkan nilai
tertinggi sesuai query yang
diberikan, yaitu :
Q = Komputer Program
D1=
0,0858 Ã nilai tertinggi
Tidak ada komentar:
Posting Komentar