Sabtu, 27 Oktober 2012
Kamis, 25 Oktober 2012
Berikut
adalah pemrosesan korpus/documets dimulai dari Text Processing hingga proses
Term Weighting menggunakan verctor space model.
a. Tokenization
Adalah proses pemotongan sebuah dokumen menjadi
bagian-bagian, yang disebut token. Pada saat bersamaan, token juga membuang
beberapa karakter tertentu yang dianggap sebagai tanda baca. Seperti (titik,
koma,dsb)
b.
Case Folding
Adalah mengkonversi
keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil).
c.
Filtering
Adalah menghilangkan
karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan
simbol).
d. Stopword
Removal
Adalah Stopping atau stoplist removal adalah proses penghilangan kata-kata yang tidak berkontribusi banyak
pada isi dokumen seperti “di, ke, yang” dsb.
e. Stemming
Adalah suatu
proses pengembalian suatu kata berimbuhan
ke bentuk dasarnya (stem/root). Misalnya “memahami = paham” karena bangun
merupakn kata dasar dari membangun.
Soal :
D1 Bagi mereka yang belum memahami dunia komputer, khususnya
dunia pemrograman, terkadang masih di hadapkan pada pertanyaan tentang
alasan-alasan kita membuat program, apa manfaat yang bisa diambil. Bagaimana
kelanjutannya, dan bagaimana arah teknologi komputer kedepan sehingga investasi
waktu dan lainnya dalam mempelajari pemrograman tidak sia-sia.
D2 Saat ini ada ribuan aplikasi yang siap pakai untuk berbagai
keperluan. Mungkin anda bertanya-tanya mengapa kita harus membuat program.
Bukankah program yang sudah ada dapat kita gunakan, sebagaimana tujuan
pembuatan komputer itu sendiri.
D3 Program
dibuat untuk mendapatkan jawaban atas suatu masalah, memperpendek langkah
penyelesaian suatu masalah. Pengembangan aplikasi bisnis di
Indonesia sudah sangat berkembang dan memiliki potensi pasar yang masih sangat
luas.
D4 Bahasa pemrograman merupakan cikal bakal
suatu program atau aplikasi komputer. Dengannya Anda bisa merangkai
perintah-perintah yang sudah di tetapkan untuk membentuk suatu fungsi yang
dinginkan.
D5 Ada banyak bahasa pemrograman yang sudah
dibuat sejak diciptakannya computer pertama kali. Bahasa-bahasa tersebut ada yang
tergolong untuk pembuatan aplikasi umum, namun ada juga yang memang dirancang
untuk suatu aplikasi tertentu.
D6 Python dapat di jalankan di berbagai
sistem operasi seperti Linux, Unix, dan juga Windows. Pengurangan source
program secara besar-besaran juga merupakan tujuan di buatnya bahasa ini.
Query:
“Komputer Program”
TEXT PROCESSING
D1
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Bagi
|
bagi
|
bagi
|
bagi
|
bagi
|
Mereka
|
mereka
|
mereka
|
mereka
|
mereka
|
Belum
|
belum
|
belum
|
belum
|
belum
|
Memahami
|
memahami
|
memahami
|
memahami
|
paham
|
Dunia
|
dunia
|
dunia
|
dunia
|
dunia
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Khususnya
|
khususnya
|
khususnya
|
khususnya
|
khusus
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Terkadang
|
terkadang
|
terkadang
|
terkadang
|
kadang
|
Masih
|
masih
|
masih
|
||
Dihadapkan
|
dihadapkan
|
dihadapkan
|
dihadapkan
|
hadap
|
Pada
|
pada
|
pada
|
pada
|
pada
|
Pertanyaan
|
pertanyaan
|
pertanyaan
|
pertanyaan
|
tanya
|
Tentang
|
tentang
|
tentang
|
tentang
|
tentang
|
Alasan-alasan
|
alasan-alasan
|
alasan-alasan
|
alasan-alasan
|
alasan
|
Kita
|
kita
|
kita
|
||
Membuat
|
membuat
|
membuat
|
membuat
|
buat
|
Program
|
program
|
program
|
program
|
program
|
Apa
|
apa
|
apa
|
apa
|
apa
|
Manfaat
|
manfaat
|
manfaat
|
manfaat
|
manfaat
|
Yang
|
yang
|
yang
|
||
Bisa
|
bisa
|
bisa
|
bisa
|
bisa
|
Diambil
|
diambil
|
diambil
|
diambil
|
ambil
|
Bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
Kelanjutannya
|
kelanjutannya
|
kelanjutannya
|
kelanjutannya
|
lanjut
|
Dan
|
dan
|
dan
|
||
Bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
bagaimana
|
Arah
|
arah
|
arah
|
arah
|
arah
|
Teknologi
|
teknologi
|
teknologi
|
teknologi
|
teknologi
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Ke
|
ke
|
ke
|
||
depan
|
depan
|
depan
|
depan
|
depan
|
Sehingga
|
sehingga
|
sehingga
|
sehingga
|
sehingga
|
Investasi
|
investasi
|
investasi
|
investasi
|
investasi
|
Waktu
|
waktu
|
waktu
|
waktu
|
waktu
|
Dan
|
dan
|
dan
|
||
Lainnya
|
lainnya
|
lainnya
|
lainnya
|
lain
|
Dalam
|
dalam
|
dalam
|
dalam
|
dalam
|
Mempelajari
|
mempelajari
|
mempelajari
|
mempelajari
|
pelajar
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Tidak
|
tidak
|
tidak
|
||
Sia-sia
|
sia-sia
|
sia-sia
|
sia-sia
|
sia
|
D2
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Saat
|
saat
|
saat
|
saat
|
saat
|
Ini
|
ini
|
ini
|
||
Ada
|
ada
|
ada
|
ada
|
ada
|
Ribuan
|
ribuan
|
ribuan
|
ribuan
|
ribu
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Yang
|
yang
|
yang
|
||
Siap
|
siap
|
siap
|
siap
|
siap
|
Pakai
|
pakai
|
pakai
|
pakai
|
pakai
|
Untuk
|
untuk
|
untuk
|
||
Berbagai
|
berbagai
|
berbagai
|
||
Keperluan
|
keperluan
|
keperluan
|
keperluan
|
perlu
|
Mungkin
|
mungkin
|
mungkin
|
mungkin
|
mungkin
|
Anda
|
anda
|
anda
|
||
Bertanya-tanya
|
bertanya-tanya
|
bertanya-tanya
|
bertanya-tanya
|
tanya
|
Mengapa
|
mengapa
|
mengapa
|
mengapa
|
apa
|
Kita
|
kita
|
kita
|
||
Harus
|
harus
|
harus
|
harus
|
harus
|
Membuat
|
membuat
|
membuat
|
membuat
|
buat
|
Program
|
program
|
program
|
program
|
program
|
Bukankah
|
bukankah
|
bukankah
|
bukankah
|
bukan
|
Program
|
program
|
program
|
program
|
program
|
Yang
|
yang
|
yang
|
||
Sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Ada
|
ada
|
ada
|
||
Dapat
|
dapat
|
dapat
|
dapat
|
dapat
|
Kita
|
kita
|
kita
|
||
Gunakan
|
gunakan
|
gunakan
|
gunakan
|
guna
|
Sebagaimana
|
sebagaimana
|
sebagaimana
|
sebagaimana
|
bagaimana
|
Tujuan
|
tujuan
|
tujuan
|
tujuan
|
tujuan
|
Pembuatan
|
pembuatan
|
pembuatan
|
pembuatan
|
buat
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Itu
|
itu
|
itu
|
||
Sendiri
|
sendiri
|
sendiri
|
sendiri
|
sendiri
|
D3
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Program
|
program
|
program
|
program
|
program
|
Dibuat
|
dibuat
|
dibuat
|
dibuat
|
buat
|
Untuk
|
untuk
|
untuk
|
||
Mendapatkan
|
mendapatkan
|
mendapatkan
|
mendapatkan
|
dapat
|
Jawaban
|
jawaban
|
jawaban
|
jawaban
|
jawaban
|
Atas
|
atas
|
atas
|
atas
|
atas
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Masalah
|
masalah
|
masalah
|
masalah
|
masalah
|
Memperpendek
|
memperpendek
|
memperpendek
|
memperpendek
|
pendek
|
Langkah
|
langkah
|
langkah
|
langkah
|
langkah
|
Penyelesaian
|
penyelesaian
|
penyelesaian
|
penyelesaian
|
selesai
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Masalah
|
masalah
|
masalah
|
masalah
|
masalah
|
Pengembangan
|
pengembangan
|
pengembangan
|
pengembangan
|
kembang
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Bisnis
|
bisnis
|
bisnis
|
bisnis
|
bisnis
|
Di
|
di
|
di
|
||
Indonesia
|
indonesia
|
indonesia
|
indonesia
|
indonesia
|
Sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Sangat
|
sangat
|
sangat
|
||
Berkembang
|
berkembang
|
berkembang
|
berkembang
|
kembang
|
Dan
|
dan
|
dan
|
||
Memiliki
|
memiliki
|
memiliki
|
memiliki
|
milik
|
Potensi
|
potensi
|
potensi
|
potensi
|
potensi
|
Pasar
|
pasar
|
pasar
|
pasar
|
pasar
|
Yang
|
yang
|
yang
|
||
Masih
|
masih
|
masih
|
||
Sangat
|
sangat
|
sangat
|
||
Luas
|
luas
|
luas
|
luas
|
luas
|
D4
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Bahasa
|
bahasa
|
bahasa
|
bahasa
|
bahasa
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Merupakan
|
merupakan
|
merupakan
|
merupakan
|
rupa
|
Cikal
|
cikal
|
cikal
|
cikal
|
cikal
|
Bakal
|
bakal
|
bakal
|
bakal
|
bakal
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Program
|
program
|
program
|
program
|
program
|
Atau
|
atau
|
atau
|
||
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Dengannya
|
dengannya
|
dengannya
|
dengannya
|
dengan
|
Anda
|
anda
|
anda
|
||
Bisa
|
bisa
|
bisa
|
bisa
|
bisa
|
Merangkai
|
merangkai
|
merangkai
|
merangkai
|
rangkai
|
Perintah-perintah
|
perintah-perintah
|
perintah-perintah
|
perintah-perintah
|
perintah
|
Yang
|
yang
|
yang
|
||
Sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Di
|
di
|
di
|
||
Tetapkan
|
tetapkan
|
tetapkan
|
tetapkan
|
tetap
|
Untuk
|
untuk
|
untuk
|
||
Membentuk
|
membentuk
|
membentuk
|
membentuk
|
bentuk
|
Suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Fungsi
|
fungsi
|
fungsi
|
fungsi
|
fungsi
|
Yang
|
yang
|
yang
|
||
Diinginkan
|
diinginkan
|
diinginkan
|
diinginkan
|
ingin
|
D5
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Ada
|
ada
|
ada
|
ada
|
ada
|
Banyak
|
banyak
|
banyak
|
banyak
|
banyak
|
Bahasa
|
bahasa
|
bahasa
|
bahasa
|
bahasa
|
Pemrograman
|
pemrograman
|
pemrograman
|
pemrograman
|
program
|
Yang
|
yang
|
yang
|
||
sudah
|
sudah
|
sudah
|
sudah
|
sudah
|
Dibuat
|
dibuat
|
dibuat
|
dibuat
|
buat
|
sejak
|
sejak
|
sejak
|
||
diciptakannya
|
diciptakannya
|
diciptakannya
|
diciptakannya
|
cipta
|
komputer
|
komputer
|
komputer
|
komputer
|
komputer
|
Pertama
|
pertama
|
pertama
|
pertama
|
pertama
|
Kali
|
kali
|
kali
|
kali
|
kali
|
Bahasa-bahasa
|
bahasa-bahasa
|
bahasa-bahasa
|
bahasa-bahasa
|
bahasa
|
Tersebut
|
tersebut
|
tersebut
|
tersebut
|
sebut
|
Ada
|
ada
|
ada
|
ada
|
ada
|
yang
|
yang
|
yang
|
||
Tergolong
|
tergolong
|
tergolong
|
tergolong
|
golong
|
untuk
|
untuk
|
untuk
|
||
Pembuatan
|
pembuatan
|
pembuatan
|
pembuatan
|
buat
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
Umum
|
umum
|
umum
|
umum
|
umum
|
Namun
|
namun
|
namun
|
||
ada
|
ada
|
ada
|
ada
|
ada
|
juga
|
juga
|
juga
|
||
Yang
|
yang
|
yang
|
||
memang
|
memang
|
memang
|
||
dirancang
|
dirancang
|
dirancang
|
dirancang
|
rancang
|
untuk
|
untuk
|
untuk
|
||
suatu
|
suatu
|
suatu
|
suatu
|
suatu
|
Aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
aplikasi
|
tertentu
|
tertentu
|
tertentu
|
tertentu
|
tentu
|
D6
Tokenization
|
Case-Folding
|
Filtering
|
Stop-word removal
|
Stemming
|
Pyton
|
Pyton
|
Pyton
|
Pyton
|
Pyton
|
Dapat
|
Dapat
|
Dapat
|
Dapat
|
Dapat
|
Dijalankan
|
Dijalankan
|
Dijalankan
|
Dijalankan
|
jalan
|
Di
|
di
|
di
|
||
Berbagai
|
Berbagai
|
Berbagai
|
||
Sistem
|
Sistem
|
Sistem
|
Sistem
|
Sistem
|
Operasi
|
Operasi
|
Operasi
|
Operasi
|
Operasi
|
Seperti
|
Seperti
|
Seperti
|
Seperti
|
|
Linux
|
Linux
|
Linux
|
Linux
|
Linux
|
Unix
|
Unix
|
Unix
|
Unix
|
Unix
|
Dan
|
Dan
|
Dan
|
||
Juga
|
Juga
|
Juga
|
||
Windows
|
Windows
|
Windows
|
Windows
|
Windows
|
Pengurangan
|
Pengurangan
|
Pengurangan
|
Pengurangan
|
Kurang
|
Source
|
Source
|
Source
|
Source
|
Source
|
Program
|
Program
|
Program
|
Program
|
Program
|
Secara
|
Secara
|
Secara
|
Secara
|
cara
|
Besar-besaran
|
Besar-besaran
|
Besar-besaran
|
Besar-besaran
|
Besar
|
Juga
|
Juga
|
Juga
|
||
Merupakan
|
Merupakan
|
Merupakan
|
Merupakan
|
rupa
|
Tujuan
|
Tujuan
|
Tujuan
|
Tujuan
|
Tujuan
|
Dibuatnya
|
Dibuatnya
|
Dibuatnya
|
Dibuatnya
|
buat
|
Bahsa
|
Bahasa
|
Bahasa
|
Bahasa
|
Bahasa
|
Ini
|
Ini
|
Ini
|
INCIDENCE INDEX
INVERTED
Langganan:
Postingan (Atom)