1.
PEMBAHASAN
1.1 Standard test collection Trec
1.1.1 Pengertian
Pengambilan Teks Konferensi
(Trec) adalah sebuah serial yang sedang berlangsung
lokakarya
berfokus pada daftar yang berbeda pencarian informasi (IR) daerah penelitian, atau trek. Ini adalah
co-disponsori oleh Institut Nasional Standar dan
Teknologi (NIST) dan Intelijen
Advanced Research Projects Activity (bagian dari kantor Direktur Intelijen Nasional ), dan mulai tahun 1992 sebagai bagian dari Program Text TIPSTER . Tujuannya adalah untuk mendukung dan mendorong
penelitian dalam komunitas pencarian informasi dengan menyediakan infrastruktur
yang diperlukan untuk skala evaluasi pencarian teks metodologi dan untuk meningkatkan kecepatan
lab-to-produk transfer teknologi .
Setiap lagu memiliki tantangan dimana NIST menyediakan
kelompok peserta dengan set data dan masalah uji. Tergantung pada jalur,
masalah tes mungkin pertanyaan, topik, atau target diekstrak fitur . Scoring Uniform dilakukan sehingga sistem dapat cukup
dievaluasi. Setelah evaluasi hasil, lokakarya menyediakan tempat bagi peserta
untuk mengumpulkan bersama-sama pikiran dan ide-ide dan mempresentasikan hasil
kerja penelitian saat ini dan masa depan.
1.1.2 Tracks Lancar
Trek baru
ditambahkan sebagai kebutuhan penelitian baru diidentifikasi, daftar ini adalah
saat Trec 2011.
1. Kimia Track, Tujuan: untuk mengembangkan dan mengevaluasi teknologi untuk
pencarian skala besar di bidang kimia yang berhubungan dengan dokumen, termasuk
surat-surat akademik dan paten, untuk lebih memenuhi kebutuhan pencari
profesional, dan khususnya pencari paten dan ahli kimia.
2. Crowdsourcing Track , Tujuan: untuk menyediakan tempat kolaboratif untuk menjelajahi crowdsourcing metode baik untuk mengevaluasi pencarian dan
untuk melakukan tugas pencarian. Baru untuk 2011.
3. Entitas Track, Tujuan: untuk melakukan entitas terkait pencarian data Web. Tugas pencarian
ini (seperti menemukan entitas dan sifat entitas) memenuhi kebutuhan informasi
umum yang tidak baik dimodelkan sebagai pencarian hoc dokumen iklan.
4. Jalur Hukum, Tujuan: untuk mengembangkan teknologi pencarian yang memenuhi
kebutuhan pengacara untuk terlibat dalam efektif penemuan dalam koleksi dokumen digital.
5. Rekam Medis Track, Tujuan: untuk mengeksplorasi metode
untuk mencari informasi terstruktur ditemukan dalam catatan medis pasien. Baru
untuk 2011.
6. Microblog Track, Tujuan:
untuk mengeksplorasi informasi perilaku pencarian mikroblog . Baru untuk 2011.
7. Sesi Track, Tujuan: untuk mengembangkan metode untuk mengukur beberapa
permintaan-sesi di mana informasi yang dibutuhkan melayang atau mendapatkan
lebih atau kurang spesifik selama sesi.
8. Web Track, Tujuan: untuk mengeksplorasi mencari informasi perilaku umum dalam
pencarian web umum.
1.1.3 trek lalu
1.
Jalur Genomics, Tujuan:
untuk mempelajari pengambilan genom data, bukan hanya urutan gen tapi
dokumentasi juga mendukung seperti makalah penelitian, laporan laboratorium,
dll terakhir berlari pada Trec 2007.
2. Perusahaan Jalur , Tujuan: untuk mempelajari pencarian
atas data dari sebuah organisasi untuk
menyelesaikan beberapa tugas. Terakhir berlari pada Trec 2008.
3. Cross-Bahasa Track,
Tujuan: untuk menyelidiki
kemampuan sistem pengambilan untuk menemukan dokumen topikal terlepas dari
bahasa sumber.
4. Penyaringan Track, Tujuan: untuk binarily memutuskan pengambilan dokumen masuk baru
diberi stabil kebutuhan
informasi .
5. Jalur KERAS, Tujuan: untuk mencapai Retrieval Akurasi Tinggi dari Dokumen
dengan memanfaatkan informasi tambahan tentang si pencari dan / atau konteks
pencarian.
6. Jalur
Interaktif, Tujuan: untuk
mempelajari pengguna berinteraksi dengan sistem pencarian teks.
7. Novelty Track, Tujuan: untuk menyelidiki kemampuan
sistem 'untuk mencari informasi baru (yaitu, non-berlebihan).
8. Pertanyaan
Menjawab Track, Tujuan: untuk mencapai lebih pencarian
informasi dari sekedar pengambilan
dokumen dengan menjawab pertanyaan Factoid,
daftar dan definisi gaya.
9. Jalur Retrieval Kuat, Tujuan: untuk fokus pada efektivitas topik individu.
10. Relevansi
Feedback Track, Tujuan: untuk evaluasi mendalam lebih lanjut dari proses umpan
balik relevansi.
11. Spam Track, Tujuan: untuk memberikan evaluasi standar saat ini dan yang
diusulkan penyaringan spam pendekatan.
12. Terabyte Track, Tujuan: untuk menyelidiki apakah / bagaimana IR masyarakat dapat skala tradisional IR
uji-koleksi berbasis evaluasi terhadap koleksi signifikan besar.
13. Video Track, Tujuan: untuk penelitian di segmentasi otomatis, pengindeksan , dan konten berbasis pengambilan video digital .
Acara Terkait : Pada tahun 1997, seorang rekan Jepang Trec diluncurkan (workshop pertama tahun 1999), disebut NTCIR ( NII Uji Koleksi untuk IR Systems), dan pada tahun 2000, seorang rekan Eropa diluncurkan, disebut CLEF (Cross Bahasa Forum Evaluasi).
1.1.4 Kontribusi Konferensi
Trec mengklaim bahwa dalam enam tahun pertama
lokakarya, efektivitas sistem pengambilan sekitar dua kali lipat. Konferensi
ini juga yang pertama untuk menahan skala besar evaluasi non-Inggris dokumen,
pidato, video dan pengambilan di seluruh bahasa. Selain itu, tantangan telah
menginspirasi tubuh besar publikasi . Teknologi pertama kali
dikembangkan di Trec sekarang termasuk dalam banyak komersial di dunia mesin pencari . Sebuah laporan independen oleh RTII menemukan bahwa
"sekitar sepertiga dari perbaikan dalam mesin pencari web 1999-2009
disebabkan Trec Mereka perangkat tambahan kemungkinan disimpan hingga 3 miliar
jam waktu menggunakan mesin pencari web. Selain itu, Laporan menunjukkan bahwa
untuk setiap $ 1 yang NIST dan mitranya diinvestasikan dalam Trec, setidaknya $
3,35 ke $ 5,07 manfaat yang diterima oleh peneliti AS pengambilan informasi
baik di sektor swasta dan akademisi ".
Sementara satu studi menunjukkan bahwa
keadaan seni untuk pencarian "ad-hoc" belum maju secara substansial
dalam dekade terakhir, [4] itu merujuk hanya untuk mencari
topikal dokumen yang relevan dalam berita kecil dan koleksi web dari beberapa
gigabyte. Ada kemajuan dalam jenis lain ad-hoc pencarian dalam dekade terakhir.
Misalnya, koleksi uji diciptakan untuk diketahui-item pencarian web yang
ditemukan perbaikan dari penggunaan jangkar teks, pembobotan judul dan panjang
url, yang tidak teknik yang berguna pada ad-hoc koleksi tua tes. Pada tahun
2009, koleksi web baru miliar-halaman diperkenalkan, dan spam filtering
ditemukan menjadi teknik yang berguna untuk ad-hoc pencarian web, tidak seperti
di masa lalu koleksi uji.
Koleksi Tes dikembangkan di Trec berguna tidak hanya
untuk (berpotensi) membantu peneliti memajukan keadaan seni, tetapi juga untuk
memungkinkan pengembang baru (komersial) produk pengambilan untuk mengevaluasi
efektivitas mereka pada tes standar. Dalam dekade terakhir, Trec telah
menciptakan tes baru untuk perusahaan e-mail, pencarian genomik, penyaringan
spam, e-Discovery, dan beberapa domain pengambilan lainnya.
Sistem Trec sering memberikan dasar untuk penelitian
lebih lanjut. Contoh meliputi:
1.
Hal Varian , kepala ekonom di Google, mengatakan data yang lebih baik membuat untuk ilmu pengetahuan yang lebih baik.
Sejarah pencarian informasi
menggambarkan prinsip ini dengan baik, "dan menggambarkan kontribusi Trec
itu.
- Track Hukum Trec telah mempengaruhi komunitas e-Discovery baik dalam penelitian dan evaluasi vendor komersial.
- The IBM tim peneliti bangunan IBM Watson (alias DeepQA ), yang baru-baru mengalahkan terbaik di dunia Jeopardy! pemain, menggunakan data dan sistem dari Jalur QA Trec sebagai pengukuran kinerja dasar.
1.1.5 Standar tes koleksi
Teks Retrieval Konferensi (Trec). AS Institut Nasional
Standar dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR
tidur evaluasi sejak tahun 1992. Dalam kerangka ini, ada trek selama bertahun
berbagai koleksi uji beda, tetapi koleksi terbaik pengujian diketahui adalah
yang digunakan untuk melacak Trec Ad Hoc selama 8 evaluasi pertama Trec antara tahun 1992 dan 1999. Secara
total, ini koleksi pengujian terdiri dari 6 CD yang mengandung 1,89 juta
dokumen (terutama, tetapi tidak eksklusif, newswire artikel) dan penilaian
relevansi untuk 450 kebutuhan informasi, yang disebut topik dan ditetapkan dalam bagian
teks rinci. Koleksi uji individu didefinisikan lebih himpunan bagian yang
berbeda dari data ini. Para TRECs awal setiap terdiri dari 50 kebutuhan
informasi, dievaluasi lebih set berbeda tetapi tumpang tindih dokumen. TRECs
6-8 menyediakan 150 kebutuhan informasi selama sekitar 528,000 Newswire dan
artikel Informasi Broadcast Dinas Luar Negeri. Ini mungkin adalah subcollection
terbaik untuk digunakan dalam pekerjaan di masa depan, karena itu adalah
terbesar dan topik yang lebih konsisten. Karena koleksi pengujian dokumen yang
begitu besar, tidak ada penilaian relevansi lengkap. Sebaliknya, penilaian
relevansi NIST asesor hanya tersedia untuk dokumen yang berada di antara top
kembali
untuk beberapa sistem yang masuk dalam evaluasi Trec yang kebutuhan informasi
dikembangkan.
Dalam tahun-tahun terakhir, NIST
telah melakukan evaluasi pada koleksi dokumen yang lebih besar, termasuk
halaman 25 juta GOV2
web koleksi halaman. Sejak awal, koleksi uji dokumen NIST adalah lipat lebih
besar daripada apa yang tersedia untuk peneliti sebelumnya dan GOV2 sekarang
koleksi Web terbesar mudah tersedia untuk tujuan penelitian. Namun demikian,
ukuran GOV2 masih lebih dari 2 lipat lebih kecil dari ukuran saat ini koleksi
dokumen yang diindeks oleh perusahaan pencarian web yang besar.
NII Uji Koleksi
untuk Sistem IR ( NTCIR).
Proyek NTCIR telah membangun koleksi pengujian berbagai ukuran mirip dengan
koleksi Trec, fokus pada bahasa Asia Timur dan lintas bahasa pencarian informasi, di
mana permintaan yang dibuat dalam satu bahasa selama koleksi dokumen yang
berisi dokumen dalam satu atau lebih bahasa lainnya.
1.1.6 Contoh kasus
a. Document representaive unt text
categorization
Untuk text
categorization, bagaimana kumpulan fitur yang ideal?
Umumnya dokumen teks dalam sebuah kelas, ada bagian dokumen yang terkait dengan kelas dan bagian dokumen yang tidak terkait (noise). Hanya sebagian dari dokumen yang terkait dengan kelas, biasanya kita tidak mengidentifkasikan sebuah dokumen dari keseluruhan isi dokumen. Artinya, misalkan bagian yang tidak terkait itu dihapus, tetap tidak memperngaruhi, dokumen itu tetap masuk ke dalam kelas itu.
Ini seperti halnya retrieval namun bagian dokumen yang terkait dengan teks.
Misalkan label kelas dianggap sebagai query, kita mencari di semua dokumen training positif, paragraf-paragraf mana yang terkait dengan kelas. Fitur-fitur untuk dokumen itu mestinya berasal bagian-bagian itu. Sebuah dokumen teks, misalnya artikel berita, bisa terdapat beberapa topik. Seperti pada kasus dataset TREC RCV1, tidak sedikit berita yang memberitakan hal yang serupa namun ada topik tambahan yang berbeda.Dan topik tambahan itu yang "kebetulan" menjadi dasar untuk masuk salah satu kategori kelas tertentu.
Sehingga tantangannya adalah bagaimana secara otomatis mengidentifikasikan bagian2 itu.Identifikasi bisa dilakukan dengan atau tanpa bantuan class label. Jika dengan
Tantangan kedua, jenis fitur. Umumnya jenis fitur yg dipakai adalah kata. Logikanya, diperlukan lebih baik mebawa/mengandung makna semantic.
b. Learning from positive only
Umumnya dokumen teks dalam sebuah kelas, ada bagian dokumen yang terkait dengan kelas dan bagian dokumen yang tidak terkait (noise). Hanya sebagian dari dokumen yang terkait dengan kelas, biasanya kita tidak mengidentifkasikan sebuah dokumen dari keseluruhan isi dokumen. Artinya, misalkan bagian yang tidak terkait itu dihapus, tetap tidak memperngaruhi, dokumen itu tetap masuk ke dalam kelas itu.
Ini seperti halnya retrieval namun bagian dokumen yang terkait dengan teks.
Misalkan label kelas dianggap sebagai query, kita mencari di semua dokumen training positif, paragraf-paragraf mana yang terkait dengan kelas. Fitur-fitur untuk dokumen itu mestinya berasal bagian-bagian itu. Sebuah dokumen teks, misalnya artikel berita, bisa terdapat beberapa topik. Seperti pada kasus dataset TREC RCV1, tidak sedikit berita yang memberitakan hal yang serupa namun ada topik tambahan yang berbeda.Dan topik tambahan itu yang "kebetulan" menjadi dasar untuk masuk salah satu kategori kelas tertentu.
Sehingga tantangannya adalah bagaimana secara otomatis mengidentifikasikan bagian2 itu.Identifikasi bisa dilakukan dengan atau tanpa bantuan class label. Jika dengan
Tantangan kedua, jenis fitur. Umumnya jenis fitur yg dipakai adalah kata. Logikanya, diperlukan lebih baik mebawa/mengandung makna semantic.
b. Learning from positive only
Kasus kategorisasi positive-negative, dengan
hanya tersedia dokumen2 positive di training.
Gabriel Pui Cheong Fung, Jeffrey Xu Yu, Hongjun Lu, Philip S. Yu: Text Classification without Negative Examples Revisit. IEEE Trans. Knowl. Data Eng. 18(1): 6-20 (2006)
Disini tersedia training postive documents, dan banyak unlabeled documents. Unt kasus spt ini, pada kebanyakan tulisan lain dari unlabeled dilakukan prediksi mana yang negatif. Lalu dari positif dan negatif dibuat classfication model. Pada tulisan ini, bukan hanya memprediksi negatif, tetapi juga yang positif (sbg tambahan training positif yg memang sdh ada dilabel manusia) untuk melakukan "training normal".
Gabriel Pui Cheong Fung, Jeffrey Xu Yu, Hongjun Lu, Philip S. Yu: Text Classification without Negative Examples Revisit. IEEE Trans. Knowl. Data Eng. 18(1): 6-20 (2006)
Disini tersedia training postive documents, dan banyak unlabeled documents. Unt kasus spt ini, pada kebanyakan tulisan lain dari unlabeled dilakukan prediksi mana yang negatif. Lalu dari positif dan negatif dibuat classfication model. Pada tulisan ini, bukan hanya memprediksi negatif, tetapi juga yang positif (sbg tambahan training positif yg memang sdh ada dilabel manusia) untuk melakukan "training normal".
1.2 Standard test collection Reuters Corpus
1.2.1 Pengertian
Reuters (LSE: RTR and NASDAQ: RTRSY) merupakan
sebuah kantor berita yang bermarkas di London, Inggris. Perusahaan ini
didirikan tahun 1851. Saingan
utamanya adalah Bloomberg L.P. dan Dow Jones
Newswires. Kini menjadi sponsor utama di tim WilliamsF1. Reuters merupakan
sebuah koperasi yang dimiliki
oleh perusahaan surat kabar yang
menyumbangnya dari stasiun-stasiun penyiar di Britania Raya, yang keduanya menyumbangkan berita dan menggunakan material yang ditulis
oleh para stafnya.
Pada 17 April 2008, Thomson Company membeli Reuters dan Reuterspun berganti
nama menjadi Thomson Reuters.
Thomson
Reuters adalah sebuah perusahaan informasi yang
dibentuk melalui pembelian Reuters
oleh Thomson
Corporation pada 17 April 2008. Saham Thomson
Reuters terdaftar di Bursa Saham Toronto (TSX: TRI) dan Bursa Saham New York (NYSE: TRI). Thomson Reuters berkantor pusat di Midtown Manhattan, New York City, USA. The
Woodbridge Company, sebuah perusahaan holding untuk
keluarga Thomson di Kanada
memegang 53% saham grup ini, yang beroperasi di 100 negara dan memiliki lebih
dari 55.000 karyawan. Thomson Reuters menjadi "merek korporat terdepan"
di Kanada pada daftar Interbrand Best Canadian Brands 2010.
Pada tahun 2000 Reuters merilis sebuah korpus
cerita Berita Reuters untuk digunakan dalam penelitian dan pengembangan alami
bahasa pengolahan, pencarian informasi-mesin atau sistem pembelajaran.
Reuters berhenti mendistribusikan corpus pada
tahun 2004. Sebaliknya, korpus Reuters sekarang tersedia dari NIST, Institut
Nasional Ilmu Pengetahuan dan Teknologi. Formulir pendaftaran dapat diperoleh
di Reuters
Corpus @ NIST .
1.2.2 Penamaan Dan Versi Skema
1.
The Corpus Reuters dibagi menjadi beberapa
volume.
2.
Setiap volume diidentifikasi oleh sejumlah
volume dan deskripsi, misalnya Reuters
Corpus Volume 1 (Bahasa Inggris, 1996/08/20 untuk 1997/08/19).
3.
Jika perubahan format berlangsung dan volume
yang diterbitkan kembali maka nomor versi format akan bertambah. Versi format
integer yang ditetapkan pada satu untuk volume baru.
4.
Jika perubahan konten terjadi dan volume yang
diterbitkan kembali maka jumlah level koreksi akan bertambah. Tingkat koreksi
integer yang ditetapkan pada nol untuk volume baru.
5.
Tingkat koreksi dan versi format yang
independen dan tidak ada yang pernah ulang untuk setiap volume tertentu.
6.
Volume masing-masing memiliki tanggal rilis
yang berkaitan dengan isi total volume yang.
Jika ada volume satu memerlukan
beberapa CD (atau media lainnya) maka CD masing-masing akan membawa
identifikasi volume yang sama, deskripsi, versi format, tingkat koreksi dan
tanggal rilis dan CD masing-masing set akan dibedakan dengan predikat sebagai
"Disk x dari y" .
1.2.3 Reuters Corpora (RCV1, RCV2, TRC2)
Pada tahun 2000, Reuters Ltd tersedia koleksi besar
cerita Berita Reuters untuk digunakan dalam penelitian dan pengembangan
pengolahan bahasa alami, pencarian informasi, dan sistem pembelajaran mesin.
Ini corpus, yang dikenal sebagai "Reuters Corpus, Volume 1" atau
RCV1, secara signifikan lebih besar dari koleksi, tua terkenal-21.578 Reuters
banyak digunakan dalam komunitas klasifikasi teks.
Pada musim gugur tahun 2004, NIST mengambil alih
distribusi RCV1 dan setiap masa Reuters Corpora. Anda sekarang bisa mendapatkan
dataset dengan mengirimkan permintaan kepada NIST dan dengan menandatangani
perjanjian bawah.
Apa yang tersedia ?
RCV1
|
: Reuters
Corpus, Volume 1, bahasa Inggris, 1996/08/20 untuk 1997/08/19 (Tanggal rilis 2000/11/03, Format versi 1, koreksi
tingkat 0). Ini didistribusikan pada dua CD dan berisi sekitar 810.000
Reuters, cerita Bahasa Berita Inggris. Hal ini membutuhkan sekitar 2,5 GB
untuk penyimpanan file terkompresi.
|
RCV2
|
: Reuters
Corpus, Volume 2, Corpus multibahasa, 1996/08/20 untuk 1997/08/19 (Tanggal
rilis 2005/05/31, Format versi 1, koreksi tingkat 0). Ini didistribusikan
pada satu CD dan berisi lebih dari 487.000 cerita Berita Reuters di tiga
belas bahasa (Belanda, Perancis, Jerman, Portugis Cina, Jepang, Rusia,,
Spanyol, Amerika Latin Spanyol, Italia, Denmark, Norwegia, dan Swedia).
Cerita-cerita TIDAK PARALEL, namun ditulis oleh wartawan lokal di setiap
bahasa. Cerita-cerita yang sejaman dengan RCV1, tetapi beberapa bahasa tidak
mencakup seluruh waktu.
|
TRC2
|
: Thomson Reuters Teks Penelitian
Collection (TRC2). Korpus TRC2 terdiri berita 1.800.370 untuk periode
2008-01-01 0:00:03 sampai 2009-02-28 23:54:14 2871075221 atau byte, dan pada
awalnya dibuat tersedia untuk peserta jalur blog 2009 di Teks Retrieval
Konferensi (Trec), untuk melengkapi corpus BLOGS08 (yang berisi hasil dari
sebuah blog yang besar merangkak dilakukan di University of Glasgow). TRC2
didistribusikan melalui download web.
|
Cerita-cerita di Corpus Reuters berada di bawah hak cipta
dari Reuters Ltd dan / atau Thomson Reuters, dan penggunaannya diatur oleh
perjanjian berikut:
a.
Organisasi Perjanjian: Perjanjian ini harus ditandatangani oleh orang yang
bertanggung jawab untuk data di organisasi Anda, dan dikirim ke NIST.
b.
Individu
kesepakatan: Perjanjian ini
harus ditandatangani oleh semua peneliti menggunakan Corpus Reuters di
organisasi Anda, dan disimpan dalam file di organisasi Anda.
1.3 standard test collection clef
1.3.1 Pengertian
Salib-Bahasa
Evaluasi Forum, atau CLEF, adalah klasifikasi teks,
koleksi uji yang paling digunakan telah menjadi Reuters-21.578 koleksi 21.578
artikel Newswire, lihat Bab 13 , halaman 13.6 . Baru-baru ini, Reuters merilis
Volume Reuters jauh lebih besar Corpus 1 (RCV1), yang terdiri dari 806.791
dokumen, lihat Bab 4 , halaman 4.2 . Penjelasan yang skala dan kaya
membuat dasar yang lebih baik untuk penelitian
Sebuah organisasi yang mempromosikan
penelitian di multibahasa akses
informasi
(saat ini berfokus pada bahasa-bahasa Eropa ). Fungsi khusus adalah untuk mempertahankan
kerangka dasar untuk menguji pencarian
informasi
sistem, dan menciptakan repositori data bagi para
peneliti untuk digunakan dalam mengembangkan dibandingkan standar. Organisasi
memegang sebuah forum pertemuan setiap September di Eropa. Sebelum setiap
forum, peserta menerima satu set tugas tantangan. Tugas ini dirancang untuk
menguji berbagai aspek sistem pencarian informasi dan mendorong perkembangan
mereka. Kelompok peneliti mengusulkan dan mengatur kampanye untuk memenuhi
tugas-tugas. Hasilnya digunakan sebagai tolok
ukur
untuk keadaan seni di daerah-daerah tertentu. Sebagai contoh, tahun 2010 tugas
pengambilan medis berfokus pada retrival dari computed tomography, MRI, dan
gambar radiografi.
1.3.2 Inisiatif CLEF
Inisiatif CLEF (Konferensi dan Labs dari Forum Evaluasi, sebelumnya
dikenal sebagai Cross-Language Forum Evaluasi) adalah lembaga self-organized
misi utamanya adalah untuk mempromosikan penelitian, inovasi, dan pengembangan
sistem akses informasi dengan penekanan pada multibahasa dan multimodal
informasi dengan berbagai tingkat struktur. CLEF mempromosikan penelitian dan
pengembangan dengan menyediakan infrastruktur untuk :
a.
multibahasa dan pengujian sistem multimodal,
tuning dan evaluasi.
b.
penyelidikan penggunaan terstruktur,
semi-terstruktur, yang sangat terstruktur, dan data semantik diperkaya dengan
akses informasi.
c.
penciptaan
koleksi tes dapat digunakan kembali untuk pembandingan.
d.
eksplorasi metodologi evaluasi baru dan
cara-cara inovatif untuk menggunakan data
eksperimen.
e.
pembahasan hasil, perbandingan pendekatan,
pertukaran ide, dan transfer pengetahuan.
1.3.3 Inisiatif CLEF
disusun dalam dua bagian utama:
a. serangkaian
Evaluasi Labs, laboratorium yaitu untuk melakukan evaluasi sistem akses
informasi dan lokakarya untuk membahas dan kegiatan percontohan evaluasi yang
inovatif.
b. Konferensi peer-review pada
berbagai isu, termasuk :
Ø melanjutkan
penyelidikan kegiatan Labs Evaluasi;
Ø percobaan
menggunakan data multibahasa dan multimodal, khususnya, tetapi tidak hanya,
data yang dihasilkan dari kegiatan CLEF;
Ø penelitian dalam
metodologi evaluasi dan tantangan.
Sejak tahun 2000 CLEF telah memainkan
peran utama dalam penyelidikan merangsang dan penelitian di berbagai bidang
utama dalam domain pencarian informasi, menjadi terkenal di masyarakat IR
internasional. Hal ini juga mempromosikan studi dan implementasi metodologi
evaluasi yang tepat untuk beragam jenis tugas dan media. Selama bertahun-tahun,
komunitas riset yang luas, kuat, dan multidisiplin telah dibangun, yang
meliputi dan mencakup berbagai bidang keahlian yang dibutuhkan untuk menangani
penyebaran kegiatan CLEF.
Hasilnya tradisional disajikan dan
dibahas pada lokakarya tahunan dalam hubungannya dengan Konferensi Eropa untuk
Perpustakaan Digital (ECDL), sekarang disebut Teori dan Praktek di Perpustakaan
Digital (TPDL).
Sejak 2010, CLEF telah mengambil
bentuk suatu peristiwa independen, dibentuk oleh sebuah konferensi peer-review
diselenggarakan dengan satu set laboratorium evaluasi.
1.3.4 Cross-Bahasa Evaluasi Forum
CLEF mendorong penelitian dalam pencarian informasi multibahasa dan lintas-bahasa untuk bahasa-bahasa Eropa dengan menciptakan sebuah forum terbuka untuk pertukaran ide penelitian. CLEF menyediakan corpus tes bahasa untuk evaluasi sistem pencarian informasi, yang terdiri atas:
a. koran dan Newswire data di Belanda, Inggris, Perancis, Jerman, Italia dan Spanyol.
b. Bahasa alami laporan kebutuhan pengguna informasi (query).
c. relevansi penilaian (yang "jawaban yang baik").
Partisipasi terbuka untuk akademisi dan
industri. Untuk berpartisipasi dalam evaluasi, silakan kunjungi homepage CLEF Resmi .
Durasi dan Pendanaan: CLEF didanai sebagian oleh Komisi Eropa. Proyek ini dimulai pada bulan Januari 2000 dan akan berakhir pada bulan Desember 2003.
1.3.4 Contoh kasus clef
Ø XML, Client-Side and Server Side Activity
XML
HTML pada dasarnya adalah suatu sistem notasi dengan mana
dokumen teks bersama dengan penampilan dokumen dapat dikodekan sebagai file
teks sederhana. Dengan cara yang sama kita juga dapat dikodekan materi
nontextual sebagai file teks contoh yang lembaran musik. Sepintas pola staf,
bar mengukur, dan mencatat di mana musik tradisional diwakili tidak sesuai
dengan karakter dengan format karakter ditentukan oleh file teks. Namun, kita
dapat mengatasi masalah ini dengan mengembangkan sistem notasi alternatif. Lebih
tepatnya, kita bisa setuju untuk mewakili awal staf dengan <staff clef = “treble”>, akhir staf melalui </staf>, tanda tangan waktu dengan bentuk <time> 2 / 4 <time>, awal dan akhir dari ukuran dengan <measure> dan </ measure>,
masing-masing, seperti catatan catatan kedelapan pada C sebagai <notes> egth C </ notes>, dll. Kemudian teks :
<staff
clef = “treble”> <key> C minor </ key>
<time>
2 / 4 </ time>
<measure>
<rest> egth </ notes> </measure>
<measure>
<notes> HLF E </notes> </measure>
</Staf>
dapat digunakan untuk mengkodekan musik. Menggunakan notasi seperti ini, lembaran musik dapat dikodekan, dimodifikasi, disimpan, dan ditransfer melalui internet sebagai file teks. Selain itu, perangkat lunak bisa ditulis untuk menyajikan isi dari file tersebut dalam bentuk lembaran musik tradisional atau bahkan untuk bermain musik di synthesizer.
Perhatikan bahwa lembaran musik kami sistem pengkodean meliputi gaya yang sama digunakan oleh HTML. Kami memilih melukiskan tag yang mengidentifikasi komponen oleh <and> simbol. Kami memilih untuk menunjukkan awal dan akhir struktur (seperti staf, string catatan, atau mengukur) dengan tag dari nama yang sama berakhir tag yang ditunjuk oleh lampu kilat (<measure> seorang diakhiri dengan tag </measure>). Dan kami memilih untuk menunjukkan atribut khusus dalam tag dengan pernyataan seperti clef = “treble”. Gaya yang sama juga dapat digunakan untuk mengembangkan sistem untuk mewakili format lain seperti ekspresi matematis dan grafis.
dapat digunakan untuk mengkodekan musik. Menggunakan notasi seperti ini, lembaran musik dapat dikodekan, dimodifikasi, disimpan, dan ditransfer melalui internet sebagai file teks. Selain itu, perangkat lunak bisa ditulis untuk menyajikan isi dari file tersebut dalam bentuk lembaran musik tradisional atau bahkan untuk bermain musik di synthesizer.
Perhatikan bahwa lembaran musik kami sistem pengkodean meliputi gaya yang sama digunakan oleh HTML. Kami memilih melukiskan tag yang mengidentifikasi komponen oleh <and> simbol. Kami memilih untuk menunjukkan awal dan akhir struktur (seperti staf, string catatan, atau mengukur) dengan tag dari nama yang sama berakhir tag yang ditunjuk oleh lampu kilat (<measure> seorang diakhiri dengan tag </measure>). Dan kami memilih untuk menunjukkan atribut khusus dalam tag dengan pernyataan seperti clef = “treble”. Gaya yang sama juga dapat digunakan untuk mengembangkan sistem untuk mewakili format lain seperti ekspresi matematis dan grafis.
EXtensilbe Markup Language (XML) adalah gaya standar
(mirip dengan contoh musik kami) untuk merancang sistem notasi untuk mewakili
data sebagai file teks. (Sebenarnya, XML merupakan turunan disederhanakan dari
serangkaian standar yang lebih tua disebut Standard Generalized Markup Language
, lebih dikenal sebagai SGML.) Mengikuti standar XML, sistem notasi yang
disebut bahasa markup telah dikembangkan untuk mewakili matematika, presentasi
multimedia, dan musik. Bahkan, HTML adalah bahasa markup berdasarkan standar
XML yang dikembangkan untuk mewakili halaman Web. (Sebenarnya, versi asli dari
HTML dikembangkan sebelum standar XML dipadatkan, dan karene itu beberapa fitur
dari HTML tidak ketat sesuai dengan XML. Itulah mengapa Anda mungkin akan
melihat refrence ke XHTML, yang merupakan versi HTML yang ketat melekat ke XML
).
XML menyediakan contoh yang baik tentang bagaimana
standar ini dirancang untuk memiliki aplikasi yang luas mulai. Daripada
merancang individu, bahasa merkup berhubungan untuk pengkodean berbagai jenis
dokumen, pendekatan diwakili oleh XML adalah mengembangkan standar untuk bahasa
markup pada umumnya. Dengan bahasa markup standar dapat dikembangkan untuk
berbagai aplikasi. Bahasa Markup yang dikembangkan dalam keseragaman Prossess
cara yang memungkinkan mereka untuk dikombinasikan untuk mendapatkan markup
aplikasi untuk bahasa kompleks seperti dokumen teks yang berisi segmen lembaran
musik dan ekspresi matematika.
Akhirnya kita harus mencatat bahwa XML memungkinkan
pengembangan bahasa markup baru berbeda dari HTML dalam arti kata bahwa mereka
menekankan ketimbang penampilan. Sebagai contoh, dengan HTML bahan dalam
resep dapat ditandai, sehingga mereka muncul sebagai daftar di mana setiap
bahan diposisikan pada baris terpisah. Tetapi jika kita menggunakan tag
semantik berorientasi, bahan-bahan dalam resep dapat ditandai sebagai bahan
(mungkin menggunakan tag <ingredients> dan </ingredients>) bukan sekedar item dalam daftar. Perbedaannya
adalah halus namun penting. Pendekatan sematic akan memungkinkan mesin
pencari untuk mengidentifikasi resep yang mengandung atau tidak mengandung
bahan tertentu, yang akan menjadi perbaikan besar atas keadaan saat ini seni.
Lebih tepat, jika arti kata tag yang digunakan, mesin pencari dapat
mengidentifikasi resep untuk lasagna yang tidak mengandung bayam,
sedangkan pencarian serupa hanya didasarkan pada isi kata-kata akan melewatkan
resep yang dimulai dengan pernyataan, lasagne ini tidak mengandung bayam, pada
gilirannya dengan menggunakan standar internet lebar untuk menandai dokumen.
menurut semantik ketimbang penampilan , World Wide Semantic Web, daripada
World Wide Syntatic Web kita Hari ini, akan diciptakan.
Tidak ada komentar:
Posting Komentar