1.
PEMBAHASAN
1.1 Standard test collection Trec
1.1.1 Pengertian
Pengambilan
Teks Konferensi (Trec)
adalah sebuah serial yang sedang berlangsung lokakarya berfokus pada daftar yang
berbeda pencarian
informasi (IR) daerah
penelitian, atau trek. Ini adalah co-disponsori oleh Institut
Nasional Standar dan Teknologi
(NIST) dan Intelijen Advanced Research Projects Activity (bagian dari kantor Direktur
Intelijen Nasional ),
dan mulai tahun 1992 sebagai bagian dari Program
Text TIPSTER .
Tujuannya adalah untuk mendukung dan mendorong penelitian dalam komunitas
pencarian informasi dengan menyediakan infrastruktur yang diperlukan untuk
skala evaluasi pencarian
teks metodologi
dan untuk meningkatkan kecepatan lab-to-produk transfer
teknologi .
Setiap lagu memiliki tantangan
dimana NIST menyediakan kelompok peserta dengan set data dan masalah uji.
Tergantung pada jalur, masalah tes mungkin pertanyaan, topik, atau target
diekstrak fitur . Scoring Uniform dilakukan
sehingga sistem dapat cukup dievaluasi. Setelah evaluasi hasil, lokakarya
menyediakan tempat bagi peserta untuk mengumpulkan bersama-sama pikiran dan
ide-ide dan mempresentasikan hasil kerja penelitian saat ini dan masa depan.
1.1.2 Tracks Lancar
Trek baru
ditambahkan sebagai kebutuhan penelitian baru diidentifikasi, daftar ini adalah
saat Trec 2011.
1. Kimia Track, Tujuan: untuk mengembangkan dan
mengevaluasi teknologi untuk pencarian skala besar di bidang kimia yang berhubungan dengan dokumen,
termasuk surat-surat akademik dan paten, untuk lebih memenuhi kebutuhan pencari
profesional, dan khususnya pencari
paten dan ahli
kimia.
2. Crowdsourcing Track , Tujuan: untuk menyediakan tempat kolaboratif untuk menjelajahi crowdsourcing metode baik untuk mengevaluasi
pencarian dan untuk melakukan tugas pencarian. Baru untuk 2011.
3. Entitas Track, Tujuan: untuk melakukan entitas
terkait pencarian data Web. Tugas pencarian ini (seperti menemukan entitas dan
sifat entitas) memenuhi kebutuhan informasi umum yang tidak baik dimodelkan
sebagai pencarian hoc dokumen iklan.
4. Jalur Hukum, Tujuan: untuk mengembangkan teknologi pencarian yang memenuhi kebutuhan pengacara untuk terlibat dalam efektif penemuan dalam koleksi dokumen digital.
5. Rekam Medis Track, Tujuan: untuk mengeksplorasi metode untuk mencari informasi terstruktur ditemukan dalam catatan medis pasien. Baru untuk 2011.
6. Microblog Track, Tujuan: untuk mengeksplorasi informasi perilaku pencarian mikroblog . Baru untuk 2011.
7. Sesi Track, Tujuan: untuk mengembangkan metode untuk mengukur beberapa permintaan-sesi di mana informasi yang dibutuhkan melayang atau mendapatkan lebih atau kurang spesifik selama sesi.
8. Web Track, Tujuan: untuk mengeksplorasi mencari informasi perilaku umum dalam pencarian web umum.
4. Jalur Hukum, Tujuan: untuk mengembangkan teknologi pencarian yang memenuhi kebutuhan pengacara untuk terlibat dalam efektif penemuan dalam koleksi dokumen digital.
5. Rekam Medis Track, Tujuan: untuk mengeksplorasi metode untuk mencari informasi terstruktur ditemukan dalam catatan medis pasien. Baru untuk 2011.
6. Microblog Track, Tujuan: untuk mengeksplorasi informasi perilaku pencarian mikroblog . Baru untuk 2011.
7. Sesi Track, Tujuan: untuk mengembangkan metode untuk mengukur beberapa permintaan-sesi di mana informasi yang dibutuhkan melayang atau mendapatkan lebih atau kurang spesifik selama sesi.
8. Web Track, Tujuan: untuk mengeksplorasi mencari informasi perilaku umum dalam pencarian web umum.
1.1.3 trek lalu
1. Jalur Genomics, Tujuan:
untuk mempelajari pengambilan genom data, bukan hanya urutan gen tapi dokumentasi
juga mendukung seperti makalah penelitian, laporan laboratorium, dll terakhir
berlari pada Trec 2007.
2. Perusahaan Jalur, Tujuan: untuk mempelajari pencarian
atas data dari sebuah organisasi untuk
menyelesaikan beberapa tugas. Terakhir berlari pada Trec 2008.
3. Cross-Bahasa Track,
Tujuan: untuk menyelidiki
kemampuan sistem pengambilan untuk menemukan dokumen topikal terlepas dari
bahasa sumber.
4.
Penyaringan
Track, Tujuan: untuk binarily
memutuskan pengambilan dokumen masuk baru diberi stabil kebutuhan
informasi .
5. Jalur KERAS, Tujuan: untuk mencapai Retrieval
Akurasi Tinggi dari Dokumen dengan memanfaatkan informasi tambahan tentang si
pencari dan / atau konteks pencarian.
6. Jalur Interaktif, Tujuan: untuk mempelajari pengguna berinteraksi dengan sistem pencarian teks.
7. Novelty
Track, Tujuan: untuk menyelidiki
kemampuan sistem 'untuk mencari informasi baru (yaitu, non-berlebihan).
8.
Pertanyaan
Menjawab Track, Tujuan: untuk mencapai lebih pencarian
informasi dari sekedar pengambilan
dokumen dengan menjawab pertanyaan Factoid,
daftar dan definisi gaya.
9.
Jalur Retrieval
Kuat, Tujuan: untuk fokus pada
efektivitas topik individu.
10. Relevansi
Feedback Track, Tujuan: untuk evaluasi mendalam lebih lanjut dari proses umpan
balik relevansi.
11. Spam Track, Tujuan: untuk memberikan evaluasi standar saat ini dan yang
diusulkan penyaringan spam pendekatan.
12. Terabyte Track, Tujuan: untuk menyelidiki apakah / bagaimana IR masyarakat dapat skala tradisional IR
uji-koleksi berbasis evaluasi terhadap koleksi signifikan besar.
13. Video Track, Tujuan: untuk penelitian di segmentasi otomatis, pengindeksan , dan konten berbasis pengambilan video digital .
Acara Terkait : Pada tahun 1997, seorang rekan Jepang Trec diluncurkan (workshop pertama tahun 1999), disebut NTCIR ( NII Uji Koleksi untuk IR Systems), dan pada tahun 2000, seorang rekan Eropa diluncurkan, disebut CLEF (Cross Bahasa Forum Evaluasi).
1.1.4 Kontribusi Konferensi
Trec mengklaim bahwa dalam enam tahun pertama
lokakarya, efektivitas sistem pengambilan sekitar dua kali lipat. Konferensi
ini juga yang pertama untuk menahan skala besar evaluasi non-Inggris dokumen,
pidato, video dan pengambilan di seluruh bahasa. Selain itu, tantangan telah
menginspirasi tubuh besar publikasi . Teknologi pertama kali dikembangkan
di Trec sekarang termasuk dalam banyak komersial di dunia mesin pencari . Sebuah laporan independen oleh RTII menemukan bahwa
"sekitar sepertiga dari perbaikan dalam mesin pencari web 1999-2009
disebabkan Trec Mereka perangkat tambahan kemungkinan disimpan hingga 3 miliar
jam waktu menggunakan mesin pencari web. Selain itu, Laporan menunjukkan bahwa
untuk setiap $ 1 yang NIST dan mitranya diinvestasikan dalam Trec, setidaknya $
3,35 ke $ 5,07 manfaat yang diterima oleh peneliti AS pengambilan informasi
baik di sektor swasta dan akademisi ".
Sementara satu studi menunjukkan bahwa keadaan
seni untuk pencarian "ad-hoc" belum maju secara substansial dalam
dekade terakhir, itu merujuk hanya untuk mencari
topikal dokumen yang relevan dalam berita kecil dan koleksi web dari beberapa
gigabyte. Ada kemajuan dalam jenis lain ad-hoc pencarian dalam dekade terakhir.
Misalnya, koleksi uji diciptakan untuk diketahui-item pencarian web yang
ditemukan perbaikan dari penggunaan jangkar teks, pembobotan judul dan panjang
url, yang tidak teknik yang berguna pada ad-hoc koleksi tua tes. Pada tahun
2009, koleksi web baru miliar-halaman diperkenalkan, dan spam filtering
ditemukan menjadi teknik yang berguna untuk ad-hoc pencarian web, tidak seperti
di masa lalu koleksi uji.
Koleksi Tes dikembangkan di Trec berguna tidak hanya untuk
(berpotensi) membantu peneliti memajukan keadaan seni, tetapi juga untuk
memungkinkan pengembang baru (komersial) produk pengambilan untuk mengevaluasi
efektivitas mereka pada tes standar. Dalam dekade terakhir, Trec telah
menciptakan tes baru untuk perusahaan e-mail, pencarian genomik, penyaringan
spam, e-Discovery, dan beberapa domain pengambilan lainnya.
Sistem Trec sering memberikan dasar untuk penelitian lebih lanjut.
Contoh meliputi:
Contoh meliputi:
1. Hal Varian , kepala ekonom di Google, mengatakan data yang lebih baik membuat untuk ilmu pengetahuan yang lebih baik.
Sejarah pencarian informasi
menggambarkan prinsip ini dengan baik, "dan menggambarkan kontribusi Trec
itu.
- Track Hukum Trec telah mempengaruhi komunitas e-Discovery baik dalam penelitian dan evaluasi vendor komersial.
- The IBM tim peneliti bangunan IBM Watson (alias DeepQA ), yang baru-baru mengalahkan terbaik di dunia Jeopardy! pemain, menggunakan data dan sistem dari Jalur QA Trec sebagai pengukuran kinerja dasar.
1.1.5 Standar tes koleksi
Teks
Retrieval Konferensi (Trec).
AS Institut Nasional
Standar dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR
tidur evaluasi sejak tahun 1992. Dalam kerangka ini, ada trek selama bertahun
berbagai koleksi uji beda, tetapi koleksi terbaik pengujian diketahui adalah
yang digunakan untuk melacak Trec Ad Hoc selama 8 evaluasi pertama Trec antara tahun 1992 dan 1999. Secara total,
ini koleksi pengujian terdiri dari 6 CD yang mengandung 1,89 juta dokumen
(terutama, tetapi tidak eksklusif, newswire artikel) dan penilaian relevansi
untuk 450 kebutuhan informasi, yang disebut topik dan ditetapkan dalam bagian
teks rinci. Koleksi uji individu didefinisikan lebih himpunan bagian yang
berbeda dari data ini. Para TRECs awal setiap terdiri dari 50 kebutuhan
informasi, dievaluasi lebih set berbeda tetapi tumpang tindih dokumen. TRECs
6-8 menyediakan 150 kebutuhan informasi selama sekitar 528,000 Newswire dan
artikel Informasi Broadcast Dinas Luar Negeri. Ini mungkin adalah subcollection
terbaik untuk digunakan dalam pekerjaan di masa depan, karena itu adalah
terbesar dan topik yang lebih konsisten. Karena koleksi pengujian dokumen yang
begitu besar, tidak ada penilaian relevansi lengkap. Sebaliknya, penilaian
relevansi NIST asesor hanya tersedia untuk dokumen yang berada di antara top
kembali untuk
beberapa sistem yang masuk dalam evaluasi Trec yang kebutuhan informasi
dikembangkan.
Dalam
tahun-tahun terakhir, NIST telah melakukan evaluasi pada koleksi dokumen yang
lebih besar, termasuk halaman 25 juta GOV2 web koleksi halaman. Sejak awal, koleksi uji dokumen NIST
adalah lipat lebih besar daripada apa yang tersedia untuk peneliti sebelumnya
dan GOV2 sekarang koleksi Web terbesar mudah tersedia untuk tujuan penelitian.
Namun demikian, ukuran GOV2 masih lebih dari 2 lipat lebih kecil dari ukuran
saat ini koleksi dokumen yang diindeks oleh perusahaan pencarian web yang
besar.
NII Uji Koleksi untuk Sistem IR ( NTCIR). Proyek
NTCIR telah membangun koleksi pengujian berbagai ukuran mirip dengan koleksi
Trec, fokus pada bahasa Asia Timur dan lintas bahasa pencarian informasi, di
mana permintaan yang dibuat dalam satu bahasa selama koleksi dokumen yang
berisi dokumen dalam satu atau lebih bahasa lainnya.
1.1.6 Contoh kasus
a. Document representaive unt text
categorization
Untuk text categorization, bagaimana kumpulan fitur yang
ideal?
Umumnya dokumen teks dalam sebuah kelas, ada bagian dokumen yang terkait dengan kelas dan bagian dokumen yang tidak terkait (noise). Hanya sebagian dari dokumen yang terkait dengan kelas, biasanya kita tidak mengidentifkasikan sebuah dokumen dari keseluruhan isi dokumen. Artinya, misalkan bagian yang tidak terkait itu dihapus, tetap tidak memperngaruhi, dokumen itu tetap masuk ke dalam kelas itu.
Ini seperti halnya retrieval namun bagian dokumen yang terkait dengan teks.
Misalkan label kelas dianggap sebagai query, kita mencari di semua dokumen training positif, paragraf-paragraf mana yang terkait dengan kelas. Fitur-fitur untuk dokumen itu mestinya berasal bagian-bagian itu. Sebuah dokumen teks, misalnya artikel berita, bisa terdapat beberapa topik. Seperti pada kasus dataset TREC RCV1, tidak sedikit berita yang memberitakan hal yang serupa namun ada topik tambahan yang berbeda.Dan topik tambahan itu yang "kebetulan" menjadi dasar untuk masuk salah satu kategori kelas tertentu.
Sehingga tantangannya adalah bagaimana secara otomatis mengidentifikasikan bagian2 itu.Identifikasi bisa dilakukan dengan atau tanpa bantuan class label. Jika dengan
Tantangan kedua, jenis fitur. Umumnya jenis fitur yg dipakai adalah kata. Logikanya, diperlukan lebih baik mebawa/mengandung makna semantic.
b. Learning from positive only
Umumnya dokumen teks dalam sebuah kelas, ada bagian dokumen yang terkait dengan kelas dan bagian dokumen yang tidak terkait (noise). Hanya sebagian dari dokumen yang terkait dengan kelas, biasanya kita tidak mengidentifkasikan sebuah dokumen dari keseluruhan isi dokumen. Artinya, misalkan bagian yang tidak terkait itu dihapus, tetap tidak memperngaruhi, dokumen itu tetap masuk ke dalam kelas itu.
Ini seperti halnya retrieval namun bagian dokumen yang terkait dengan teks.
Misalkan label kelas dianggap sebagai query, kita mencari di semua dokumen training positif, paragraf-paragraf mana yang terkait dengan kelas. Fitur-fitur untuk dokumen itu mestinya berasal bagian-bagian itu. Sebuah dokumen teks, misalnya artikel berita, bisa terdapat beberapa topik. Seperti pada kasus dataset TREC RCV1, tidak sedikit berita yang memberitakan hal yang serupa namun ada topik tambahan yang berbeda.Dan topik tambahan itu yang "kebetulan" menjadi dasar untuk masuk salah satu kategori kelas tertentu.
Sehingga tantangannya adalah bagaimana secara otomatis mengidentifikasikan bagian2 itu.Identifikasi bisa dilakukan dengan atau tanpa bantuan class label. Jika dengan
Tantangan kedua, jenis fitur. Umumnya jenis fitur yg dipakai adalah kata. Logikanya, diperlukan lebih baik mebawa/mengandung makna semantic.
b. Learning from positive only
Kasus kategorisasi positive-negative,
dengan hanya tersedia dokumen2 positive di training.
Gabriel Pui Cheong Fung, Jeffrey Xu Yu, Hongjun Lu, Philip S. Yu: Text Classification without Negative Examples Revisit. IEEE Trans. Knowl. Data Eng. 18(1): 6-20 (2006)
Disini tersedia training postive documents, dan banyak unlabeled documents. Unt kasus spt ini, pada kebanyakan tulisan lain dari unlabeled dilakukan prediksi mana yang negatif. Lalu dari positif dan negatif dibuat classfication model. Pada tulisan ini, bukan hanya memprediksi negatif, tetapi juga yang positif (sbg tambahan training positif yg memang sdh ada dilabel manusia) untuk melakukan "training normal".
Gabriel Pui Cheong Fung, Jeffrey Xu Yu, Hongjun Lu, Philip S. Yu: Text Classification without Negative Examples Revisit. IEEE Trans. Knowl. Data Eng. 18(1): 6-20 (2006)
Disini tersedia training postive documents, dan banyak unlabeled documents. Unt kasus spt ini, pada kebanyakan tulisan lain dari unlabeled dilakukan prediksi mana yang negatif. Lalu dari positif dan negatif dibuat classfication model. Pada tulisan ini, bukan hanya memprediksi negatif, tetapi juga yang positif (sbg tambahan training positif yg memang sdh ada dilabel manusia) untuk melakukan "training normal".
1.1 Standard test collection Reuters
Corpus
1.2.1 Pengertian
Reuters (LSE: RTR and NASDAQ: RTRSY) merupakan sebuah kantor
berita yang bermarkas di London, Inggris. Perusahaan ini didirikan tahun 1851. Saingan utamanya adalah Bloomberg
L.P. dan Dow Jones
Newswires. Kini menjadi sponsor utama di tim WilliamsF1. Reuters merupakan sebuah koperasi yang dimiliki oleh perusahaan surat kabar yang menyumbangnya dari
stasiun-stasiun penyiar di Britania Raya, yang keduanya
menyumbangkan berita dan menggunakan material yang ditulis oleh para stafnya.
Pada 17 April
2008, Thomson Company membeli Reuters dan Reuterspun berganti nama menjadi Thomson Reuters.
Thomson Reuters adalah
sebuah perusahaan informasi yang dibentuk melalui pembelian Reuters oleh Thomson Corporation pada 17
April 2008. Saham Thomson Reuters terdaftar di Bursa Saham
Toronto (TSX: TRI) dan Bursa Saham
New York (NYSE: TRI). Thomson Reuters
berkantor pusat di Midtown Manhattan, New York City, USA. The Woodbridge Company, sebuah
perusahaan holding untuk keluarga Thomson di Kanada memegang
53% saham grup ini, yang beroperasi di 100 negara dan memiliki lebih dari
55.000 karyawan. Thomson Reuters menjadi "merek korporat terdepan" di
Kanada pada daftar Interbrand Best Canadian Brands 2010.
Pada tahun 2000 Reuters merilis sebuah korpus
cerita Berita Reuters untuk digunakan dalam penelitian dan pengembangan alami
bahasa pengolahan, pencarian informasi-mesin atau sistem pembelajaran.
Reuters berhenti mendistribusikan corpus pada
tahun 2004. Sebaliknya, korpus Reuters sekarang tersedia dari NIST, Institut
Nasional Ilmu Pengetahuan dan Teknologi. Formulir pendaftaran dapat diperoleh
di Reuters
Corpus @ NIST .
1.2.2 Penamaan dan versi skema
1.2.2 Penamaan dan versi skema
- The Corpus Reuters dibagi menjadi beberapa volume.
- Setiap volume diidentifikasi oleh sejumlah volume dan deskripsi, misalnya Reuters Corpus Volume 1 (Bahasa Inggris, 1996/08/20 untuk 1997/08/19).
- Jika perubahan format berlangsung dan volume yang diterbitkan kembali maka nomor versi format akan bertambah. Versi format integer yang ditetapkan pada satu untuk volume baru.
- Jika perubahan konten terjadi dan volume yang diterbitkan kembali maka jumlah level koreksi akan bertambah. Tingkat koreksi integer yang ditetapkan pada nol untuk volume baru.
- Tingkat koreksi dan versi format yang independen dan tidak ada yang pernah ulang untuk setiap volume tertentu.
- Volume masing-masing memiliki tanggal rilis yang berkaitan dengan isi total volume yang.
Jika ada volume satu memerlukan beberapa CD
(atau media lainnya) maka CD masing-masing akan membawa identifikasi volume
yang sama, deskripsi, versi format, tingkat koreksi dan tanggal rilis dan CD
masing-masing set akan dibedakan dengan predikat sebagai "Disk x dari
y" .
1.2.3 Reuters Corpora (RCV1, RCV2, TRC2)
Pada tahun 2000, Reuters Ltd tersedia koleksi besar cerita Berita
Reuters untuk digunakan dalam penelitian dan pengembangan pengolahan bahasa
alami, pencarian informasi, dan sistem pembelajaran mesin. Ini corpus, yang
dikenal sebagai "Reuters Corpus, Volume 1" atau RCV1, secara
signifikan lebih besar dari koleksi, tua terkenal-21.578 Reuters banyak
digunakan dalam komunitas klasifikasi teks.
Pada musim gugur tahun 2004, NIST mengambil alih distribusi RCV1
dan setiap masa Reuters Corpora. Anda sekarang bisa mendapatkan dataset dengan
mengirimkan permintaan kepada NIST dan dengan menandatangani perjanjian bawah.
Apa yang tersedia ?
RCV1
|
: Reuters Corpus, Volume 1, bahasa Inggris,
1996/08/20 untuk 1997/08/19 (Tanggal rilis 2000/11/03, Format versi 1, koreksi
tingkat 0). Ini didistribusikan pada dua CD dan berisi sekitar 810.000
Reuters, cerita Bahasa Berita Inggris. Hal ini membutuhkan sekitar 2,5 GB
untuk penyimpanan file terkompresi.
|
RCV2
|
: Reuters Corpus, Volume 2, Corpus
multibahasa, 1996/08/20 untuk 1997/08/19 (Tanggal rilis 2005/05/31, Format versi 1,
koreksi tingkat 0). Ini didistribusikan pada satu CD dan berisi lebih dari
487.000 cerita Berita Reuters di tiga belas bahasa (Belanda, Perancis,
Jerman, Portugis Cina, Jepang, Rusia,, Spanyol, Amerika Latin Spanyol,
Italia, Denmark, Norwegia, dan Swedia). Cerita-cerita TIDAK PARALEL, namun
ditulis oleh wartawan lokal di setiap bahasa. Cerita-cerita yang sejaman
dengan RCV1, tetapi beberapa bahasa tidak mencakup seluruh waktu.
|
TRC2
|
: Thomson Reuters Teks Penelitian Collection
(TRC2). Korpus TRC2 terdiri berita 1.800.370 untuk periode 2008-01-01 0:00:03
sampai 2009-02-28 23:54:14 2871075221 atau byte, dan pada awalnya dibuat
tersedia untuk peserta jalur blog 2009 di Teks Retrieval Konferensi (Trec),
untuk melengkapi corpus BLOGS08 (yang berisi hasil dari sebuah blog yang
besar merangkak dilakukan di University of Glasgow). TRC2 didistribusikan
melalui download web.
|
Cerita-cerita di Corpus Reuters berada di bawah hak cipta dari
Reuters Ltd dan / atau Thomson Reuters, dan penggunaannya diatur oleh
perjanjian berikut:
a. Organisasi Perjanjian: Perjanjian ini harus ditandatangani oleh orang yang bertanggung
jawab untuk data di organisasi Anda, dan dikirim ke NIST.
b. Individu kesepakatan: Perjanjian ini harus ditandatangani oleh
semua peneliti menggunakan Corpus Reuters di organisasi Anda, dan disimpan
dalam file di organisasi Anda.
1.3 standard test
collection clef
1.3.1 Pengertian
Salib-Bahasa Evaluasi Forum, atau CLEF, adalah klasifikasi
teks, koleksi uji yang paling digunakan telah menjadi Reuters-21.578 koleksi
21.578 artikel Newswire. Baru-baru ini, Reuters merilis Volume Reuters jauh lebih besar Corpus 1
(RCV1), yang terdiri dari 806.791 dokumen. Penjelasan yang skala dan kaya membuat dasar yang lebih baik untuk penelitian
Sebuah organisasi yang mempromosikan penelitian di
multibahasa akses informasi (saat ini berfokus pada bahasa-bahasa
Eropa ). Fungsi khusus
adalah untuk mempertahankan kerangka dasar untuk menguji pencarian informasi sistem, dan menciptakan repositori data bagi para peneliti untuk
digunakan dalam mengembangkan dibandingkan standar. Organisasi memegang sebuah forum
pertemuan setiap September di Eropa. Sebelum setiap forum, peserta menerima
satu set tugas tantangan. Tugas ini dirancang untuk menguji berbagai aspek
sistem pencarian informasi dan mendorong perkembangan mereka. Kelompok peneliti
mengusulkan dan mengatur kampanye untuk memenuhi tugas-tugas. Hasilnya
digunakan sebagai tolok ukur untuk keadaan seni di daerah-daerah
tertentu. Sebagai contoh, tahun 2010 tugas pengambilan medis berfokus pada
retrival dari computed tomography, MRI, dan gambar radiografi.
1.3.2 Inisiatif CLEF
Inisiatif CLEF (Konferensi dan Labs dari Forum Evaluasi,
sebelumnya dikenal sebagai Cross-Language Forum Evaluasi) adalah lembaga
self-organized misi utamanya adalah untuk mempromosikan penelitian, inovasi,
dan pengembangan sistem akses informasi dengan penekanan pada multibahasa dan
multimodal informasi dengan berbagai tingkat struktur.
CLEF mempromosikan penelitian dan pengembangan dengan menyediakan infrastruktur untuk:
CLEF mempromosikan penelitian dan pengembangan dengan menyediakan infrastruktur untuk:
a. multibahasa dan pengujian sistem
multimodal, tuning dan evaluasi.
b.penyelidikan penggunaan terstruktur, semi-terstruktur, yang sangat terstruktur, dan data semantik diperkaya dengan akses informasi.
b.penyelidikan penggunaan terstruktur, semi-terstruktur, yang sangat terstruktur, dan data semantik diperkaya dengan akses informasi.
c. penciptaan koleksi tes dapat digunakan kembali
untuk pembandingan.
d. eksplorasi metodologi evaluasi baru dan
cara-cara inovatif untuk menggunakan data
eksperimen.
e.
pembahasan hasil, perbandingan pendekatan,
pertukaran ide, dan transfer pengetahuan.
1.3.3
Inisiatif CLEF disusun dalam dua bagian utama:
a. serangkaian
Evaluasi Labs, laboratorium yaitu untuk melakukan evaluasi sistem akses
informasi dan lokakarya untuk membahas dan kegiatan percontohan evaluasi yang
inovatif.
b. Konferensi peer-review pada
berbagai isu, termasuk :
- melanjutkan penyelidikan kegiatan Labs Evaluasi;
- percobaan menggunakan data multibahasa dan multimodal, khususnya, tetapi tidak hanya, data yang dihasilkan dari kegiatan CLEF;
- penelitian dalam metodologi evaluasi dan tantangan.
Sejak tahun 2000 CLEF telah memainkan peran
utama dalam penyelidikan merangsang dan penelitian di berbagai bidang utama
dalam domain pencarian informasi, menjadi terkenal di masyarakat IR
internasional. Hal ini juga mempromosikan studi dan implementasi metodologi
evaluasi yang tepat untuk beragam jenis tugas dan media. Selama bertahun-tahun,
komunitas riset yang luas, kuat, dan multidisiplin telah dibangun, yang
meliputi dan mencakup berbagai bidang keahlian yang dibutuhkan untuk menangani
penyebaran kegiatan CLEF.
Hasilnya tradisional disajikan dan dibahas
pada lokakarya tahunan dalam hubungannya dengan Konferensi Eropa untuk Perpustakaan
Digital (ECDL), sekarang disebut Teori dan Praktek di Perpustakaan Digital
(TPDL).
Sejak 2010, CLEF telah mengambil bentuk suatu
peristiwa independen, dibentuk oleh sebuah konferensi peer-review
diselenggarakan dengan satu set laboratorium evaluasi.
1.3.4 Cross-Bahasa Evaluasi Forum
CLEF mendorong penelitian dalam pencarian informasi multibahasa dan lintas-bahasa untuk bahasa-bahasa Eropa dengan menciptakan sebuah forum terbuka untuk pertukaran ide penelitian. CLEF menyediakan corpus tes bahasa untuk evaluasi sistem pencarian informasi, yang terdiri atas:
a. koran dan Newswire data di Belanda, Inggris, Perancis, Jerman, Italia dan Spanyol.
b. Bahasa alami laporan kebutuhan pengguna informasi (query).
c. relevansi penilaian (yang "jawaban yang baik").
Partisipasi terbuka untuk akademisi dan
industri. Untuk berpartisipasi dalam evaluasi, silakan kunjungi homepage CLEF Resmi .
Durasi dan Pendanaan: CLEF didanai sebagian oleh Komisi Eropa. Proyek ini dimulai pada bulan Januari 2000 dan akan berakhir pada bulan Desember 2003.
1.3.4 Contoh kasus clef
· XML, Client-Side and Server Side Activity
XML
HTML pada dasarnya adalah suatu sistem notasi
dengan mana dokumen teks bersama dengan penampilan dokumen dapat dikodekan
sebagai file teks sederhana. Dengan cara yang sama kita juga dapat dikodekan
materi nontextual sebagai file teks contoh yang lembaran musik. Sepintas pola
staf, bar mengukur, dan mencatat di mana musik tradisional diwakili tidak sesuai
dengan karakter dengan format karakter ditentukan oleh file teks. Namun, kita
dapat mengatasi masalah ini dengan mengembangkan sistem notasi alternatif.
Lebih tepatnya, kita bisa setuju untuk mewakili awal staf dengan <staff clef = “treble”>,
akhir staf melalui </staf>,
tanda tangan waktu dengan bentuk <time>
2 / 4 <time>, awal dan akhir dari ukuran dengan <measure> dan </ measure>, masing-masing,
seperti catatan catatan kedelapan pada C sebagai <notes> egth C </ notes>, dll. Kemudian
teks :
<staff clef = “treble”> <key> C minor </ key>
<time> 2 / 4 </ time>
<measure> <rest> egth </ notes> </measure>
<measure> <notes> HLF E </notes>
</measure>
</Staf>
dapat digunakan untuk mengkodekan musik. Menggunakan notasi seperti ini, lembaran musik dapat dikodekan, dimodifikasi, disimpan, dan ditransfer melalui internet sebagai file teks. Selain itu, perangkat lunak bisa ditulis untuk menyajikan isi dari file tersebut dalam bentuk lembaran musik tradisional atau bahkan untuk bermain musik di synthesizer.
Perhatikan bahwa lembaran musik kami sistem pengkodean meliputi gaya yang sama digunakan oleh HTML. Kami memilih melukiskan tag yang mengidentifikasi komponen oleh <and> simbol. Kami memilih untuk menunjukkan awal dan akhir struktur (seperti staf, string catatan, atau mengukur) dengan tag dari nama yang sama berakhir tag yang ditunjuk oleh lampu kilat (<measure> seorang diakhiri dengan tag </measure>). Dan kami memilih untuk menunjukkan atribut khusus dalam tag dengan pernyataan seperti clef = “treble”. Gaya yang sama juga dapat digunakan untuk mengembangkan sistem untuk mewakili format lain seperti ekspresi matematis dan grafis.
dapat digunakan untuk mengkodekan musik. Menggunakan notasi seperti ini, lembaran musik dapat dikodekan, dimodifikasi, disimpan, dan ditransfer melalui internet sebagai file teks. Selain itu, perangkat lunak bisa ditulis untuk menyajikan isi dari file tersebut dalam bentuk lembaran musik tradisional atau bahkan untuk bermain musik di synthesizer.
Perhatikan bahwa lembaran musik kami sistem pengkodean meliputi gaya yang sama digunakan oleh HTML. Kami memilih melukiskan tag yang mengidentifikasi komponen oleh <and> simbol. Kami memilih untuk menunjukkan awal dan akhir struktur (seperti staf, string catatan, atau mengukur) dengan tag dari nama yang sama berakhir tag yang ditunjuk oleh lampu kilat (<measure> seorang diakhiri dengan tag </measure>). Dan kami memilih untuk menunjukkan atribut khusus dalam tag dengan pernyataan seperti clef = “treble”. Gaya yang sama juga dapat digunakan untuk mengembangkan sistem untuk mewakili format lain seperti ekspresi matematis dan grafis.
EXtensilbe Markup Language (XML)
adalah gaya standar (mirip dengan contoh musik kami) untuk merancang sistem
notasi untuk mewakili data sebagai file teks. (Sebenarnya, XML merupakan
turunan disederhanakan dari serangkaian standar yang lebih tua disebut Standard
Generalized Markup Language , lebih dikenal sebagai SGML.) Mengikuti standar
XML, sistem notasi yang disebut bahasa markup telah dikembangkan untuk mewakili
matematika, presentasi multimedia, dan musik. Bahkan, HTML adalah bahasa markup
berdasarkan standar XML yang dikembangkan untuk mewakili halaman Web.
(Sebenarnya, versi asli dari HTML dikembangkan sebelum standar XML dipadatkan,
dan karene itu beberapa fitur dari HTML tidak ketat sesuai dengan XML. Itulah
mengapa Anda mungkin akan melihat refrence ke XHTML, yang merupakan versi HTML
yang ketat melekat ke XML ).
XML
menyediakan contoh yang baik tentang bagaimana standar ini dirancang untuk
memiliki aplikasi yang luas mulai. Daripada merancang individu, bahasa merkup
berhubungan untuk pengkodean berbagai jenis dokumen, pendekatan diwakili oleh
XML adalah mengembangkan standar untuk bahasa markup pada umumnya. Dengan
bahasa markup yang
dalam keseragaman Prossess
cara yang memungkinkan mereka untuk dikombinasikan untuk mendapatkan markup
aplikasi untuk bahasa kompleks seperti dokumen teks yang berisi segmen lembaran
musik dan ekspresi matematika.
Akhirnya kita harus mencatat bahwa XML
memungkinkan pengembangan bahasa markup baru berbeda dari HTML dalam arti kata
bahwa mereka menekankan ketimbang penampilan. Sebagai contoh, dengan HTML
bahan dalam resep dapat ditandai, sehingga mereka muncul sebagai daftar di mana
setiap bahan diposisikan pada baris terpisah. Tetapi jika kita menggunakan
tag semantik berorientasi, bahan-bahan dalam resep dapat ditandai sebagai bahan
(mungkin menggunakan tag <ingredients>
dan </ingredients>)
bukan sekedar item dalam daftar. Perbedaannya adalah halus namun
penting. Pendekatan sematic akan memungkinkan mesin pencari untuk
mengidentifikasi resep yang mengandung atau tidak mengandung bahan tertentu,
yang akan menjadi perbaikan besar atas keadaan saat ini seni. Lebih tepat, jika
arti kata tag yang digunakan, mesin pencari dapat mengidentifikasi resep untuk
lasagna yang tidak mengandung bayam, sedangkan pencarian serupa hanya
didasarkan pada isi kata-kata akan melewatkan resep yang dimulai dengan
pernyataan, lasagne ini tidak mengandung bayam, pada gilirannya dengan
menggunakan standar internet lebar untuk menandai dokumen. menurut semantik
ketimbang penampilan , World Wide Semantic Web, daripada World Wide
Syntatic Web kita Hari ini, akan diciptakan.