Powered By Blogger

Sabtu, 17 November 2012

Tugas Informasi Retrieval 2



1.   PEMBAHASAN
1.1 Standard test collection Trec
1.1.1 Pengertian
Pengambilan Teks Konferensi (Trec) adalah sebuah serial yang sedang berlangsung lokakarya berfokus pada daftar yang berbeda pencarian informasi (IR) daerah penelitian, atau trek. Ini adalah co-disponsori oleh Institut Nasional Standar dan Teknologi (NIST) dan Intelijen Advanced Research Projects Activity (bagian dari kantor Direktur Intelijen Nasional ), dan mulai tahun 1992 sebagai bagian dari Program Text TIPSTER . Tujuannya adalah untuk mendukung dan mendorong penelitian dalam komunitas pencarian informasi dengan menyediakan infrastruktur yang diperlukan untuk skala evaluasi pencarian teks metodologi dan untuk meningkatkan kecepatan lab-to-produk transfer teknologi .
Setiap lagu memiliki tantangan dimana NIST menyediakan kelompok peserta dengan set data dan masalah uji. Tergantung pada jalur, masalah tes mungkin pertanyaan, topik, atau target diekstrak fitur . Scoring Uniform dilakukan sehingga sistem dapat cukup dievaluasi. Setelah evaluasi hasil, lokakarya menyediakan tempat bagi peserta untuk mengumpulkan bersama-sama pikiran dan ide-ide dan mempresentasikan hasil kerja penelitian saat ini dan masa depan.

1.1.2  Tracks Lancar

Trek baru ditambahkan sebagai kebutuhan penelitian baru diidentifikasi, daftar ini adalah saat Trec 2011.
1. Kimia Track, Tujuan: untuk mengembangkan dan mengevaluasi teknologi untuk pencarian skala besar di bidang kimia yang berhubungan dengan dokumen, termasuk surat-surat akademik dan paten, untuk lebih memenuhi kebutuhan pencari profesional, dan khususnya pencari paten dan ahli kimia.
2. Crowdsourcing Track , Tujuan: untuk menyediakan tempat kolaboratif untuk menjelajahi crowdsourcing metode baik untuk mengevaluasi pencarian dan untuk melakukan tugas pencarian. Baru untuk 2011.
3. Entitas Track, Tujuan: untuk melakukan entitas terkait pencarian data Web. Tugas pencarian ini (seperti menemukan entitas dan sifat entitas) memenuhi kebutuhan informasi umum yang tidak baik dimodelkan sebagai pencarian hoc dokumen iklan.
4. Jalur Hukum, Tujuan: untuk mengembangkan teknologi pencarian yang memenuhi kebutuhan pengacara untuk terlibat dalam efektif penemuan dalam koleksi dokumen digital.
5. Rekam Medis Track, Tujuan: untuk mengeksplorasi metode untuk mencari informasi terstruktur ditemukan dalam catatan medis pasien. Baru untuk 2011.
6. Microblog Track,  Tujuan: untuk mengeksplorasi informasi perilaku pencarian mikroblog . Baru untuk 2011.
7. Sesi Track, Tujuan: untuk mengembangkan metode untuk mengukur beberapa permintaan-sesi di mana informasi yang dibutuhkan melayang atau mendapatkan lebih atau kurang spesifik selama sesi.
8. Web Track, Tujuan: untuk mengeksplorasi mencari informasi perilaku umum dalam pencarian web umum.

1.1.3        trek lalu

1.   Jalur Genomics, Tujuan: untuk mempelajari pengambilan genom data, bukan hanya urutan gen tapi dokumentasi juga mendukung seperti makalah penelitian, laporan laboratorium, dll terakhir berlari pada Trec 2007.
2.   Perusahaan Jalur ,  Tujuan: untuk mempelajari pencarian atas data dari sebuah   organisasi untuk menyelesaikan beberapa tugas. Terakhir berlari pada Trec 2008.
3.   Cross-Bahasa Track,  Tujuan: untuk menyelidiki kemampuan sistem pengambilan untuk menemukan dokumen topikal terlepas dari bahasa sumber.
4.   Penyaringan Track, Tujuan: untuk binarily memutuskan pengambilan dokumen masuk baru diberi stabil kebutuhan informasi .
5.   Jalur KERAS, Tujuan: untuk mencapai Retrieval Akurasi Tinggi dari Dokumen dengan memanfaatkan informasi tambahan tentang si pencari dan / atau konteks pencarian.
6.    Jalur Interaktif, Tujuan: untuk mempelajari pengguna berinteraksi dengan sistem pencarian teks.
7.   Novelty Track, Tujuan: untuk menyelidiki kemampuan sistem 'untuk mencari informasi baru (yaitu, non-berlebihan).
8.   Pertanyaan Menjawab Track, Tujuan: untuk mencapai lebih pencarian informasi dari sekedar pengambilan dokumen dengan menjawab pertanyaan Factoid, daftar dan definisi gaya.
9.   Jalur Retrieval Kuat, Tujuan: untuk fokus pada efektivitas topik individu.
10.  Relevansi Feedback Track, Tujuan: untuk evaluasi mendalam lebih lanjut dari proses umpan balik relevansi.
11.   Spam Track, Tujuan: untuk memberikan evaluasi standar saat ini dan yang diusulkan penyaringan spam pendekatan.
12.   Terabyte Track, Tujuan: untuk menyelidiki apakah / bagaimana IR masyarakat dapat skala tradisional IR uji-koleksi berbasis evaluasi terhadap koleksi signifikan besar.
13.   Video Track, Tujuan: untuk penelitian di segmentasi otomatis, pengindeksan , dan konten berbasis pengambilan video digital .

Acara Terkait  : Pada tahun 1997, seorang rekan Jepang Trec diluncurkan (workshop pertama tahun 1999), disebut NTCIR ( NII Uji Koleksi untuk IR Systems), dan pada tahun 2000, seorang rekan Eropa diluncurkan, disebut CLEF (Cross Bahasa Forum Evaluasi).

1.1.4 Kontribusi Konferensi

Trec mengklaim bahwa dalam enam tahun pertama lokakarya, efektivitas sistem pengambilan sekitar dua kali lipat. Konferensi ini juga yang pertama untuk menahan skala besar evaluasi non-Inggris dokumen, pidato, video dan pengambilan di seluruh bahasa. Selain itu, tantangan telah menginspirasi tubuh besar publikasi . Teknologi pertama kali dikembangkan di Trec sekarang termasuk dalam banyak komersial di dunia mesin pencari . Sebuah laporan independen oleh RTII menemukan bahwa "sekitar sepertiga dari perbaikan dalam mesin pencari web 1999-2009 disebabkan Trec Mereka perangkat tambahan kemungkinan disimpan hingga 3 miliar jam waktu menggunakan mesin pencari web. Selain itu, Laporan menunjukkan bahwa untuk setiap $ 1 yang NIST dan mitranya diinvestasikan dalam Trec, setidaknya $ 3,35 ke $ 5,07 manfaat yang diterima oleh peneliti AS pengambilan informasi baik di sektor swasta dan akademisi ".
Sementara satu studi menunjukkan bahwa keadaan seni untuk pencarian "ad-hoc" belum maju secara substansial dalam dekade terakhir, [4] itu merujuk hanya untuk mencari topikal dokumen yang relevan dalam berita kecil dan koleksi web dari beberapa gigabyte. Ada kemajuan dalam jenis lain ad-hoc pencarian dalam dekade terakhir. Misalnya, koleksi uji diciptakan untuk diketahui-item pencarian web yang ditemukan perbaikan dari penggunaan jangkar teks, pembobotan judul dan panjang url, yang tidak teknik yang berguna pada ad-hoc koleksi tua tes. Pada tahun 2009, koleksi web baru miliar-halaman diperkenalkan, dan spam filtering ditemukan menjadi teknik yang berguna untuk ad-hoc pencarian web, tidak seperti di masa lalu koleksi uji.
Koleksi Tes dikembangkan di Trec berguna tidak hanya untuk (berpotensi) membantu peneliti memajukan keadaan seni, tetapi juga untuk memungkinkan pengembang baru (komersial) produk pengambilan untuk mengevaluasi efektivitas mereka pada tes standar. Dalam dekade terakhir, Trec telah menciptakan tes baru untuk perusahaan e-mail, pencarian genomik, penyaringan spam, e-Discovery, dan beberapa domain pengambilan lainnya.
Sistem Trec sering memberikan dasar untuk penelitian lebih lanjut. Contoh meliputi:
1.       Hal Varian , kepala ekonom di Google, mengatakan data yang lebih baik membuat untuk ilmu pengetahuan yang lebih baik. Sejarah pencarian informasi menggambarkan prinsip ini dengan baik, "dan menggambarkan kontribusi Trec itu.
  1. Track Hukum Trec telah mempengaruhi komunitas e-Discovery baik dalam penelitian dan evaluasi vendor komersial.
  2. The IBM tim peneliti bangunan IBM Watson (alias DeepQA ), yang baru-baru mengalahkan terbaik di dunia Jeopardy! pemain, menggunakan data dan sistem dari Jalur QA Trec sebagai pengukuran kinerja dasar.
1.1.5 Standar tes koleksi
Teks Retrieval Konferensi (Trec). AS Institut Nasional Standar dan Teknologi (NIST) telah menjalankan serangkaian tes besar IR tidur evaluasi sejak tahun 1992. Dalam kerangka ini, ada trek selama bertahun berbagai koleksi uji beda, tetapi koleksi terbaik pengujian diketahui adalah yang digunakan untuk melacak Trec Ad Hoc selama 8 evaluasi pertama  Trec antara tahun 1992 dan 1999. Secara total, ini koleksi pengujian terdiri dari 6 CD yang mengandung 1,89 juta dokumen (terutama, tetapi tidak eksklusif, newswire artikel) dan penilaian relevansi untuk 450 kebutuhan informasi, yang disebut topik dan ditetapkan dalam bagian teks rinci. Koleksi uji individu didefinisikan lebih himpunan bagian yang berbeda dari data ini. Para TRECs awal setiap terdiri dari 50 kebutuhan informasi, dievaluasi lebih set berbeda tetapi tumpang tindih dokumen. TRECs 6-8 menyediakan 150 kebutuhan informasi selama sekitar 528,000 Newswire dan artikel Informasi Broadcast Dinas Luar Negeri. Ini mungkin adalah subcollection terbaik untuk digunakan dalam pekerjaan di masa depan, karena itu adalah terbesar dan topik yang lebih konsisten. Karena koleksi pengujian dokumen yang begitu besar, tidak ada penilaian relevansi lengkap. Sebaliknya, penilaian relevansi NIST asesor hanya tersedia untuk dokumen yang berada di antara top kembali untuk beberapa sistem yang masuk dalam evaluasi Trec yang kebutuhan informasi dikembangkan.
Dalam tahun-tahun terakhir, NIST telah melakukan evaluasi pada koleksi dokumen yang lebih besar, termasuk halaman 25 juta GOV2 web koleksi halaman. Sejak awal, koleksi uji dokumen NIST adalah lipat lebih besar daripada apa yang tersedia untuk peneliti sebelumnya dan GOV2 sekarang koleksi Web terbesar mudah tersedia untuk tujuan penelitian. Namun demikian, ukuran GOV2 masih lebih dari 2 lipat lebih kecil dari ukuran saat ini koleksi dokumen yang diindeks oleh perusahaan pencarian web yang besar.
NII Uji Koleksi untuk Sistem IR ( NTCIR). Proyek NTCIR telah membangun koleksi pengujian berbagai ukuran mirip dengan koleksi Trec, fokus pada bahasa Asia Timur dan lintas bahasa pencarian informasi, di mana permintaan yang dibuat dalam satu bahasa selama koleksi dokumen yang berisi dokumen dalam satu atau lebih bahasa lainnya.
1.1.6 Contoh kasus
a. Document representaive unt text categorization
Untuk text categorization, bagaimana kumpulan fitur yang ideal?
Umumnya dokumen teks dalam sebuah kelas, ada bagian dokumen yang terkait dengan kelas dan bagian dokumen yang tidak terkait (noise). Hanya sebagian dari dokumen yang terkait dengan kelas, biasanya kita tidak mengidentifkasikan sebuah dokumen dari keseluruhan isi dokumen. Artinya, misalkan bagian yang tidak terkait itu dihapus, tetap tidak memperngaruhi, dokumen itu  tetap masuk ke dalam kelas itu.

Ini seperti halnya retrieval namun bagian dokumen yang terkait dengan teks.

Misalkan label kelas dianggap sebagai query, kita mencari di semua dokumen training positif, paragraf-paragraf mana yang terkait dengan kelas. Fitur-fitur untuk dokumen itu mestinya berasal bagian-bagian itu. Sebuah dokumen teks, misalnya artikel berita, bisa terdapat beberapa topik. Seperti pada kasus dataset TREC RCV1, tidak sedikit berita yang memberitakan hal yang serupa namun ada topik tambahan yang berbeda.Dan topik tambahan itu yang "kebetulan" menjadi dasar untuk masuk salah satu kategori kelas tertentu.

Sehingga tantangannya adalah bagaimana secara otomatis mengidentifikasikan bagian2 itu.Identifikasi bisa dilakukan dengan atau tanpa bantuan class label. Jika dengan 

Tantangan kedua, jenis fitur. Umumnya jenis fitur yg dipakai adalah kata. Logikanya, diperlukan lebih baik mebawa/mengandung makna semantic.

b. Learning from positive only
Kasus kategorisasi positive-negative, dengan hanya tersedia dokumen2 positive di training.

Gabriel Pui Cheong Fung,
Jeffrey Xu Yu, Hongjun Lu, Philip S. Yu: Text Classification without Negative Examples Revisit. IEEE Trans. Knowl. Data Eng. 18(1): 6-20 (2006)

Disini tersedia training postive documents, dan banyak unlabeled documents. Unt kasus spt ini, pada kebanyakan tulisan lain dari unlabeled dilakukan prediksi mana yang negatif. Lalu dari positif dan negatif dibuat classfication model. Pada tulisan ini, bukan hanya memprediksi negatif, tetapi juga yang positif  (sbg tambahan training positif yg memang sdh ada dilabel manusia) untuk melakukan "training normal".
1.2  Standard test collection Reuters Corpus

1.2.1 Pengertian
Reuters (LSE: RTR and NASDAQ: RTRSY) merupakan sebuah kantor berita yang bermarkas di London, Inggris. Perusahaan ini didirikan tahun 1851. Saingan utamanya adalah Bloomberg L.P. dan Dow Jones Newswires. Kini menjadi sponsor utama di tim WilliamsF1. Reuters merupakan sebuah koperasi yang dimiliki oleh perusahaan surat kabar yang menyumbangnya dari stasiun-stasiun penyiar di Britania Raya, yang keduanya menyumbangkan berita dan menggunakan material yang ditulis oleh para stafnya.
Pada 17 April 2008, Thomson Company membeli Reuters dan Reuterspun berganti nama menjadi Thomson Reuters.
Thomson Reuters adalah sebuah perusahaan informasi yang dibentuk melalui pembelian Reuters oleh Thomson Corporation pada 17 April 2008. Saham Thomson Reuters terdaftar di Bursa Saham Toronto (TSX: TRI) dan Bursa Saham New York (NYSE: TRI). Thomson Reuters berkantor pusat di Midtown Manhattan, New York City, USA. The Woodbridge Company, sebuah perusahaan holding untuk keluarga Thomson di Kanada memegang 53% saham grup ini, yang beroperasi di 100 negara dan memiliki lebih dari 55.000 karyawan. Thomson Reuters menjadi "merek korporat terdepan" di Kanada pada daftar Interbrand Best Canadian Brands 2010.
Pada tahun 2000 Reuters merilis sebuah korpus cerita Berita Reuters untuk digunakan dalam penelitian dan pengembangan alami bahasa pengolahan, pencarian informasi-mesin atau sistem pembelajaran.
Reuters berhenti mendistribusikan corpus pada tahun 2004. Sebaliknya, korpus Reuters sekarang tersedia dari NIST, Institut Nasional Ilmu Pengetahuan dan Teknologi. Formulir pendaftaran dapat diperoleh di Reuters Corpus @ NIST .
1.2.2  Penamaan Dan Versi Skema
1.            The Corpus Reuters dibagi menjadi beberapa volume.
2.            Setiap volume diidentifikasi oleh sejumlah volume dan deskripsi, misalnya           Reuters Corpus Volume 1 (Bahasa Inggris, 1996/08/20 untuk 1997/08/19).
3.            Jika perubahan format berlangsung dan volume yang diterbitkan kembali maka nomor versi format akan bertambah. Versi format integer yang ditetapkan pada satu untuk volume baru.
4.            Jika perubahan konten terjadi dan volume yang diterbitkan kembali maka jumlah level koreksi akan bertambah. Tingkat koreksi integer yang ditetapkan pada nol untuk volume baru.
5.            Tingkat koreksi dan versi format yang independen dan tidak ada yang pernah ulang untuk setiap volume tertentu.
6.            Volume masing-masing memiliki tanggal rilis yang berkaitan dengan isi total volume yang.
Jika ada volume satu memerlukan beberapa CD (atau media lainnya) maka CD masing-masing akan membawa identifikasi volume yang sama, deskripsi, versi format, tingkat koreksi dan tanggal rilis dan CD masing-masing set akan dibedakan dengan predikat sebagai "Disk x dari y" .

            1.2.3 Reuters Corpora (RCV1, RCV2, TRC2)

Pada tahun 2000, Reuters Ltd tersedia koleksi besar cerita Berita Reuters untuk digunakan dalam penelitian dan pengembangan pengolahan bahasa alami, pencarian informasi, dan sistem pembelajaran mesin. Ini corpus, yang dikenal sebagai "Reuters Corpus, Volume 1" atau RCV1, secara signifikan lebih besar dari koleksi, tua terkenal-21.578 Reuters banyak digunakan dalam komunitas klasifikasi teks.
Pada musim gugur tahun 2004, NIST mengambil alih distribusi RCV1 dan setiap masa Reuters Corpora. Anda sekarang bisa mendapatkan dataset dengan mengirimkan permintaan kepada NIST dan dengan menandatangani perjanjian bawah.

Apa yang tersedia ?

RCV1
 : Reuters Corpus, Volume 1, bahasa Inggris, 1996/08/20 untuk 1997/08/19 (Tanggal     rilis 2000/11/03, Format versi 1, koreksi tingkat 0). Ini didistribusikan pada dua CD dan berisi sekitar 810.000 Reuters, cerita Bahasa Berita Inggris. Hal ini membutuhkan sekitar 2,5 GB untuk penyimpanan file terkompresi.
RCV2
 : Reuters Corpus, Volume 2, Corpus multibahasa, 1996/08/20 untuk 1997/08/19    (Tanggal rilis 2005/05/31, Format versi 1, koreksi tingkat 0). Ini didistribusikan pada satu CD dan berisi lebih dari 487.000 cerita Berita Reuters di tiga belas bahasa (Belanda, Perancis, Jerman, Portugis Cina, Jepang, Rusia,, Spanyol, Amerika Latin Spanyol, Italia, Denmark, Norwegia, dan Swedia). Cerita-cerita TIDAK PARALEL, namun ditulis oleh wartawan lokal di setiap bahasa. Cerita-cerita yang sejaman dengan RCV1, tetapi beberapa bahasa tidak mencakup seluruh waktu.
    TRC2
: Thomson Reuters Teks Penelitian Collection (TRC2). Korpus TRC2 terdiri berita 1.800.370 untuk periode 2008-01-01 0:00:03 sampai 2009-02-28 23:54:14 2871075221 atau byte, dan pada awalnya dibuat tersedia untuk peserta jalur blog 2009 di Teks Retrieval Konferensi (Trec), untuk melengkapi corpus BLOGS08 (yang berisi hasil dari sebuah blog yang besar merangkak dilakukan di University of Glasgow). TRC2 didistribusikan melalui download web.
Cerita-cerita di Corpus Reuters berada di bawah hak cipta dari Reuters Ltd dan / atau Thomson Reuters, dan penggunaannya diatur oleh perjanjian berikut:
a.   Organisasi Perjanjian: Perjanjian ini harus ditandatangani oleh orang yang bertanggung jawab untuk data di organisasi Anda, dan dikirim ke NIST.
b.   Individu kesepakatan: Perjanjian ini harus ditandatangani oleh semua peneliti menggunakan Corpus Reuters di organisasi Anda, dan disimpan dalam file di organisasi Anda.
1.3 standard test collection clef
1.3.1 Pengertian
Salib-Bahasa Evaluasi Forum, atau CLEF, adalah klasifikasi teks, koleksi uji yang paling digunakan telah menjadi Reuters-21.578 koleksi 21.578 artikel Newswire, lihat Bab 13 , halaman 13.6 . Baru-baru ini, Reuters merilis Volume Reuters jauh lebih besar Corpus 1 (RCV1), yang terdiri dari 806.791 dokumen, lihat Bab 4 , halaman 4.2 . Penjelasan yang skala dan kaya membuat dasar yang lebih baik untuk penelitian
Sebuah organisasi yang mempromosikan penelitian di multibahasa akses informasi (saat ini berfokus pada bahasa-bahasa Eropa ). Fungsi khusus adalah untuk mempertahankan kerangka dasar untuk menguji pencarian informasi sistem, dan menciptakan repositori data bagi para peneliti untuk digunakan dalam mengembangkan dibandingkan standar. Organisasi memegang sebuah forum pertemuan setiap September di Eropa. Sebelum setiap forum, peserta menerima satu set tugas tantangan. Tugas ini dirancang untuk menguji berbagai aspek sistem pencarian informasi dan mendorong perkembangan mereka. Kelompok peneliti mengusulkan dan mengatur kampanye untuk memenuhi tugas-tugas. Hasilnya digunakan sebagai tolok ukur untuk keadaan seni di daerah-daerah tertentu. Sebagai contoh, tahun 2010 tugas pengambilan medis berfokus pada retrival dari computed tomography, MRI, dan gambar radiografi.
1.3.2 Inisiatif CLEF
Inisiatif CLEF (Konferensi dan Labs dari Forum Evaluasi, sebelumnya dikenal sebagai Cross-Language Forum Evaluasi) adalah lembaga self-organized misi utamanya adalah untuk mempromosikan penelitian, inovasi, dan pengembangan sistem akses informasi dengan penekanan pada multibahasa dan multimodal informasi dengan berbagai tingkat struktur. CLEF mempromosikan penelitian dan pengembangan dengan menyediakan infrastruktur untuk :
a.         multibahasa dan pengujian sistem multimodal, tuning dan evaluasi.
b.         penyelidikan penggunaan terstruktur, semi-terstruktur, yang sangat terstruktur, dan data semantik diperkaya dengan akses informasi.
c.           penciptaan koleksi tes dapat digunakan kembali untuk pembandingan.
d.         eksplorasi metodologi evaluasi baru dan cara-cara inovatif untuk menggunakan data   eksperimen.
e.         pembahasan hasil, perbandingan pendekatan, pertukaran ide, dan transfer   pengetahuan.
1.3.3     Inisiatif CLEF disusun dalam dua bagian utama:

a. serangkaian Evaluasi Labs, laboratorium yaitu untuk melakukan evaluasi sistem akses informasi dan lokakarya untuk membahas dan kegiatan percontohan evaluasi yang inovatif.
b. Konferensi peer-review pada berbagai isu, termasuk :
Ø  melanjutkan penyelidikan kegiatan Labs Evaluasi;
Ø  percobaan menggunakan data multibahasa dan multimodal, khususnya, tetapi tidak hanya, data yang dihasilkan dari kegiatan CLEF;
Ø  penelitian dalam metodologi evaluasi dan tantangan.
Sejak tahun 2000 CLEF telah memainkan peran utama dalam penyelidikan merangsang dan penelitian di berbagai bidang utama dalam domain pencarian informasi, menjadi terkenal di masyarakat IR internasional. Hal ini juga mempromosikan studi dan implementasi metodologi evaluasi yang tepat untuk beragam jenis tugas dan media. Selama bertahun-tahun, komunitas riset yang luas, kuat, dan multidisiplin telah dibangun, yang meliputi dan mencakup berbagai bidang keahlian yang dibutuhkan untuk menangani penyebaran kegiatan CLEF.
Hasilnya tradisional disajikan dan dibahas pada lokakarya tahunan dalam hubungannya dengan Konferensi Eropa untuk Perpustakaan Digital (ECDL), sekarang disebut Teori dan Praktek di Perpustakaan Digital (TPDL).
Sejak 2010, CLEF telah mengambil bentuk suatu peristiwa independen, dibentuk oleh sebuah konferensi peer-review diselenggarakan dengan satu set laboratorium evaluasi.

1.3.4        Cross-Bahasa Evaluasi Forum

CLEF mendorong penelitian dalam pencarian informasi multibahasa dan lintas-bahasa untuk bahasa-bahasa Eropa dengan menciptakan sebuah forum terbuka untuk pertukaran ide penelitian. CLEF menyediakan corpus tes bahasa untuk evaluasi sistem pencarian informasi, yang terdiri atas:

a. koran dan Newswire data di Belanda, Inggris, Perancis, Jerman, Italia dan Spanyol.

b.   Bahasa alami laporan kebutuhan pengguna informasi (query).

c.  relevansi penilaian (yang "jawaban yang baik").

Partisipasi terbuka untuk akademisi dan industri. Untuk berpartisipasi dalam evaluasi, silakan kunjungi homepage CLEF Resmi .

Durasi dan Pendanaan: CLEF didanai sebagian oleh Komisi Eropa. Proyek ini dimulai pada bulan Januari 2000 dan akan berakhir pada bulan Desember 2003.


1.3.4  Contoh kasus clef

Ø  XML, Client-Side and Server Side Activity

XML
HTML pada dasarnya adalah suatu sistem notasi dengan mana dokumen teks bersama dengan penampilan dokumen dapat dikodekan sebagai file teks sederhana. Dengan cara yang sama kita juga dapat dikodekan materi nontextual sebagai file teks contoh yang lembaran musik. Sepintas pola staf, bar mengukur, dan mencatat di mana musik tradisional diwakili tidak sesuai dengan karakter dengan format karakter ditentukan oleh file teks. Namun, kita dapat mengatasi masalah ini dengan mengembangkan sistem notasi alternatif. Lebih tepatnya, kita bisa setuju untuk mewakili awal staf dengan <staff clef = “treble”>, akhir staf melalui </staf>, tanda tangan waktu dengan bentuk <time> 2 / 4 <time>, awal dan akhir dari ukuran dengan <measure> dan </ measure>, masing-masing, seperti catatan catatan kedelapan pada C sebagai <notes> egth C </ notes>, dll. Kemudian teks :
<staff clef = “treble”> <key> C minor </ key>
<time> 2 / 4 </ time>
<measure> <rest> egth </ notes> </measure>
<measure> <notes> HLF E </notes> </measure>
</Staf>
dapat digunakan untuk mengkodekan musik. Menggunakan notasi seperti ini, lembaran musik dapat dikodekan, dimodifikasi, disimpan, dan ditransfer melalui internet sebagai file teks. Selain itu, perangkat lunak bisa ditulis untuk menyajikan isi dari file tersebut dalam bentuk lembaran musik tradisional atau bahkan untuk bermain musik di synthesizer.
Perhatikan bahwa lembaran musik kami sistem pengkodean meliputi gaya yang sama digunakan oleh HTML. Kami memilih melukiskan tag yang mengidentifikasi komponen oleh
<and> simbol. Kami memilih untuk menunjukkan awal dan akhir struktur (seperti staf, string catatan, atau mengukur) dengan tag dari nama yang sama berakhir tag yang ditunjuk oleh lampu kilat (<measure> seorang diakhiri dengan tag </measure>). Dan kami memilih untuk menunjukkan atribut khusus dalam tag dengan pernyataan seperti clef = “treble”. Gaya yang sama juga dapat digunakan untuk mengembangkan sistem untuk mewakili format lain seperti ekspresi matematis dan grafis.
EXtensilbe Markup Language (XML) adalah gaya standar (mirip dengan contoh musik kami) untuk merancang sistem notasi untuk mewakili data sebagai file teks. (Sebenarnya, XML merupakan turunan disederhanakan dari serangkaian standar yang lebih tua disebut Standard Generalized Markup Language , lebih dikenal sebagai SGML.) Mengikuti standar XML, sistem notasi yang disebut bahasa markup telah dikembangkan untuk mewakili matematika, presentasi multimedia, dan musik. Bahkan, HTML adalah bahasa markup berdasarkan standar XML yang dikembangkan untuk mewakili halaman Web. (Sebenarnya, versi asli dari HTML dikembangkan sebelum standar XML dipadatkan, dan karene itu beberapa fitur dari HTML tidak ketat sesuai dengan XML. Itulah mengapa Anda mungkin akan melihat refrence ke XHTML, yang merupakan versi HTML yang ketat melekat ke XML ).
XML menyediakan contoh yang baik tentang bagaimana standar ini dirancang untuk memiliki aplikasi yang luas mulai. Daripada merancang individu, bahasa merkup berhubungan untuk pengkodean berbagai jenis dokumen, pendekatan diwakili oleh XML adalah mengembangkan standar untuk bahasa markup pada umumnya. Dengan bahasa markup standar dapat dikembangkan untuk berbagai aplikasi. Bahasa Markup yang dikembangkan dalam keseragaman Prossess cara yang memungkinkan mereka untuk dikombinasikan untuk mendapatkan markup aplikasi untuk bahasa kompleks seperti dokumen teks yang berisi segmen lembaran musik dan ekspresi matematika.
Akhirnya kita harus mencatat bahwa XML memungkinkan pengembangan bahasa markup baru berbeda dari HTML dalam arti kata bahwa mereka menekankan ketimbang penampilan. Sebagai contoh, dengan HTML bahan dalam resep dapat ditandai, sehingga mereka muncul sebagai daftar di mana setiap bahan diposisikan pada baris terpisah. Tetapi jika kita menggunakan tag semantik berorientasi, bahan-bahan dalam resep dapat ditandai sebagai bahan (mungkin menggunakan tag <ingredients> dan </ingredients>) bukan sekedar item dalam daftar. Perbedaannya adalah halus namun penting. Pendekatan sematic akan memungkinkan mesin pencari untuk mengidentifikasi resep yang mengandung atau tidak mengandung bahan tertentu, yang akan menjadi perbaikan besar atas keadaan saat ini seni. Lebih tepat, jika arti kata tag yang digunakan, mesin pencari dapat mengidentifikasi resep untuk lasagna yang tidak mengandung bayam, sedangkan pencarian serupa hanya didasarkan pada isi kata-kata akan melewatkan resep yang dimulai dengan pernyataan, lasagne ini tidak mengandung bayam, pada gilirannya dengan menggunakan standar internet lebar untuk menandai dokumen. menurut semantik ketimbang penampilan , World Wide Semantic Web, daripada World Wide Syntatic Web kita Hari ini, akan diciptakan.

 





 


Tidak ada komentar:

Posting Komentar