Senin, 19 November 2012

tugas 2 IR kelas A)


Trec, Reuters, clef
1.      TREC
Definisi Trec
Konferensi Retrieval Text (Trec) adalah suatu peristiwa di mana organisasi dengan minat dalam penelitian pencarian informasi mengambil bagian dalam serangkaian terkoordinasi percobaan dengan menggunakan data eksperimen yang sama. The goal of the conference series is to create the infrastructure necessary for large-scale evaluation of research retrieval systems and thereby foster research into effective techniques for information access. Tujuan dari seri konferensi  adalah untuk menciptakan infrastruktur yang di perlukan untuk skala evaluasi system temu penelitian dan dengan demikian mendorong penelitian ke dalam teknik yang efektif untuk akses informasi.
Pada tahun 1992, Departemen Pertahanan AS bersama dengan institute Nasional standar dan Teknologi ( NIST ),  mensposori konferensi text Retrieval ( Trec ) sebagai bagian dari program text TIPSTER. Tujuan dari ini adalah untuk melihat ke dalam pencarian informasi masyarakat dengan menyediakan infrastruktur yang dibutuhkan untuk evaluasi metedologi pencarian teks pada koleksi text yang sangat besar.
Dengan desain, Trec secara eksplisit bukan tempat untuk tes produk komersial (yaitu, perbandingan benchmark). A valid, informative vendor test requires a level of control in task definition and system execution that is counter to the scientific research goals of TREC.
Sebuahtes, vendor berlaku informative membutuhkan tingkat control dalam definisi tugas dan pelaksanaan sistem yang bertentangan dengan tujuan penelitian ilmiah Trec. Insofar as TREC participants do the same task, the results from different participating teams are comparable, but interpretation of what those results actually represent may vary widely. Sejauh peserta Trec melakukan tugas yang sama, hasil dari tim peserta yang berbeda sebanding, namun interpretasi apa hasil tersebut benar-benar mewakili mungkin bervariasi. For example, commercial participants may submit results from research prototype systems rather than their production system, or participants may deliberately degrade one aspect of their system to focus on another aspect. Misalnya, peserta komersial dapat menyerahkan hasil dari system prototy  penelitian dari pada system produksi mereka, atau  peserta sengaja dapat menurunkan salah satu aspek dari system mereka untuk focus pada aspek lain.
Untuk melestarikan, diinginkan pra-kompetitif sifat konferensiTrec, Trec mengharuskan semua peserta untuk menandatangani dan mematuhi kesepakatan mengenai diseminasi dan publikasi hasil evaluasi Trec . The guidelines embodied in the agreement are meant to preclude the publication of incomplete or inaccurate information that could damage the reputation of the conference or its participants. Pedoman yang terkandung dalam perjanjian yang dimaksudkan untuk menghalangi publikasi informasi yang tidak lengkap atau tidak akurat yang dapat merusak reputasi konferensi atau peserta. In particular, the agreement prohibits any advertising based on TREC results and sharply curtails the use of TREC results in marketing literature. Secara khusus, perjanjian tersebut melarang setiap iklan berdasarkan hasil Trec dan tajam curtails penggunaan hasil Trec dalam literature pemasaran.
Pengambilan Teks Konferensi (Trec) adalah sebuah serial yang sedang berlangsung lokakarya berfokus pada daftar yang berbeda pencarian informasi (IR) daerah penelitian, atau trek.Ini adalah co-disponsori oleh Institut Nasional Standar dan Teknologi (NIST) dan Intelijen Advanced Research Projects Activity (bagian dari kantor Direktur Intelijen Nasional ), dan mulai tahun 1992 sebagai bagian dari Program Text TIPSTER . Tujuannya adalah untuk mendukung dan mendorong penelitian dalam komunitas pencarian informasi dengan menyediakan infrastruktur  yang diperlukan untuk skala evaluasi pencarian teks metodologi dan untuk meningkatkan kecepatan lab-to-produk transfer teknologi .
Setiap lagu memiliki tantangan dimana NIST menyediakan kelompok peserta dengan set data dan masalah uji. Tergantung pada jalur, masalah tes mungkin pertanyaan, topik, atau target diekstrakfitur .Scoring Uniform dilakukan sehingga system dapat cukup dievaluasi. Setelah evaluasi hasil, lokakarya menyediakan tempat bagi peserta untuk mengumpulkan bersama-sama pikiran dan ide-ide dan mempresentasikan hasil kerja penelitian saat ini dan masadepan.
Kekurangannya dari trec :
Penekanan pada ingat yang tinggi, yang mungkin tidak realistis untuk apa kebanyakan pengguna ingin sangat panjang query, juga tidak realistis perbandingan masih sulit untuk membuat, karena sistem yang cukup berbeda pada banyak dimensi focus pada peringkat batch dari padai nteraksi
2.      Reuters
Reuters  merupakan sebuah kantor berita yang bermarkas di London, Inggris. Perusahaan ini di dirikan tahun 1851. Saingan utamanya adalah Bloomberg L.P. dan Dow Jones Newswires. Kini menjadi sponsor utama di tim WilliamsF1. Reuters merupakan sebuah koperasi yang dimiliki oleh perusahaan surat kabar yang menyumbangnya dari stasiun-stasiun penyiar di Britania Raya, yang keduanya menyumbangkan berita dan menggunakan material yang ditulis oleh para  stafnya.
3.      CLEF
Inisiatif CLEF (Konferensidan Labs dari Forum Evaluasi, sebelumnya dikenal  sebagai Cross-Language Forum Evaluasi) adalah lembaga self-organized misi utamanya adalah untuk mempromosikan penelitian, inovasi, dan pengembangan system akses informasi dengan penekanan pada  multi bahasa dan multi modal informasi dengan berbagai tingkat struktur.
CLEF, adalah sebuah organisasi yang mempromosikan penelitian di multi bahas akses informasi (saat ini berfokus pada bahasa-bahasa Eropa ). Fungsi khusus adalah untuk mempertahankan kerangka dasar untuk menguji pencarian informasi sistem, dan menciptakan repositori data bagi para peneliti untuk digunakan dalam mengembangkan di bandingkan standar .Organisasi memegang sebuah forum pertemuan setiap September di Eropa. Sebelum setiap forum, peserta menerima satu set tugas tantangan. Tugas ini dirancang untuk menguji berbagai aspek system pencarian informasi dan mendorong perkembangan mereka. Kelompok peneliti mengusulkan dan mengatur kampanye untuk memenuhi tugas-tugas. Hasilnya di gunakan ebagai tolok ukur untuk keadaan seni di daerah-daerah tertentu.
Sejak tahun  2000 CLEF telah memainkan peran utama dalam penyelidikan merangsang   dan penelitian di berbagai bidang utama dalam domain pencarian informasi, menjadi terkenal di masyarakat IR internasional. Hal ini juga mempromosikan satu di implementasi metodologi evaluasi yang tepat untuk beragam jenis tugas dan media. Selama bertahun-tahun, komunitas riset yang luas, kuat, dan multi disiplin telah di bangun, yang meliputi dan mencakup berbagai bidang keahlian yang dibutuhkan untuk menangani penyebaran kegiatan CLEF.
Sejak 2010, CLEF telah mengambil bentuk suatu peristiwa independen, di bentuk oleh sebuah konferensi peer-review di selenggarakan dengan satu set laboratorium evaluasi.
CLEF mendorong penelitian dalam pencarian informasi multi bahasa dan lintas-bahasa untuk bahasa-bahasa Eropa dengan menciptakan sebuah forum terbuka untuk pertukaran ide penelitian. CLEF menyediakan corpus tes bahasa untuk evaluasi system pencarian informasi, yang terdiri atas:
Koran dan Newswire data di Belanda, Inggris, Perancis, Jerman, Italia danSpanyol;
Bahasa alami laporan kebutuhan pengguna informasi (query);
Relevansi penilaian (yang "jawaban yang baik").

Jumat, 19 Oktober 2012

tugas IR



NAMA  : LUSI DHESI SUSANTI
NIM      : 10011845
KELAS   : A

DOKUMEN 1
Tokenisasi
Case
folding
Filtering
Stop-Word
Removal
Steeming
Tips
tips
tips
tips
tips
Sehat
sehat
sehat
sehat
sehat
meningkatkan
meningkatkan
meningkatkan
meningkatkan
ningkat
Berat
berat
berat
berat
berat
Badan
badan
badan
badan
badan
Alami
alami
alami
alami
alami
Memiliki
memiliki
memiliki
memiliki
milik
Didambakan
didambakan
didambakan
didambakan
damba
Setiap
setiap
setiap
orang
orang
Orang
orang
orang
solusi
solusi
Solusi
solusi
solusi
di internet
internet
Banyak
banyak
banyak
malas
malas
di-internet
di-internet
di internet
dilakukan
laku
Kadang
kadang
kadang


Malas
malas
malas


Dilakukan
dilakukan
dilakukan



DOKUMEN 2
Tokenisasi
Case
folding
Filtering
Stop-Word
Removal
Steeming
Sebenarnya,
Sebenarnya,
Sebenarnya
penyebab
penyebab
Penyebab
penyebab
penyebab
berat
berat
Berat
berat
berat
terjadi
jadi
Badan
badan
badan
pola
pola
Bisa
bisa
bisa
makan
makan
Terjadi
terjadi
terjadi
kurang
kurang
Karena
karena
karena
baik
baik
pola
pola
pola
berpengaruh
pengaruh
Makan
makan
makan
unsur
unsur
Kurang
kurang
kurang
genetika
genetika
Baik
baik
baik
kurus
kurus
Juga
juga
juga
kekurangan
kurang
berpengaruh
berpengaruh
berpengaruh
membuat
buat
Unsur
unsur
unsur
langsing
langsing
Genetika
genetika
genetika
ibarat
ibarat
Kurus
kurus
kurus
tulang
tulang
Kekurangan
kekurangan
kekurangan
maaf
maaf
Membuat
membuat
membuat


Tubuh
tubuh
tubuh


Terasa
terasa
terasa


Langsing
langsing
langsing


Ibarat
ibarat
ibarat


Tinggal
tinggal
tinggal


Tulang
tulang
tulang


(maaf)
(maaf)
maaf



DOKUMEN 3
Tokenisasi
Case
folding
Filtering
Stop-Word
Removal
Steeming
Kekurangan
kekurangan
kekurangan
kekurangan
kurang
berat
berat
berat
berat
pede
Badan
badan
badan
badan
sama
Membuat
membuat
membuat
kurang
teman
Terasa
terasa
terasa
pede
sebelum
Kurang
kurang
kurang
bersama
ideal
Pede
pede
pede
teman
silah
Tidak
tidak
tidak
sebelumnya
cek
Nyaman
nyaman
nyaman
idealkah

Bersama
bersama
bersama
silahkan

teman-
teman
teman-
teman
teman
teman
cek

Sebelumnya
sebelumnya
sebelumnya


Idealkah
idealkah
idealkah


Kamu
kamu
kamu


Silahkan
silahkan
silahkan


Cek
cek
cek


Disini
disini
disini



DOKUMEN 4
Tokenisasi
Case
folding
Filtering
Stop-Word
Removal
Steeming
Nah,
nah,
nah
sekarang
sekarang
sekarang
sekarang
sekarang
fokus
fokus
fokus
fokus
fokus
terlihat
lihat
untuk
untuk
untuk
ideal
ideal
terlihat
terlihat
terlihat
penampilan
nampil
ideal
ideal
ideal
bertambah
tambah
dalam
dalam
dalam
olahraga
olahraga
penampilan
penampilan
penampilan
makan
makan
Jika
jika
jika
teratur
atur
ingin
ingin
ingin


bertambah
bertambah
bertambah


olahraga
olahraga
olahraga


dan
dan
dan


makan
makan
makan


teratur
teratur
teratur




INCIDENCE INDEX

INVERTED


OVERLAP


KESIMPULAN:
Setelah melakukan text processing  dan weighting maka di simpulkan dokumen yang paling relevan adalah dokumen yang ke dua.