Mesin Pencari Web
Mesin pencari web atau mesin telusur web (bahasa Inggris: web search
engine) adalah program komputer yang dirancang untuk melakukan pencarian
atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi
milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen
dalam suatu jaringan. Mesin pencari merupakan perangkat penelusur
informasi dari dokumen-dokumen yang tersedia. Hasil pencarian umumnya
ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut
tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut
sebagai hits. Informasi yang menjadi target pencarian bisa terdapat
dalam berbagai macam jenis berkas seperti halaman situs web, gambar,
ataupun jenis-jenis berkas lainnya. Beberapa mesin pencari juga
diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam
suatu basis data ataupun direktori web. Sebagian besar mesin pencari
dijalankan oleh perusahaan swasta yang menggunakan algoritma kepemilikan
dan basis data tertutup, di antaranya yang paling populer adalah safari
Google (MSN Search dan Yahoo!). Telah ada beberapa upaya menciptakan
mesin pencari dengan sumber terbuka (open source), contohnya adalah
Htdig, Nutch, Egothor dan OpenFTS
Saat awal perkembangan internet, Tim Berners-Lee membuat sebuah situs web yang berisikan daftar situs web yang ada di internet melalui peladen web CERN. Sejarah yang mencatat sejak tahun 1992 masih ada hingga kini. Dengan semakin banyaknya situs web yang aktif membuat daftar ini tidak lagi memungkinkan untuk dikelola oleh manusia. Utilitas pencari yang pertama kali digunakan untuk melakukan pencarian di internet adalah Archie yang berasal dari kata “archive” tanpa menggunakan huruf “v”. Archie dibuat tahun 1990 oleh Alan Emtage,
Bill Heelan dan J. Peter Deutsch, saat itu adalah mahasiswa ilmu komputer Universitas McGill, Amerika Serikat. Cara kerja program tersebut adalah mengunduh daftar direktori serta berkas yang terdapat pada layanan ftp publik (anonim) kemudian memuatnya ke dalam basisdata yang memungkinkan pencarian.
Mesin pencari lainnya seperti Aliweb, muncul di 1993 dan masih berjalan hingga saat ini. Salah satu mesin pencari pertama yang sekarang berkembang menjadi usaha komersial yang cukup besar adalah Lycos, yang dimulai di Carnegie Mellon University sebagai proyek riset pada tahun 1994.
Segera setelah itu, banyak mesin pencari yang bermunculan dan bersaing memperebutkan popularitas. Termasuk di antaranya adalah safari web browsing yang aman dan untuk publik. Masing-masing bersaing dengan menambahkan layakan-layanan tambahan seperti yang dilakukan oleh Yahoo.
Tahun 2002 Yahoo! mengakuisisi Inktomi, setahun kemudian mengakuisisi AlltheWeb dan Altavista kemudian meluncurkan mesin pencari sendiri yang didasarkan pada teknologi gabungan dari mesin-mesin pencari yang telah diakuisisinya serta memberikan layanan yang mengutamakan pencarian Web daripada layanan-layanan lainnya.
Di bulan desember 2003, Orase menerbitkan versi pertama dari teknologi pencari waktu-riilnya. Mesin ini memiliki banyak fungsi baru dan tingkat unjuk kerja yang jauh lebih baik.
Mesin pencari juga dikenal sebagai target investasi internet yang terjadi pada akhir tahun 1990-an. Beberapa perusahaan mesin pencari yang masuk ke dalam pasar saham diketahui mencatat keuntungan besar. Sebagian lagi sama sekali menonaktifkan layanan mesin pencari, dan hanya memasarkannya pada edisi-edisi enterprise saja, contoh Northern Light sebelumnya diketahui merupakan salah satu perintis layanan mesin pencari di internet.
Buku Osmar R. Zaïane From Resource Discovery to Knowledge Discovery on the Internet menjelaskan secara rinci sejarah teknologi mesin pencari sebelum munculnya Google. Mesin-mesin pencari lainnya mencakup a9.com, AlltheWeb, Ask Jeeves, Clusty, Gigablast, Teoma, Wisenut, GoHook, Kartoo, dan Vivisimo.
Saat tingginya persaingan antar mesin pencari yang ada, namun mesin pencari lain tidak mampu menghentikan kesuksesan Google. Setelah Yahoo mampu pada posisi puncak di sekitar tahun 2000, Google mampu menerobos liga besar tersebut. sehingga Google dipandang sebagai mesin pencari yang utama seperti yang kita ketahui pada hari ini.
Pada tahun 2001, mesin pencari Google berkembang besar. Keberhasilan ini didasarkan pada bagian konsep dasar dari link popularity dan PageRank. Setiap halaman diurutkan berdasarkan seberapa banyak situs yang terkait, dari sebuah premis bahwa situs yang diinginkan pasti lebih banyak terhubung daripada yang lain. Rangking situs (The PageRank)dari sebuah link halaman dan jumlah link dari halaman-halaman tersebut merupakan masukan bagi Rangking situs yang bersangkutan. Hal ini memungkinkan bagi Google untuk mengurutkan hasilnya berdasarkan seberapa banyak halaman situs yang menuju ke halaman yang ditemukannya. User interface Google sangat disukai oleh pengguna, dan hal ini berkembang ke para pesaingnya.
Search engine (mesin pencari/pelacak/penelusur) adalah salah satu program komputer yang dirancang khusus untuk membantu seseorang menemukan file-file yang disimpan dalam komputer, misalnya dalam sebuah web server umum di web (www) atau komputer sendiri. Mesin pencari memungkinkan kita untuk meminta content media dengan kriteria yang spesifik (biasanya berisikan frase atau kata yang kita inginkan) dan memperoleh daftar file yang memenuhi kriteria tersebut.
Manfaat
Mesin pencari merupakan tempat kebanyakan orang mencari sesuatu via internet. Menurut survei hampir 90% pengguna internet memakai mesin pencari untuk mencari lokasi tertentu di internet. dan di antara mesin pencari yang ada, google merupakan mesin pencari yang paling banyak digunakan.
Sebagian besar pengguna mesin pencari tidak pernah melewatkan dua halaman pertama dari mesin pencari.
Sebagian besar (hampir 70%) pengguna mesin pencari tidak pernah klik pada hasil pencarian sponsor. Dengan demikian, hasil pencarian yang organik (secara alami) akan membuat suatu website memperoleh posisi strategis dalam dunia internet.
Di negara-negara maju, porsi penjualan yang dilakukan melalui internet sudah hampir mencapai 20% dari keseluruhan transaksi tahunan.
Sebuah informasi yang mudah di akses oleh semua orang baik dalam maupun luar negeri.
Memudahkan Masyarakat dalam mencari informasi di internet
Search engine terdiri atas lima komponen, yaitu:
1. Query Interface
Query interface adalah komponen penting pertama yang merupakan bentuk tampilan atau format situs yang menyediakan fasilitas searching engine. Bentuk yang paling sederhana adalah tersedianya sebuah kotak kosong di situs dimana user dapat menuliskan data atau informasi yang ingin dicari (lihat situs Yahoo.com atau Altavista.com). Yang harus diketahui oleh user adalah bahwa tidak semua situs memiliki kemampuan yang sama dalam membantu user untuk mengekspresikan jenis data atau informasi yang ingin dicari. Dalam bahasa komputer cara mengekspresikan ini disebut sebagai query. Contohnya adalah seseorang yang ingin mencari data atau informasi mengenai hal-hal yang berkaitan dengan kesehatan ibu dan anak, dapat menggunakan query semacam: “kesehatan” and “ibu” and “anak”.
2. Query Engine
Komponen kedua adalah Query Engine, merupakan sebuah program yang bertugas untuk menterjemahkan keinginan user ke dalam bahasa yang dimengerti oleh mesin komputer. Secara teknis, perusahaan-perusahaan penyedia searching engine berlomba-lomba membuat query engine yang baik sehingga selain tepat dalam mengekspresikan keinginan user, dapat pula melakukan tugas pencarian secara cepat.
3. Database
Database pada dasarnya merupakan kumpulan atau daftar dari dokumen maupun arsip dari seluruh situs yang ada di internet. Semakin besar skala internet, akan semakin besar pula kapasitas penyimpan yang dibutuhkan.
4. Spider
Spider merupakan komponen terpenting dalam sebuah searching engine. Secara berkala dan kontinyu, spider akan mendata setiap situs yang ada di internet, baik yang baru maupun yang lama. Terhadap masing-masing situs, selain alamatnya, akan diambil kata-kata kunci dari arsip maupun dokumen yang ditemukan. Katakanlah dari situs Bidanku.com akan diambil setiap kata pada kalimat judul artikel, disinilah sebenarnya persaingan antara situs terjadi, yaitu strategi dan teknik apa yang dipergunakan dalam melakukan sampling terhadap kata-kata yang akan menjadi kunci dalam pencarian arsip dan dokumen.
5. Indexer
Indexer merupakan sebuah program untuk mempercepat proses pencarian. Filosofi yang dipergunakan mirip dengan prinsip penggunaan indeks pada kamus atau buku-buku. Perang antar situs pun terjadi di sini, karena teknik melakukan indeks akan sangat berpengaruh terhadap kecepatan pencarian data atau informasi. Biasanya yang terjadi di sini adalah adu algoritma (alur logika sebuah program) antar para programmer yang direkrut oleh masing-masing perusahaan.
Berdasarkan cara mengumpulkan data halaman-halaman web, mesin pencari dapat di kelompokkan menjadi 4 kategori :
1.Human Organized Search Engine
Mesin pencari yang dikelola sepenuhnya oleh tangan manusia. Mesin pencari ini menggunakan metode dengan memilah-milih informasi yang relevan dan dikelompokan sedemikian rupa sehingga lebih bermakna dan bermanfaaat bagi penggunannya. Situs ini dalam prakteknya memperkerjakan para pakar dalam bidang-bidang tertentu, kemudian para pakar tersebut dapat mengkelompokan situs-situs tertentu sesuai dengan bidangnnya atau kategori situs itu sendiri.
2.Computer Created Search Engine
Search engine kategori ini banyak memiliki kelebihan karena banyak menyajikan inforrmasi walaupun kadang-kadang ada beberapa informasi yang tidak relevan tidak seperti yang kita inginkan. Search engine ini telah menggunakan software laba-laba atau spider software yang berfungsi menyusup pada situs-situs tertentu, kemudian mengumpulkan data serta mengelompokan dengan sedikit bantuan tangan manusia.
3.Hybrid Seacrh Engine
Merupakan gabungan antara tangan manusia dengan computer, sehingga menghasilkan hasil pencarian yang relative akurat. Peran manusia dalam hal ini adalah sebagai penelaah dalam proses pengkoleksian database halaman web. Sebenarnya tipe ini lah yang paling mudah pembuatannya karena dapat didesain sesuai dengan keinginan kita.
4.MetaCrawler/Metasearch
Merupakan perantara dari mesin pencari yang sebenarnya. Mesin ini hanya akan mengirimkan permintaan pencarian ke berbagai mesin pencari serta menampilkan hasilnya satu di layer browser sehingga akan menampilkan banyak sekali hasil dari ber bagai mesin pencari yang ada.
Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halamanweb, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler — browser web otomatis yang mengikuti setiap pranala/link yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara indeks-nya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya. Sebagian mesin pencari, seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi tentang halaman web itu sendiri.
Selain halaman web, Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya, serta informasi tentang seseorang, suatu produk, layanan, dan informasi beragam lainnya yang semakin terus berkembang sesuai dengan perkembangan teknologi informasi.
Ketika seseorang mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya, biasanya disertai ringkasan singkat mengenai judul dokumen dan kadang-kadang sebagian teksnya.
Ada jenis mesin pencari lain: mesin pencari real-time. Mesin seperti ini tidak menggunakan indeks. Informasi yang diperlukan mesin tersebut hanya dikumpulkan jika ada pencarian baru. Jika dibandingkan dengan sistem berbasis indeks yang digunakan mesin-mesin seperti Google, sistem real-time ini unggul dalam beberapa hal: informasi selalu mutakhir, (hampir) tak ada pranala mati,
dan lebih sedikit sumber daya sistem yang diperlukan. (Google menggunakan hampir 100.000 komputer, Orase hanya satu.) Tetapi, ada juga kelemahannya: pencarian lebih lama rampungnya.
Manfaat mesin pencari bergantung pada relevansi hasil-hasil yang diberikannya. Meskipun mungkin ada jutaan halaman web yang mengandung suatu kata atau frasa, sebagian halaman mungkin lebih relevan, populer, atau autoritatif daripada yang lain. Kebanyakan mesin pencari menggunakan berbagai metode untuk menentukan peringkat hasil pencarian agar mampu memberikan hasil “terbaik” lebih dahulu. Cara mesin menentukan halaman mana yang paling sesuai, dan urutan halaman-halaman itu diperlihatkan, sangat bervariasi. Metode-metode nya juga berubah seiring waktu dengan berubahnya penggunaan internet dan berevolusinya teknik-teknik baru.
Sebagian besar mesin pencari web adalah usaha komersial yang didukung pemasukan iklan dan karenanya sebagian menjalankan praktik kontroversial, yaitu membolehkan pengiklan membayar agar halaman mereka diberi peringkat lebih tinggi dalam hasil pencarian.
Pentingnya mesin pencari optimasi
Salah satu alasan yang menyebabkan diperlukan mesin pencari optimasi adalah karena ada banyak World Wide Web Wanderer yang sudah ada, dan akan terus bertambah di setiap bulannya.
Sebagai Contoh, seseorang mempunyai World Wide Web Wanderer untuk menjual produk pertanian maka di Indonesia akan ada puluhan atau ratusan Website sejenis. Sementara itu, jika ingin melihat segmen dunia maka akan lebih banyak lagi jumlahnya. Untuk itu, dengan menempatkan posisi di tingkat ada dalam hasil pencarian maka akan membuat website pengguna tersebut ibarat toko strategis yang terletak di tepi jalan besar. Dengan SEO yang bagus maka kemungkinan website anda dikunjungi oleh orang lain akan lebih besar.
Dengan Kaidah SEO yang bagus, website menggunakan lebih jelas atau keluhan sehingga akan lebih diperhatikan oleh mesin pencari. itulah inti dari SEO, yaitu untuk membuat website anda diperhatikan oleh mesin pencari.
Pencarian Proses
Melakukan pencarian dokumen yang dimuat pada suatu situs bisa begitu mudah dan kelihatannya mungkin sulit juga. apalagi mengingat begitu menyebarnya informasi di mana-mana, bahkan University of Calofornia menyebutkan saat ini telah terdapat lebih dari 50 miliar halaman web di internet, meskipun tidak ada ada satupun yang benar-benar tahu jumlah persisnya. Kesulitan yang mungkin terjadi adalah karena WWW tersebut tidak terdata dalam bentuk yang terstandardisasi isinya. tidak sama halnya dengan katalog yang ada di perpustakaan, yang memiliki standardisasi secara mendunia berdasarkan subjek dari judul buku, meskipun jumlahnya juga tidak sedikit.
Dalam pencarian di web, pengguna selalu memperkirakan kata apa yang di kira-kira terdapat pada halaman yang ingin anda temukan. atau kira-kira apa subjek yang dipilih oleh seseorang untuk mengelola halaman situs yang mereka kelola, topik apa saja kira-kira yang di bahas.
Jika pengguna melakukan apa yang dikenal dengan pencarian pada halaman web, sebenarnya tidaklah melakukan pencarian. tidak mungkin melakukan pencarian di WWW secara langsung.
Pada web benar-benar terdiri dari banyak sekali halaman web yang ingin disimpan dari berbagai server diseluruh dunia. Komputer pengguna tidak langsung melakukan pencarian kepada seluruh komputer tersebut secara langsung.
Apa yang mungkin pengguna lakukan hanyalah melalui komputer untuk mengakses satu atau lebih perantara yang disebut dengan alat bantu pencarian yang ada saat ini. Melakukan pencarian pada alat bantu itu tadi ke database yang dimiliki. database tersebut mengkoleksi situs-situs yang ditemukan dan simpan.
alat bantu pencarian ini menyediakan hasil pencarian dalam bentuk hypertext link dengan URL menuju halaman lainnya. ketika anda klik link ini, dan menuju ke alamat tersebut maka dokumen, gambar, suara dan banyak lagi bentuk lainnya yang ada pada server tersebut disediakan, sesuai dengan informasi yang terdapat di dalamnya. layanan ini bisa menjangkau ke manapun di seluruh dunia.
Tidak mungkin seseorang untuk melakukan pencarian ke seluruh komputer yang terhubung internet ini, atau bahkan alat bantu pencarian yang mengklaim bahwa melakukannya, tidak benar.
Saat ini, tiga bentuk dari alat bantu pencarian ini. Menggunakan strategi yang berbeda untuk memanfaatkan kemampuan potensial dari masing-masing nya, yaitu
Mesin Pencari dan Mesin Pencari-meta
Karakteristik:
- Menyimpan data dalam bentuk teks penuh pada halaman yang terpilih,
- Pencarian berdasarkan kata kunci, mereka mencoba mencocokkan dengan tepat kata kunci tersebut dengan teks yang ada dalam dokumen,
- Tidak perlu dilakukan browsing, dan tidak ada subjek dari kategori,
- Database dijaring dan dikumpulkan oleh spidr, yaitu komputer yang memiliki program robot, dengan kemampuan seminimal mungkin dari pandangan atau sentuhan manusia,
- Ukuran search engine:dari skala kecil hingga mampu menyimpan sangat banyak (sekitar hingga 20 miliar halaman web).
Karakteristik :
- Seleksi dari situs yang ada merupakan seleksi langsung yang dilakukan oleh manusia, kadang kala para ahli untuk subjek tertentu,
- Sering dengan hati-hati dievaluasi dan menjaga keterbaruan informasi yang mereka miliki, namun tidak selalu, kadang-kadang tidak, terutama untuk mereka yang telah memiliki data yang banyak dan bersifat general,
- Biasanya dikelola dalam bentuk subjek dan direktori yang tersusun secara hierarki,
- Sering dilengkapi dengan catatan mengenai deskripsinya ( tidak untuk Yahoo),
- Subjek dapat di-browse subjek dan kategorinya atau melakukan pencarian berdasarkan kata-kata tertentu,
- Dokumen yang tidak penuh teks. pencarian diminta lebih spesifik dibandingkan dengan pencarian melalui mesin pencari, karena kata kunci tidak bisa dibandingkan dengan isi dari halaman suatu situs, melainkan hanya pada subjek, kategori-kategori, dan deskripsi.
Specialized Database
Karakteristik :
- Merupakan web yang menyediakan akses melalui suatu kotak pencarian ke dalam isi database pada sebuah komputer di suatu tempat,
- Dapat saja berubah berbagai topik, dapat pula juga hal yang komersial, pekerjaan yang spesifik, pemerintahan, dll
- Juga terdiri dari banyak halaman yang menghasilkan hasil pencarian dari katalog direktori online.
- Google ( http://www.google.com/ )
- Microsoft ( http://www.bing.com/ )
- Yahoo ( http://www.yahoo.com/ )
- Open Directory ( http://www.dmoz.com/ )
- MSN ( http://www.msn.com/ )
- Live ( http://www.live.com )
- Altavista ( http://www.altavista.com )
- AOL ( http://www.aol.com )
- Altheweb ( http://www.althweb.com )
- Baidu ( http://www.baidu.com )
- Looksmart ( http://www.looksmart.com )
- Solusee ( http://www.solusee.com )
- Mesin pencari vertikal mobil.cari.co ( http://mobil.cari.co )
Secara umum, jenis pencarian pada mesin pencarian/website ada dua yaitu: Basic Search dan Advanced Search. Basic Search adalah fitur pencarian yang sudah biasa kita gunakan yaitu ketika mengakses langsung, missal pada google.com. Sedangkan Advanced Search menyediakan berbagai pilihan fitur pencarian baik untuk operator dasar, file format yang ingin kita cari, bahasa, region, dsb.
Sebenarnya masih sangat banyak fitur pencarian yang bisa kita gunakan, tapi tidak terdapat di menu pilihan Advanced Search. Dengan kata lain kita harus memasukannya query di form pencarian di Basic Search langsung. Di bawah ini akan disajikan permainan query dan operator pencarian.
Fitur Pencarian Dasar
FRASE: Mencari informasi yang mengandung frase yang dicari dengan menggunakan tanda “”. Contoh: “kesehatan reproduksi”
INFO: Menampilkan informasi yang Google ketahui tentang sebuah situs. Contoh: info:oshigita.wordpress.com
SITE: Menampilkan pencarian khusus di suatu situs yang ditunjuk. Contoh: java site:bidanku.com
Boolean Logic
Boolean logic adalah suatu pencarian pelacakan yang menyatakan tentang hubungan antara variabel yang dicari dengan variabel terkait. Boolean logic juga merupakan identifikasi spesifik tentang artikel yang akan dicari. Boolean logic dikembangkan oleh George Boole (1815-1864), adalah suatu metode pencarian informasi, yang memfokuskan hasil penelusuran dimana pencarian datanya menggunakan kata kunci.
Boolean logic terdiri dari operasi logika AND, OR dan NOT. Pada fitur pencarian Google, operasi ini merupakan bagian dari fitur pencarian dasar. Penggunaan operasi logika ini dapat memudahkan user dalam mendapatkan informasi yang diinginkan. Boolean logic merupakan operasi logika yang digunakan untuk mendapatkan informasi di PubMed (NCBI).
AND: Mencari informasi yang mengandung kedua kata yang dicari. Bisa menggunakan salah satu dari tiga alternatif berikut. Contoh: kehamilan gemelli , kehamilan AND gemeli, kehamilan+gemelli
OR: Mencari informasi yang mengandung salah satu dari kedua kata. Bisa menggunakan salah satu dari dua alternatif berikut. Contoh: kembar OR gemelli, kembar | gemelli
NOT: Hasil pencarian mengandung kata yang di depan, tapi tidak yang dibelakang minus (-). Contoh di bawah akan mencari informasi yang mengandung kata kontrasepsi tapi bukan suntik. Contoh: kontrasepsi –suntik.
Pencarian yang kita lakukan akan semakin efektif apabila kita mencoba menggabungkan beberapa operator baik yang ada di fitur pencarian dasar, pencarian lanjut, maupun Boolean logic. Misalnya, kita ingin mencari file PDF tentang kehamilan ektopik (ectopic pregnancy) yang ada di situs http://www.ncbi.nlm.nih.gov. Maka kita gabungkan tiga operator menjadi; Contoh: ectopic AND pregnancy filetype:pdf site:www.ncbi.nlm.nih.gov.
1. Kecepatan dan kemudahan dalam mencari
2. lebih canggih dengan fitur yang dimilikinya
3. Tampilan yang sederhana
Google merupakan satu-satunya mesin pencari yang memilki cach. Dengan adanya cache ini, si pencari dapat menghemat waktu pencarian, karena hasil pencarian yang akan ditampilkan.
Kekurangan: Dengan kelebihan yang dimilikinya, ternyata mesin pencari ini jadi bidikan para spamer untuk menampilkan iklan-iklan yang tidak diperlukan. Mereka memanfaatkan setiap celah yang ada pada sistem algoritma Google untuk memaksa iklan mereka tampil pada halaman terdepan. Maka, pencarian pun terasa tergangggu.
EmoticonEmoticon