Mengambil dan Mengarsipkan Informasi dari Situs Web

Mengambil dan Mengarsipkan Informasi dari Situs Web post thumbnail image

Mengambil dan Mengarsipkan Informasi dari Situs Web – Terkadang, ketika Anda ingin memverifikasi informasi online, Anda akhirnya akan mengikuti jejak yang mengarah ke tautan rusak atau ke situs web yang tidak lagi tersedia.

Mengambil dan Mengarsipkan Informasi dari Situs Web

inarchive – Di lain waktu, Anda akan menemukan situs web dengan informasi penting yang dapat menambah nilai bagus pada sebuah cerita, tetapi Anda tidak akan menyadari nilainya sampai nanti.

Melansir exposingtheinvisible, Saat Anda mengunjungi kembali situs web tersebut untuk mendokumentasikannya, Anda mungkin menemukan bahwa itu tidak ada lagi, bahwa halaman web tertentu yang Anda ingat telah dihapus atau bahwa informasi yang Anda butuhkan tidak lagi dapat diakses dan telah diganti dengan konten baru.

Baca juga : 3 Situs Terbaik Untuk Digunakan Untuk Mengarsipkan Halaman Web

Anda kemungkinan akan menghadapi semua tantangan ini di beberapa titik selama penyelidikan Anda.

Bagaimana jika ada cara untuk kembali ke masa lalu dan mendapatkan salinan halaman web itu, atau bahkan sebagian, sebelum diubah atau dihapus?

Untungnya, ada beberapa cara mudah untuk mendapatkan kembali konten lama dan halaman yang dihapus sehingga Anda masih dapat merujuknya dalam penyelidikan Anda. Anda juga dapat menyimpan halaman yang saat ini dapat diakses sehingga Anda dapat menggunakannya nanti, meskipun halaman tersebut diubah atau dihapus untuk sementara waktu.

Ada beberapa layanan yang secara otomatis mengarsipkan versi situs web sebelumnya. Selain konten, arsip digital ini sering berisi informasi yang dapat membantu Anda mengidentifikasi data penting lainnya seperti pemilik situs web, nama yang berguna, detail kontak, dokumen, dan tautan ke situs lain. Beberapa layanan ini memungkinkan Anda untuk berkontribusi pada daftar situs web yang mereka arsipkan dengan menyimpan halaman web secara manual pada waktu yang Anda pilih. Anda (dan orang lain) kemudian dapat mengambil snapshot dari situs web tersebut nanti.

Lebih penting lagi, beberapa konten lama dapat diakses karena beberapa tautan lama dari halaman yang diarsipkan masih berfungsi, sehingga Anda benar-benar dapat membaca tentang detail proyek kampanye politik mereka.

Versi situs web yang diarsipkan seperti ini menyimpan informasi yang bisa sangat berharga bagi penyelidik.

Mengarsipkan dan mengambil konten dengan Wayback Machine

The Wayback Machine adalah proyek Arsip Internet nirlaba yang berbasis di San-Francisco, perpustakaan digital yang telah didedikasikan untuk melestarikan miliaran situs web sejak tahun 1996, sebagai bagian dari upaya untuk mengarsipkan internet dan menyediakan akses universal ke semua pengetahuan. Pada awal 2019, ia telah mengarsipkan sekitar 345 miliar situs web.

Mesin Wayback adalah alat penting bagi para peneliti, sejarawan, penyelidik, dan cendekiawan. Ini tersedia secara gratis untuk umum dan dapat membantu Anda mengakses cuplikan arsip halaman web yang diambil pada berbagai titik waktu.

Perayap otomatis Wayback Machine (juga disebut sebagai spider) dapat mengakses dan mengarsipkan hampir semua situs web publik. Namun, perayap tidak memiliki pola tetap untuk memutuskan situs web mana yang mereka kunjungi dan seberapa sering mereka melakukannya, karena perayap tunduk pada batasan sumber daya dan keputusan kebijakan yang memengaruhi operasinya.

Akibatnya, Anda mungkin tidak selalu menemukan versi yang diarsipkan dari hari, bulan, atau bahkan tahun tertentu. Selain itu, situs web dapat memilih untuk tidak diarsipkan oleh layanan seperti Wayback Machine. Dengan memublikasikan serangkaian batasan dalam file teks yang disebut ‘robots.txt’, sebuah situs web dapat menginstruksikan perayap untuk mengecualikan sebagian atau semua kontennya dari pengarsipan atau pengindeksan. Namun demikian, data besar Wayback Machine kemungkinan akan sangat diperlukan dalam banyak penyelidikan Anda.

Catatan:

Robots.txt adalah file yang berada di situs web dan mencantumkan bagian situs yang boleh atau tidak boleh diakses oleh perayap. Jika situs web memiliki file robots.txt, Anda dapat melihatnya dengan menambahkan “/ robots.txt” ke domain atau subdomainnya.

Situs web dapat menggunakan file ini untuk memblokir perayap dari Mesin Wayback, dari mesin pencari seperti Google atau dari layanan pengindeksan atau pengarsipan lainnya. Ada sejumlah alasan mengapa beberapa administrator situs web memilih file robots.txt yang membatasi: untuk membatasi biaya bandwidth, untuk mengurangi ketegangan pada server yang kelebihan beban, untuk melindungi gambar bermerek dagang atau untuk mencegah situs web yang belum selesai muncul di hasil pencarian, misalnya. Namun, dalam beberapa kasus, mereka melakukannya untuk mengaburkan konten yang berpotensi sensitif.

Meskipun Mesin Wayback tidak selalu mematuhi pembatasan ini, masih banyak situs web yang ditolak oleh perayapnya untuk diarsipkan sebagai akibat dari perintah robots.txt. Jika Anda mengalami kesulitan menggunakan Mesin Wayback untuk melihat atau mengarsipkan beberapa tetapi tidak semua halaman di situs web, Anda dapat memeriksa file robots.txt untuk melihat apakah ada bagian situs yang “tidak diizinkan”.

Selain menawarkan antarmuka sederhana untuk mengambil situs web yang diarsipkan secara otomatis, Wayback Machine juga memungkinkan Anda untuk menyimpan snapshot halaman web secara manual sehingga Anda dapat memastikan mereka tidak tiba-tiba menghilang.

Layanan ini tidak hanya dapat mengarsipkan halaman web yang relevan dengan penyelidikan Anda, tetapi juga menyediakan cara mudah bagi Anda untuk mengutip penelitian dan menautkan ke konten saat penyelidikan Anda terbentuk.

Meskipun seringkali merupakan ide yang baik untuk menyimpan salinan HTML atau PDF dari halaman web penting ke perangkat Anda sendiri untuk memastikan bahwa Anda memiliki banyak cadangan, mengarsipkannya dengan Wayback Machine dapat menambahkan elemen netralitas dan kepercayaan jika Anda akhirnya berbagi arsip tersebut dengan orang lain. Ini juga jauh lebih nyaman, bagi kebanyakan orang, daripada memelihara perpustakaan offline file digital.
Mencari halaman dengan Wayback Machine

Untuk menemukan halaman yang tidak lagi dapat diakses, atau untuk melihat versi lama halaman web, cukup buka https://web.archive.org dan masukkan alamat web yang Anda cari.

Jika halaman sebelumnya diarsipkan, tanggal saat halaman itu disimpan akan muncul di kalender tahun ini. Anda dapat menavigasi ke tahun-tahun sebelumnya menggunakan garis waktu, yang juga menampilkan grafik seberapa sering halaman diarsipkan setiap tahun. Setelah mengklik tahun yang Anda minati, arsip dari tahun itu akan ditandai pada kalender dengan titik berkode warna.

Di sini, kami menggunakan contoh situs web yang dihapus pada tahun 2018 karena penutupan perusahaan (lihat contoh skandal Cambridge Analytica di atas).

Titik biru menunjukkan bahwa pengambilan halaman web penuh dilakukan pada tanggal tersebut. Ini biasanya arsip yang Anda cari. Titik hijau menunjukkan bahwa, ketika perayap mengakses alamat web itu, perayap itu secara otomatis dialihkan ke laman lain di situs web yang sama. Arsip ini mungkin tidak berisi konten yang Anda cari. Titik oranye dan merah menunjukkan bahwa terjadi kesalahan selama proses pengarsipan, mungkin karena kesalahan pada perayap atau server situs web. Titik besar menunjukkan bahwa banyak arsip disimpan pada hari itu. Anda dapat mengarahkan kursor ke mereka untuk memilih arsip tertentu berdasarkan waktu.

Setelah Anda memilih versi halaman yang diarsipkan, bilah navigasi Wayback Machine ditampilkan di bagian atas layar. Ini memungkinkan Anda untuk menelusuri arsip yang berbeda dari halaman itu dengan menggunakan garis waktu atau dengan mengklik tombol “berikutnya” dan “sebelumnya”.