Интернет-архив

Article

July 6, 2022

Интернет-архив (англ. Internet Archive) — американская некоммерческая цифровая библиотека, основанная основателем Alexa Брюстером Кали в 1996 году для предоставления услуг по чтению архивов мультимедийных данных в Интернете, со штаб-квартирой в Сан-Франциско, Калифорния, округ Ричмонд, миссией которой является «всеобщий доступ». ко всякому знанию». «Архив» предоставляет цифровые материалы, такие как веб-сайты, веб-страницы, графические материалы, музыку, видео, аудио, программное обеспечение, движущиеся изображения и миллионы книг, которые постоянно хранятся и доступны бесплатно. По состоянию на октябрь 2012 г. его информационные резервы достигли 10 ПБ (т.е. 10 240 ТБ). Кроме того, архив является одним из сторонников открытости и либерализации Интернета.

Источники данных

Данные архива автоматически собираются его собственным поисковым роботом, а «машина времени веб-сайта» архива веб-сайта просканировала более 150 миллиардов веб-страниц.

Ситуация с финансированием

Годовой бюджет составляет около 10 миллионов долларов и поступает от его услуг веб-сканирования, партнерских отношений, спонсорства и фонда Кали-Остин. В штаб-квартире всего несколько десятков сотрудников, большинство из которых работает в центре сканирования книг, у которого также есть дата-центр в Редвуд-Сити.

база данных

База данных архива является членом Международной ассоциации сохранения Интернета и была выбрана штатом Калифорния в качестве официальной назначенной библиотеки в 2007 году. Данные, собираемые архивами, разнообразны. По состоянию на начало 2015 года Интернет-архив содержал в общей сложности 2400 игр для MS-DOS.

история

В 1996 году Брюстер Кале основал Интернет-архив одновременно с коммерческим Alexa Internet, который начал собирать и хранить данные в октябре того же года. Однако эти данные были недоступны до тех пор, пока в 2001 году не была разработана «машина времени». Коллекция была расширена в конце 1999 года. В августе 2012 года было объявлено, что BitTorrent будет добавлен к возможности загрузки существующих 1,3 миллиона архивов. Поскольку это координируется через два архивных центра обработки данных, это становится самым быстрым способом загрузки данных из архива. 6 ноября 2013 г. в результате пожара в штаб-квартире Архива в округе Ричмонд было повреждено много оборудования и несколько близлежащих квартир, при этом ущерб оценивается в 600 000 долларов.

веб-архив

Машина времени

Веб-сайт Time Machine является одним из наиболее важных сервисов Интернет-архива и получил свое название от американского мультфильма «Шоу Рокки и Буллвинкля». Time Machine позволяет людям искать и получать доступ к своему архиву веб-страниц. В некоторых странах и регионах использование термина «машина времени» стало настолько распространенным, что «машина времени» и «Интернет-архив» даже стали использоваться как синонимы.

Архив-Это

Архив — это инструмент, который помогает организациям и частным лицам создавать архивы. Как только URL-адрес целевого веб-сайта будет введен и сохранен, а веб-сайт станет доступен для файла robots.txt, используемого Интернет-архивом, страница станет частью машины времени. По состоянию на март 2014 г. (2014-03 гг.) Archive-it имеет в качестве партнеров более 275 учреждений в 46 штатах США и 16 других странах, а общий онлайн-архив насчитывает более 7,4 миллиарда веб-страниц.

Собрать библиографию

Интернет-архив представляет собой собрание оцифрованных книг со всего мира и специальные коллекции крупных библиотек и учреждений культурного наследия. Интернет-архив управляет 33 центрами сканирования книг в 5 странах, и его деятельность финансируется библиотеками и фондами. По состоянию на июль 2013 г. (2013-07 гг.) в Архиве насчитывалось 4,4 миллиона книг, которые ежемесячно загружались более 15 миллионов раз. По состоянию на ноябрь 2008 г. (2008-11 гг.) Архив содержит в общей сложности 1 миллион веб-текстов общим размером до 0,5 ПБ, включая необработанные фотографические изображения, обрезанные и перекошенные изображения, файлы PDF и необработанные данные OCR.

Количество текстов на каждом языке

Количество текстов по возрасту

видео материал

В дополнение к вышесказанному Интернет-архив также собирает большую коллекцию цифровых носителей, находящихся под лицензией US Public Domain или CC. Эти медиафайлы организованы в коллекции в соответствии с типом медиа (движущиеся изображения, аудио, текст и т. д.) и разделены на подколлекции в соответствии с различными критериями. Например, связанные материалы, предоставленные Метрополитен-музеем, разделены на подмножество, которое в настоящее время насчитывает более 140 000 связанных материалов. Каждая основная коллекция содержит подколлекцию «Сообщество» (ранее известную как «Открытый исходный код») для хранения вкладов общественности.

Аудио коллекция

Аудиоархивы включают музыку, аудиокниги, выпуски новостей, шоу из старых передач и различные другие аудиофайлы. В коллекции более 200 000 бесплатных цифровых записей. Подмножества включают аудиокниги и поэзию, подкасты, аудио не на английском языке и многое другое. Подмножество Live Music Archive включает более 170 000 концертных записей независимых музыкантов, а также более известных артистов и музыкальных ансамблей с более свободными правилами записи их концертов, таких как Grateful Dead и совсем недавно The Smashing Pumpkins. Кроме того, Джордан Зевон разрешил Интернет-архиву хранить записи концертов своего отца Уоррена Зевона. Серия Zevon проходила с 1976 по 2001 год и содержала 126 концертов, в том числе 1137 песен.

Бруклинский музей

Эта коллекция содержит около 3000 предметов Бруклинского музея.

зеркальный сайт

На случай простоев или ошибок базы данных резервные копии с 1996 по 2007 год можно найти на зеркальном сайте Новой Александрийской библиотеки.

Примечания

использованная литература

дальнейшее чтение

Внешнее подключение

Официальный веб-сайт Официальный блог Аккаунт в Твиттере Интернет-архива (на английском языке) Интернет-архив MirrorArchived 28 ноября 2012 г. на веб-сайте Netlabels выпускает коллекцию The Other Minds Archive в Александрийской библиотеке, Египет - с сайта radiom.org (резервная копия архива страницы в Интернет-архиве) из новый музыкальный ресурс Web Archiving на archive.org (резервная копия архива страниц, хранится в Интернет-архиве), подробности о работе Интернет-архива. Изображения и описания оборудования Wayback Machine в 2003 г. (до Petabox) с информацией о стоимости. Текущее оборудование для хранения данных Petabox Самый ранний известный веб-сайт Интернет-архива (www.archive.org) с 1997 г. Ранние веб-сайты пивоварни 1996 г. Scanning Center Fire — Пожалуйста, помогите восстановить. Блоги Internet Archive. 06.11.2013 [07.11.2013]. Может ли Интернет действительно помочь архивировать человеческую историю? , Tencent Network, 24 января 2015 г. [04 сентября 2015 г.] (исходный контент заархивирован 15 сентября 2016 г.) (китайский (материковый Китай)).

видеть

интернет-архив список архивов музыка в общественном достоянии веб-архив цифровая библиотека

Original article in Chinese language