Будинки Особливості Ці захисники хочуть переконатися, що наші дані не зникнуть

Ці захисники хочуть переконатися, що наші дані не зникнуть

2024

Зміст:

Дивлячись на бібліотеки
Державно-приватне партнерство
Старі дані та нові
Ресурси:

Наприкінці травня цього року, рівно за п’ять місяців від інавгурації 45-го президента США, група людей, занепокоєних позицією нової адміністрації щодо науки та зміни клімату, відзначила свою особливу річницю.

Недалеко від кампусу університету Північного Техасу, на рівнинах на північ від Далласа, кілька десятків людей зібралися в Data Rescue Denton, щоб виявити та завантажити копії федеральних наборів даних про клімат та довкілля. Ці збори в стилі хакатон приділяли велику увагу в дні, що передували інавгурації; Дентон став 50-ю подією з січня.

Спочатку, виходячи з занепокоєння з приводу того, що нова адміністрація може стерти або затьмарити кліматичні та інші дані про навколишнє середовище, найгірші побоювання рятувальників, здавалося, збуваються, коли однією з перших дій Білого дому Трампа було видалення сторінок із зміни клімату зі свого веб-сайту. Тоді Міністерство сільського господарства США, вилучивши з свого веб-сайту звіти про інспекцію добробуту тварин, відповіло на запит Національного географічного закону про свободу інформації з 1771 сторінкою повністю відредагованого матеріалу.

Будь-хто може отримати доступ до більш ніж 153000 федеральних наборів даних через портал відкритих даних центрального уряду на data.gov. Але це лише частка даних, що існують у туманності урядової бюрократії, не маючи на увазі ще меншу частку, яка є на сервері.

"Десь близько 20 відсотків урядової інформації доступні в Інтернеті", - сказав Джим Джейкобс, федеральний інформаційний бібліотекар Університету Стенфорда. "Це досить великий фрагмент речей, які недоступні. Хоча агенції мають власні вікі-системи та системи управління вмістом, єдиний раз, коли ви дізнаєтесь про деякі з них, це якщо хтось FOIAs це".

Безумовно, велика кількість інформації була дійсно захоплена і зараз знаходиться на неурядових серверах. Між подіями Data Refuge та проектами, такими як сканування після закінчення строку 2016 року, понад 200 ТБ державних веб-сайтів та даних було заархівовано. Але організатори порятунку почали усвідомлювати, що поодинокі зусилля, щоб зробити повні копії терабайт даних державних установ, не можуть реально витриматись у довгостроковій перспективі - це було б як спасіння Титаніка з наперсток.

Отже, хоча Data Rescue Denton в кінцевому підсумку став однією з останніх подібних організованих заходів, колективні зусилля спонукали широку громадськість до злагодженої роботи задля того, щоб зробити більшу кількість даних про урядування відкритими, зрозумілими та корисними, написав Джейкобс у своєму дописі в блозі.

Дивлячись на бібліотеки

В Університеті Пенсільванії Бетані Віггін є директором програми Пенна в галузі екологічних гуманітарних наук, де вона займає центральне місце руху «Поблизу даних», ініціатора подій порятунку даних. Наголос тепер перемістився, за її словами, до використання національних рамок для довготривалих зусиль замість періодичних епізодів на місцевій основі.

"Ми зрозуміли, що в різних місцях з'являються навички, роблячи події рятувальних даних, що можна змінити", - сказав Віггін, особливо в наукових бібліотеках. "Але всі ці зусилля відбувалися ще до того, як ми розпочали роботу. Сила Data Refuge полягала в тому, щоб згустити ці зв'язки; каталізувати давні, повільні проекти; і засвітити, наскільки вони важливі".

Останнім часом Wiggin допомагає очолювати Бібліотеки + Мережу, партнерство науково-дослідних бібліотек, бібліотечних організацій та груп відкритих даних, що сприяли розширенню традиційної ролі бібліотек у збереженні доступу до інформації. Учасники включають науково-дослідну бібліотеку Стенфордського університету, Каліфорнійську цифрову бібліотеку та Фонд Mozilla, за участю та співпраці організацій настільки ж широкі, як Національний архів та головні службовці даних декількох федеральних бюро.

Наприклад, одним із проектів є LOCKSS ("багато примірників зберігають речі"), який Jacobs координує протягом декількох років. Він заснований на тому ж принципі, що і 200-річна мережа бібліотек, відома як Програма Федеральної бібліотеки депозитаріїв; ці бібліотеки є офіційними сховищами публікацій Державної друкарської служби США (GPO).

LOCKSS, навпаки, є приватною цифровою версією цієї системи, яка наразі складається з 36 бібліотек, які збирають публікації від ГПО за її співпраці. Це модель для того, як цифрову інформацію можна захистити від видалення чи підробки шляхом широкого фізичного розповсюдження.

"Ви не можете забезпечити збереження, якщо не контролюєте вміст", - сказав Джейкобс. "Частина того, що зробило бібліотеки депозитарії важливими та корисними протягом останніх 200 років, - це те, що ніхто в уряді не міг редагувати документ, не переходячи до 1500 бібліотек і сказати" Так, змінити цю сторінку тут "."

Програмне забезпечення LOCKSS використовує перевірку кешів вмісту на бітовому рівні та порівнює його із вмістом, який зберігається в інших бібліотеках, що, за словами Якобса, допомагає забезпечити довгострокове збереження за рахунок відновлення деградованих файлів.

Джон Ходацький, ще один співробітник мережі "Бібліотеки +", - директор курації Каліфорнійської цифрової бібліотеки, віртуальної інформаційної бази, яка обслуговує всі 10 містечок системи Каліфорнійського університету. Працюючи з розробником програми Code for Science and Society Максом Огденом та Філіпом Ешлоком, головним архітектором data.gov, Чодацький каже, що їхня увага зосереджена на використанні data.gov як двосторонньої вулиці.

Вони вперше продемонстрували, що саме порятунок даних може бути набагато ефективнішим, зібравши копію самого data.gov і розмістивши її на зовнішньому сайті datamirror.org, за допомогою скриптів моніторингу, які перевіряють наявність оновлень. Тоді Чодацький та його співробітники також почали дивитися, чи можуть внесені набори даних та метадані в дзеркало подаватись у існуючі робочі потоки агентств data.gov через заглушки на дзеркалі.

Відповідно до виконавчого розпорядження Обами в 2013 році, що передбачає публікацію машиночитаних даних на data.gov, агенції все ще нестимуть відповідальність за створення записів, перелічених на цьому порталі; Ідея Чодацького та Огдена полягає в тому, що краудсорсинг запропонованих наборів даних просто допомагає розширити навантаження.

"Нам не потрібно копіювати всю екосистему", - сказав Ходацький. "Федеральний уряд і ці агенції розглядають дані набагато довше, ніж було недоцільно говорити про великі дані, набагато більш надійним чином, ніж будь-хто інший".

Державно-приватне партнерство

Питання про вартість є очевидним, коли мова йде про те, як агенції здатні визначити, які набори даних є найбільш цінними для населення, а потім публікують посилання на їх метадані чи фактичні набори даних через урядовий портал. Доповідь Управління бюджету Конгресу (CBO) для законопроекту про відкриті урядові дані, який зараз знаходиться в Сенаті - який би зафіксував виконавчий порядок Обами в законі - вважає, що його повне впровадження коштуватиме 2 мільйони доларів між 2018 і 2021 роками.

З точки зору державних грошей, це фактично не означає реального збільшення витрат, підсумував CBO.

Однак ефективність - це інше питання, з яким Ед Кірнс в Національній адміністрації океаніки та атмосфери експериментує разом із приватними партнерами, включаючи веб-служби Amazon та Google. Кірнс, головний керівник даних NOAA, заявив, що підвищення доступності та використання даних NOAA є головною метою проекту Big Data.

Компанії визначають, які набори даних хочуть, і NOAA передає їх без додаткових витрат громадськості. Кірнс сказав, що все, що є у NOAA, не має на меті, але мета п'ятирічного партнерства - не виводити на хмару всі дані NOAA - лише стратегічні шматки.

Розміщення таких наборів даних у хмарних сервісах приватних компаній пропонує ряд переваг доступу до FTP у стилі 80-х, який все ще є стандартним для передачі великих наборів даних від федеральних агентств. Для початку набір даних NOAA, як правило, величезний - агентство здійснює моніторинг земного океану, атмосфери, сонця та космічної погоди, а іноді потрібні тижні чи місяці для публічної доставки.

Одним із прикладів є агентство радіолокаційних радіолокаторів NEXRAD рівня II II доплерівського рівня. Відповідно до дослідження, опублікованого в травні Американським метеорологічним товариством, передача всього 270-терабайтного архіву NEXRAD одному клієнту в жовтні 2015 року зайняла б 540 днів вартістю 203 310 доларів США. Повна копія архіву ніколи не була доступна для зовнішнього аналізу, перш ніж NOAA працював з Amazon та Google, щоб поставити його на хмару.

Експеримент також мав кілька цікавих ранніх результатів із збільшенням використання. Веб-сторінки NOAA погоди та прогнозування вже отримують деякі з найвищих рівнів трафіку серед урядових сайтів, але після того, як Google нещодавно інтегрував в свою базу даних BigQuery один набір даних про клімат та погоду, розміром приблизно, приблизно, він повідомив, що постачає 1, 2 петабайта цього набору даних з 1 січня по 30 квітня - набагато більше, ніж коли-небудь зверталися в аналогічні часові рамки з серверів NOAA.

"Google зміг відкрити це для цілої нової аудиторії", - сказав Кернс.

Це не просто дощ та сезонні температури. Набори даних, які зараз доступні через партнерів Big Data, включають інформацію про рибальство, морську погоду та каталог, розміщений IBM, який перераховує поточні, прогнозні, історичні та геопросторові набори даних з центрів NOAA. Майбутні набори даних можуть навіть включати інформацію про екосистеми та геноміку рибного господарства.

Але за задумом, партнерство дозволяє співпрацівникам вибирати те, що вони найбільше хочуть, що несе в собі ризик того, що незрозумілі, але потенційно високоцінні набори даних не побачать багато денного світла. Кірнс каже, що зарано говорити про те, що з часом може бути визнано цінним.

"Масштаб та масштабність того, що можна зробити з цими даними, нас приголомшує", - додав він. "Ми не можемо уявити всіх можливих цілей використання".

У меншому масштабі місто Філадельфія також співпрацювало з приватною організацією над публікацією наборів даних, за якими громадськість заявила, що вважатиме це найбільш корисним. Хоча розмір міста надає йому більше щоденної оперативної маневреності, ніж федеральна організація, модель Філлі являє собою один підхід для стратегізації випусків ще не опублікованих наборів даних.

Azavea, програмна фірма, що базується на Філлі, що спеціалізується на візуалізації даних, співпрацювала з головним інформаційним директором міста Тімом Віснєвським, щоб розробити список неопублікованих наборів даних, які нецікаві організації в місті можуть зацікавити. Для розробки списку Вісневський та Азавея використовували як міський онлайн-каталог метаданих, так і дані міських управлінь. Потім Azavea та інші партнери перенесли цей список у некомерційні організації Philadelphia та запустили OpenDataVote, змагання громадськості за голосування за проекти, висунуті цими некомерційними організаціями, за те, як вони використовуватимуть бажані набори даних.

Нещодавним переможцем стала пропозиція, яку висунула некомерційна організація MicroSociety використовувати дані міста про донорів для шкільного округу Філадельфії для вимірювання впливу неприбуткових програм у школах.

"Можна сказати, що ця міська некомерційна організація зацікавлена в конкретному наборі даних, тому що вони можуть щось зробити з цим, і що це багато людей проголосували за їх підтримку", - сказав Вішневський. "Це дозволяє нам зайти до відділів із твердим випадком використання, а не сказати, ей, звільнити ці дані просто тому".

Старі дані та нові

Але що трапляється навіть тоді, коли вже існує великий доступ до даних, які вже є там, коли нові політики та директиви фінансування означають, що самі дані просто не генеруються? Це справді викликає занепокоєння, сказала Ен Данкін, яка займала посаду головного директора з питань інформації в Агентстві з охорони навколишнього природного середовища при президенті Обамі і тепер очолює ІТ для штату Каліфорнія в окрузі Санта Клара.

"Люди переживають за старі дані, але мене найбільше хвилює те, що нові дані не стають доступними з тією ж швидкістю, як раніше, або взагалі не створюються", - сказав Данкін.

В одному аналізі запропонованого федеральним бюджетом на 2018 рік журналом Science багато державних установ могли б усвідомити значні скорочення своїх бюджетів на дослідження, якщо бюджет буде прийнято, як було запропоновано. Приблизно 22-відсоткове скорочення в Національних інститутах охорони здоров'я призведе до виплат науково-дослідним університетам; запит бюджету НАСА ліквідував би ініціативи щодо моніторингу викидів парникових газів та інших програм з вивчення Землі. Кліматичні програми в NOAA також можуть бути закриті подібними рівнями скорочень.

Під час перебування на посаді Агентство працював над тим, щоб зробити свій збір даних інструментом для того, щоб хтось міг зрозуміти стан здоров'я та як реагувати на нього. Поганий повітряний день? Не виходьте назовні. Потік вниз забрудненим? Тримайте дітей подалі.

"Моє сподівання - це рухатиметься назад", - додав Данкін. "Я можу помилитися, але якщо ви говорите, що ми не збираємося робити дані доступними, логічним висновком є набори даних, які можуть допомогти представникам громадськості також не бути доступними або не генеруватися в першу чергу".

Wiggin Data Refuge працює над проектом розповідей, пов’язаним з цим питанням, який, як вона сподівається, спонукає більше людей вимагати постійних випусків даних та створить основу підтримки для продовження існуючих програм збору даних у всьому федеральному уряді. Оповідання "Три історії в нашому місті" відображатимуть часто прихований вплив федеральних даних у несподіваних місцях, починаючи спочатку у Філадельфії, потім в інших місцях країни.

"Найважливіший фрагмент руху Data Refuge, коли ми переходимо до наступної фази, допомагає людям зрозуміти, наскільки широко використовуються федерально отримані дані в їхньому житті", - сказав Віггін. "Незалежно від того, чи називаєте ви це кліматом, здоров'ям чи громадською безпекою, це все-таки федеральні дані. Це у громадах, у мерії, в роботі міліції, у військових. Нам потрібно пам’ятати, наскільки важливими є ці дані".

Ресурси:

Шлюз набору даних про навколишнє середовище EPA: портал метаданих Агенції з охорони навколишнього середовища.
Open Data @ DOE: Портал відкритих даних Міністерства енергетики.
Портал даних служби економічних досліджень USDA
Великі ресурси даних NOAA: посилання на сторінки платформи Big Data-партнерів, на яких розміщуються дані, створені NOAA.
Університет Північного Техасу: Кібер-кладовище: архів неіснуючих, застарілих або закритих урядових веб-сайтів.
Сторінка проекту щодо архівації екологічних даних та управління: Програми, код та додатки, пов'язані з виявленням та архівуванням даних уряду.
Інтернет-архів Wayback Machine
Інтернет-архів: Як зберегти сторінки в машині зворотного зв'язку: Шість способів призначити сторінки для архівування.
Каліфорнійська цифрова бібліотека: Веб-архів кінця строку: колекція веб-сайтів уряду США, збережена від сканування закінчення строку, з 2008 року по теперішній час.
FreeGovInfo.info: широкий контент із інформацією про портали даних на державному та федеральному рівні та архіви новин про відкриті питання даних.
Кліматичне дзеркало: колекція кліматичних наборів даних, зібраних волонтерами.

Ця історія вперше з'явилася в цифровому виданні журналу PC Magazine. Підпишіться сьогодні, щоб отримати більше оригінальних сюжетів, новин, оглядів та способів роботи!