Відео: â¼ ÐагалÑÑ 2014 | девÑÑка Ñодео бÑк на лоÑадÑÑ (Листопад 2024)
Ми багато писали про роль даних у сучасному бізнесі. Від стартапів і малого до середнього бізнесу (SMB) до великих підприємств, огляд даних та аналіз є більш доступними для підприємств усіх розмірів, ніж будь-коли раніше. Частково це відбувається завдяки зростанню бізнес-аналітики (BI) та засобів візуалізації даних.
Хоча перед тим, як використовувати BI-інструменти або запускати прогностичну аналітику на наборі даних, існує ряд факторів, які можуть вийти на квадрат. Починається з простого розуміння того, що таке великі дані, що це не (натяк: не кришталевий куля) та способів управління зберіганням даних, організацією, дозволами та безпекою в архітектурі даних вашого підприємства. Тут відбувається управління даними. Процеси, за допомогою яких ви забезпечуєте управління в межах підприємства, відрізняються залежно від того, з ким спілкуєтесь. Але, по суті, управління даними стосується довіри та підзвітності даних, одружених на всебічних передовій практиці безпеки даних.
Я розмовляв з Hortonworks та MapR, двома найбільшими постачальниками підприємств Hadoop на ринку. Скотт Гнау, головний директор з технологій компанії Hortonworks, та Джек Норріс, старший віце-президент із даних та додатків у MapR, кожен пояснив, що означає управління даними для їхніх організацій. Вони обговорили, як вирішити складний виклик забезпечення управління даними в складних архітектурах даних та організаційних ієрархіях великого підприємства.
Що саме є Управління даними та навіщо це нам потрібно?
Управління означає переконатися, що дані підприємства авторизовані, організовані та дозволені в базі даних з якомога менше помилок, зберігаючи при цьому конфіденційність та безпеку. Нелегко досягти балансу, особливо коли реальність де і як зберігаються та обробляються дані постійно знаходиться в потоці. Норріс MapR пояснив, чому бізнесу потрібно дивитись на управління даними з більш високого рівня та зосереджуватися на більшій передачі даних у процесі роботи.
"Коли ви починаєте масштабувати різноманітність і швидкість Великих даних, з якими ми маємо справу, ви повинні мати управління даними, але це в цьому більш широкому контексті. Які дані у вас є, хто має до них доступ і як у вас є керування лінійкою цих даних у часі? " - сказав Норріс. "З точки зору управління даними, ви можете мати різні етапи даних, які існують в системі, яка може бути зроблена на знімку, щоб ви могли повернутися в будь-який момент часу в конвеєр. Це стосується побудови аудиторії та контролю доступу до платформи даних. впевнені, що відкриття та аналітика даних є прозорими, будь то менеджер бізнесу, який дивиться набори фінансових даних, або вчений, який працює з необробленими даними ".
Джерело: Rimes. Клацніть зображення для повного перегляду.
У подібній точці вступив Hornaworks 'Gnau. Незалежно від того, чи маєте ви справу зі сховищем даних або архітектурою озера даних, управління даними полягає у врівноваженні протилежних сил. Йдеться про необмежений доступ до даних, щоб сприяти інноваціям та отримувати уявлення, детальні дозволи та конфіденційність, щоб одночасно захищати ці дані до кінця.
"Порівняйте та порівняйте старий світ традиційного управління в просторі даних; це було трохи простіше", - сказав Гнау. "Дані, які раніше були чітко визначені роллю роботи чи додатком. У новому світі ви отримуєте найбільшу цінність, коли вчені мають доступ до якомога більшої кількості даних, і виявлення того, що щасливий носій дуже важливий.
"Це абсолютно нова парадигма в тому, як потрібно підходити до управління", - додав Гнау. "У цьому новому світі я вважаю теми управління та безпеки, які потрібно охоплювати разом. Багато компаній досі намагаються просунутися через це, щоб їхні науковці могли бути ефективними у пошуку нових випадків використання, в той же час, розуміння того, як поводитися з безпекою, конфіденційністю, управлінням - все те, що важливо з точки зору нижньої лінії, а також з точки зору репутації компанії ".
Яким чином план управління даними підприємства повинен охоплювати та задовольняти всі ці протилежні сили? Виконуючи кожну вимогу методично, покроково.
Як побудувати План управління даними
Hortonworks, MapR та Cloudera - це три найбільші незалежні гравці в космосі Hadoop. Компанії мають власні сфери впливу, коли справа стосується управління даними. MapR опублікував ряд довідок з цього питання та побудував управління даними на всій своїй конвергентній платформі даних, в той час як Hortonworks має власне рішення щодо захисту даних та управління даними, і у 2015 році співзасновник Ініціативи управління даними (DGI). Це призвело до відкриття - ресурсний проект Apache Atlas, який забезпечує відкриту систему управління даними Hadoop.
Але коли мова йде про те, як кожен постачальник розробляє всебічне управління даними та стратегіями безпеки, то Гнау і Норріс говорили аналогічно. Нижче наведено комбіновані кроки, які рекомендують компанії Hortonworks та MapR пам’ятати, будуючи план управління даними.
Найбільше: ґрунтовний доступ до даних та авторизація
Обидві компанії погоджуються, що без детального контролю неможливо мати ефективне управління даними. MapR досягає цього насамперед за допомогою виразів контролю доступу (ACE). Як пояснив Норріс, ACE використовують групування та булеву логіку для управління гнучким доступом до даних та авторизацією з дозволами на основі ролей та налаштуваннями видимості.
Він сказав думати про це як про модель Gartner. На осі Y в нижньому кінці встановлено суворе керованість і низька спритність, а на осі X у верхньому кінці - вища спритність і менше управління.
"На низькому рівні ви захищаєте конфіденційні дані, опустошуючи їх. На вершині у вас є конфіденційні договори для науковців із даних та біологічних аналітиків", - сказав Норріс. "Ми схильні робити це за допомогою можливостей маскування та різних поглядів, коли ви максимально блокуєте необроблені дані внизу та поступово надаєте більше доступу до тих пір, поки у верхньому кінці ви не надаєте адміністраторам більш широку видимість. Але як ви надаєте доступ до потрібних людей?
"Якщо ви сьогодні подивитесь на список контролю доступу, він скаже щось на кшталт" кожен може отримати доступ до цього ", - додав Норріс. "Але якщо ви хочете, щоб декілька вибраних директорів проекту в рамках ІТ мали доступ, або всі, крім людини, вам потрібно створити спеціальну групу. Це надто складний і складний спосіб дивитися на доступ."
На думку Норріса, саме тут відбувається надання прав доступу для різних рівнів та груп. "Ми поєднали ACE з різними способами доступу до даних - через файли, таблиці, потоки тощо" та реалізували представлення даних без окремих копій даних. Таким чином, ми надаємо представлення для тих самих необроблених даних і представлень даних може мати різні рівні доступу. Це дає вам більш інтегровану безпеку, яка є більш прямою. "
Hortonworks аналогічно обробляє зернистий доступ. Інтегруючи Apache Atlas для управління та Apache Ranger, Гнау сказав, що компанія обробляє авторизацію на рівні підприємства через одну скляну панель. Ключовим, за його словами, є можливість контекстуально надавати доступ до бази даних та конкретних тегів метаданих за допомогою політики на основі тегів.
"Після того, як хтось знаходиться в базі даних, це стосується того, щоб провести їх через ті дані, до яких вони повинні мати відповідний доступ", - сказав Гнау. "Політика безпеки Рейнджера на об'єктному рівні, тонкозерниста і скрізь між ними може впоратися з цим. Включення цієї безпеки в управління - це те, що стає справді цікавим.
"Для масштабних масштабів у великих організаціях потрібно інтегрувати ці ролі з керуванням та метаданими", - додав Гнау. "Якщо я входжу з Сінгапуру, можливо, існують різні правила, засновані на місцевих законах про конфіденційність або корпоративній стратегії. Після того, як компанія визначає, встановлює та розуміє ці правила з цілісної точки зору зверху вниз, ви можете розділити доступ на основі конкретні правила встановлюються під час виконання всього в основній платформі. "
Джерело: IBM Big Data & Analytics Hub. Клацніть зображення для повного перегляду.
2. Безпека периметра, захист даних та інтегрована автентифікація
Управління не відбувається без захисту кінцевих точок. Гнау сказав, що важливо створити хороший периметр і брандмауер навколо даних, що інтегруються з існуючими системами та стандартами аутентифікації. Норріс погодився, що, коли мова заходить про автентифікацію, для підприємств важливо синхронізувати із перевіреними системами.
"Під час аутентифікації йдеться про те, як ви інтегруєтесь з LDAP, Active Directory та сторонніми службами каталогів", - сказав Норріс. "Ми також підтримуємо ім'я користувача та паролі Kerberos. Важливим є не створити цілу окрему інфраструктуру, а це те, як ви інтегруєтесь у існуючі структури та системи управління, такі як Kerberos."
3. Шифрування даних та токенізація
Наступний крок після забезпечення вашого периметра та автентифікації всього доступного доступу до даних, який ви надаєте: Переконайтеся, що файли та особиста інформація (PII) шифруються та маркуються від кінця до кінця через конвеєр даних. Гнау обговорив, як Hortonworks захищає дані PII.
"Після того, як ви пройдете периметр і отримаєте доступ до системи, можливість захисту даних PII є надзвичайно важливим", - сказав Гнау. "Вам потрібно зашифровувати та токенізувати ці дані, тому незалежно від того, хто має до них доступ, вони можуть запускати аналітику, яка їм потрібна, не виставляючи жодної з цих даних PII вздовж рядка."
Щодо того, як ви безпечно отримуєте доступ до зашифрованих даних як у русі, так і в спокої, Норріс MapR пояснив, що важливо пам’ятати і про випадки використання, такі як резервне копіювання та відновлення після аварій (DR). Він обговорив концепцію MapR, що називається логічними томами, яка може застосовувати політику управління до зростаючого кластера файлів і каталогів.
"На найнижчому рівні MapR створив реплікацію WAN для DR та послідовні знімки всіх даних, які можна встановити на різних частотах за каталогом чи томом", - сказав Норріс. "Це ширше, ніж просто управління даними. Ви можете мати фізичний кластер із каталогами, і тоді концепція логічного обсягу - це дійсно цікавий блок управління та спосіб групування речей, контролюючи захист даних та частоту. Це ще одна стрілка в даних адміністратора ІТ управління колчан ".
4. Постійний аудит та аналітика
Дивлячись на більш широку картину управління, Hortonworks і MapR сказали, що стратегія не працює без аудиту. Цей рівень нездатності та підзвітності на кожному етапі процесу - це те, що дозволяє ІТ фактично «керувати» даними, а не просто встановлювати політику та контролю доступу та сподіватися на найкраще. Це також, як підприємства можуть підтримувати свої стратегії актуальними в умовах, коли ми бачимо дані та технології, які ми використовуємо для управління та аналізу, змінюються щодня.
"Останній фрагмент сучасної стратегії управління - це ведення журналів та відстеження", - сказав Гнау. "Ми перебуваємо в грудному віці Big Data та IoT, і дуже важливо мати можливість відстежувати доступ та розпізнавати шаблони даних, щоб, оскільки стратегія потребує оновлення, ми випереджаємо криву".
Норріс зазначив, що аудит та аналіз можуть бути такими ж простими, як і відстеження файлів JSON ("Object Notation"). Не кожний фрагмент даних буде вартим відстеження та аналізу, але ваш бізнес ніколи не дізнається, який - доки ви не виявите уявлення про зміну гри або не станеться криза, і вам потрібно провести аудиторський слід.
"Кожен файл журналу JSON відкривається для аналізу, і у нас є Apache Drill для запиту файлів JSON за допомогою схем, тому це не ручний ІТ-крок для налаштування аналізу метаданих", - сказав Норріс. "Якщо ви включаєте всі події доступу до даних та кожну адміністративну дію, можливий широкий спектр аналітики."
5. Єдина архітектура даних
Зрештою, технік або адміністратор ІТ, який здійснює нагляд за стратегією управління даними підприємства, повинен продумати особливості детального доступу, аутентифікації, безпеки, шифрування та аудиту. Але технолог або ІТ-адміністратор не повинні зупинятися на цьому; скоріше, ця людина також повинна подумати про те, як кожен із цих компонентів вписується у свою більшу архітектуру даних. Він або вона також повинні думати про те, як ця інфраструктура повинна бути масштабованою та захищеною - від збору та зберігання даних аж до BI, аналітики та сторонніх послуг. Гнау зауважив, що управління даними стосується не стільки переосмислення стратегії, скільки виконання саме технології.
" Це виходить за рамки однієї скляної склянки або колекції правил безпеки", - сказав Гнау. "Це єдина архітектура, де ви створюєте ці ролі, і вони синхронізуються на всій платформі та всіх інструментах, які ви вводите в неї. Краса надійно керованої інфраструктури - це спритність, за допомогою якої створюються нові методи. На кожному рівні платформи чи навіть у у гібридному хмарному середовищі, ви маєте єдину точку відліку, щоб зрозуміти, як ви реалізували свої правила. Усі дані проходять через цей рівень безпеки та управління ".