Будинки Бізнес Дані озера, пояснено

Дані озера, пояснено

Відео: Лес кривых деревьев в Польше, без объяснения почему? (Листопад 2024)

Відео: Лес кривых деревьев в Польше, без объяснения почему? (Листопад 2024)
Anonim

Революція Big Data переробила спосіб роботи підприємств; дані підтримують усе. Не тільки такі інструменти з відкритим кодом, як Apache Hadoop та Spark, полегшили збір, обробку та зберігання даних у реальному часі, але бізнес-аналітики та інструменти для візуалізації даних почали допомагати нам чухати поверхню аналізу та перетворення цих даних для інформування основних бізнес-рішень.

Хоча, незважаючи на те, наскільки розвинулася технологія Big Data та BI, ми все ще маємо справу з настільки великими обсягами даних, що постійно змішуються, що пошук правильних моментів для аналізу все ще відчуває себе як пірнання за голками у нескінченному стогу сіна. Рішення? Перепроектуйте копицю сіна.

Введіть озера даних - новий тип хмарної архітектури підприємства, який структурує дані більш масштабованим способом, що полегшує експерименти; робить його більш відкритим для розвідки та маніпуляцій, а не замикається на жорстких схемах та силосах. Насрі Енджел, науковий співробітник архітектури підприємств в компанії Forrester Research, пояснив, чому підприємства використовують архітектури озера даних.

"Це звучить кліше, але коли ви думаєте про ефективне сучасне середовище даних, це набагато експериментальніше", - сказав Ангел. "Ви повинні вміти швидко навчатися і швидко виходити з ладу. Раніше управління даними, особливо на складі, було все про якість, аж до десяткової точки; переконайтесь, що все було абсолютно точно і правдиво. Це називається переслідуванням єдиного Потім створити звіт, ідеальний для пікселів, і випустити його до 5000 користувачів.

"Сьогодні це більш науковий процес. Ви вступаєте з гіпотезою щодо даних, які ви хочете перевірити, і ви хочете мати можливість грати з даними, змішувати та співставляти, випробувати різні речі, перш ніж щось піти і продукувати. "

Що знаходиться в озері даних?

Озеро даних - сховище. Хоча, на відміну від сховища даних або "марта даних", Ангел пояснив, що озера даних розподіляються по декількох вузлах, а не у фіксованому, структурованому середовищі сховища даних, спираючись на схеми (див. Інфографіку нижче).

"Озеро даних дозволяє застосувати схему, коли ви записуєте дані проти сховища даних, що вимагає зробити схему для зчитування. Отже, по суті, сховище даних вимагає моделювання даних, перш ніж ви зрозумієте його контекст, що не робить Це справді не має сенсу, - сказав Ангел.

Джерело: JustOne Database, Inc. (Клацніть на графіку вище, щоб побачити повний вигляд.)

"Зазвичай на складі у вас є ІТ-професіонали, які придумують, що вони вважають найкращими моделями даних, і вони не є кінцевими користувачами даних. Ви можете швидко побачити, як це заважає продуктивності та вартості бізнесу", - додав він. . "Зрештою, ви та бізнес-користувачі повинні бути тими, хто приймає рішення про структуру даних, і, в озері даних, ви можете спочатку вивчити та розібратися, що там, а потім скласти схему, щоб найкраще їх організувати".

Дані озера, як правило, будуються на Hadoop, і підприємства Hadoop, такі як Hortonworks і MapR, пропонують архітектури даних озера. Компанії також можуть створювати озера даних, використовуючи хмару інфраструктури як послуга (IaaS), включаючи веб-служби Amazon (AWS) та Microsoft Azure. Еластична обчислювальна хмара Amazon (EC2) підтримує озера даних, в той час як Microsoft має спеціалізовану платформу Azure Data Lake для зберігання та аналізу даних у реальному часі. Ангел зазначив, що озера даних дозрівають до простору у просторі Big Data, де підприємства можуть з розумною впевненістю почати інвестувати в них.

"Кілька років тому в Хадоопі була вся гнів. Зараз ми доходимо до того, коли Хадооп проводиться в комерціалізації", - сказав Енджел. "Питання не в тому, чи є Hadoop, але коли, і що ви збираєтеся робити з цим. Які типи додатків ви збираєтесь будувати на вершині Hadoop, як тільки ви отримаєте дані в загальне місце, як озеро даних? На даний момент мова йде про використання даних для розробки програм для задоволення ваших конкретних потреб бізнесу ".

Побудова на вершині резервуара даних

Найбільш захоплююча частина Big Data - це можливість її розблокування. Після того, як ви налаштували озеро даних, в якому можна грати та експериментувати з різними комбінаціями даних та результатами бізнесу, ви можете почати багатошарові інноваційні методи аналізу.

Алгоритми машинного навчання (ML) вже стають складовою частиною хмарної інфраструктури, і дослідники постійно вдосконалюють методи глибокого навчання та нейронні мережі для навчання машин та систем передачі даних для розпізнавання складних зразків. Прогнозована аналітика вкладається у все більшу кількість даних та корпоративних платформ, які використовуються для всього, починаючи від прогнозного підрахунку та автоматизованої сегментації для управління взаємовідносинами з клієнтами (CRM) до виявлення тенденцій на фінансовому ринку та превентивного усунення механічних збоїв у машинах.

Все це відбувається понад будь-якого сховища даних, яким ваш бізнес подає та масштабує відповідно до його потреб. Ангел розповів про деякі випадки використання в реальному світі, в яких він бачив, що озера даних змінюють функціонування організацій.

"Я працював з видавничою компанією, яка має портфоліо різних журналів - у них є видання для юристів, інше для бухгалтерів, інше для консультантів тощо. І кожне видання мало власний сховище даних. Фактично, кожне видання мало власне силос, - пояснив Ангел.

"Таким чином, ми витягли всі дані зі складу і помістили їх у озеро даних, і озеро даних дозволило їм бачити через силоси. Вони змогли вивчити дані та зробити дані, і зрозуміли, що в усіх цих різних публікаціях, клієнти з кожного журналу були зацікавлені в кібербезпеці. Читання читачів про кібербезпеку було сильним у всіх цих різних ролях. То що вони зробили? Вони зробили кібербезпеку темою своєї щорічної конференції ".

Ще один приклад, про який розповідав Ангел, - електронна комерція. Інший клієнт, інтернет-роздрібний продавець мистецтв, скидав тону інформації в озеро даних і використовував її не лише як сховище, але як різновид полотна, щоб зібрати ділову інформацію. Роздрібний продавець приніс дані про транзакції (замовлення, рахунки-фактури, платежі тощо), дані про потокові кліки (кількість кліків і сторінок кожного відвідувача веб-сайту), а також дані зі сховища даних роздрібної торгівлі, усі в озеро, і використовували їх на концерті для боротьби з кошиком залишення та перетворення.

"Ви хочете будувати поверх озера даних і використовувати його для формулювання складних бізнес-оглядів", - сказав Ангел. "Роздрібний продавець мистецтв мав змогу переглянути дані про кліки клієнта та співставити кліки з профілями клієнтів, а потім скористатися транзакційними даними, щоб побачити, що клієнт купував у минулому, і використовувати ці відомості для проведення дуже конкретних електронних кампаній. Отже, якщо клієнт відмовився їхній кошик роздрібний продавець може пройти через дві години і сказати: "Ми бачили, що ви перевіряли цього Пікассо. Ось посилання, якщо ви хочете переглянути його ще раз". "

Озеро даних є загальноприйнятними для всіх випадків використання бізнесу. Але, стосовно головного технічного директора (CTO) або головного директора з питань інформаційної безпеки (CISO), який розглядає питання про перехід до архітектури, Енджель підкреслив, що сховища даних поки що не застаріли, ні на що. Для більшості організацій підприємств, незалежно від того, використовуєте ви хмарного постачальника послуг або спеціальний дистрибутив Hadoop, підприємствам все одно потрібні обидва.

Озеро даних надає вам доступ до безпрецедентної інформації, видаляючи межі відповідності даних певній схемі, а також набагато нижчу загальну вартість володіння за умови використання дешевого, гнучкого хмарного сховища, такого як AWS, для масштабування вгору та вниз - поки тільки оплата потужності обробки, яку ви фактично використовуєте. Запуск сховища даних є дорожчим і, як наслідок, робить ІТ-фахівців більш вибірковими щодо того, які дані надходять та які дані. Але для найважливіших даних про підприємство, це не погано.

"Склад даних має переваги з точки зору безпеки та є дуже простим інструментом для управління інформацією", - сказав Ангел. "Таким чином, ви все ще хочете зберігати свою найчутливішу інформацію на складі, важливі для місії речі. Але коли мова заходить про нові можливості для бізнесу та виявлення прихованої інформації, ви хочете використовувати озеро даних".

Дані озера, пояснено