в

Что такое Big Data? Полное руководство для начинающих

Можете ли вы поверить, что 90 процентов всех данных на протяжении всей истории были созданы за последние 5 лет?

Что такое Big Data? Полное руководство для начинающих

Времена хранения легко собираемых, четко структурированных данных в серии баз данных давно позади. В настоящее время люди генерируют большие объемы данных с гораздо большей скоростью, чем когда-либо прежде, и разнообразие этих данных намного сложнее, чем несколько десятилетий назад. Этот стремительный информационный взрыв формально называют «Big Data».

Что такое Big Data (Большие данные)?

Понимание, полученное с помощью программного обеспечения для больших данных, может быть использовано, чтобы помочь маркетологам более стратегически нацеливать свои кампании, помочь защитникам окружающей среды понять устойчивость в будущем, помочь специалистам в области здравоохранения прогнозировать эпидемии и многое другое.

Чтобы понять масштабы больших данных, нам сначала нужно изучить их историю и то, как далеко мы продвинулись за такой короткий период времени.

История больших данных

Практика сбора и хранения больших объемов информации с последующими попытками разобраться в этой информации существует уже много столетий. Например, Бюро переписи населения США начало записывать данные о населении на перфокарты в 1790 году. Перенесемся на 100 лет вперед, и вот изобретение «Табулирующей машины» обработало информацию на этих перфокартах в сотни раз быстрее, чем люди.

Табулирующая машина
Табулирующая машина

С «информационным взрывом» 1940-х годов общество отчаянно нуждалось в лучшем способе хранения больших объемов данных и доступа к ним. И в 1970 году исследовательская лаборатория IBM опубликовала первую статью о реляционных базах данных, которая позволила найти более эффективные способы поиска данных в больших базах данных. Представьте что-то похожее на электронную таблицу Excel.

Коммерциализация Интернета в 1995 году проложила путь Web 2.0. На начальном этапе Интернет был исключительно информационным и представлял собой статические веб-сайты, которые создавали унылый пользовательский опыт. Когда в 2004 году был запущен Web 2.0, пользователи теперь смогли создавать, распространять и хранить свой собственный контент в виртуальном сообществе.

В середине 2000-х годов, интернет-пользователи наводнили такие социальные сети, как Facebook и Twitter, что привело к распространению еще большего количества данных. Примерно в это же время YouTube и Netflix навсегда изменили способы просмотра и потоковой передачи видеоконтента. Данные, использованные с этих платформ, также позволили получить представление о поведении потребителей почти в реальном времени.

С запуском в 2011 году Hadoop, мощной среды с открытым исходным кодом для хранения данных и запуска приложений, эксперты пришли к тому, что большие данные это следующий рубеж для инноваций и конкуренции.

Все больше компаний решили использовать big data, чтобы сократить операционные расходы, повысить эффективность и разработать новые продукты и услуги.

Теперь возможности больших данных практически безграничны. Все эти вехи стали возможными, когда мир решил перейти на цифровые технологии.

Как работают большие данные

Рынок больших данных набирает обороты с невероятной скоростью. В 2014 году объем рынка больших данных составлял всего 18,3 миллиарда долларов. В отчете Wikibon о больших данных прогнозируется, что к 2026 году общий доход от оборудования, программного обеспечения и профессиональных услуг, связанных с большими данными, достигнет 92,2 миллиарда долларов. Однако не удивляйтесь, если это число резко вырастет в ближайшие годы.

Одна из основных причин такого ускорения может быть связана с IoT (Интернет вещей). Хорошо это или плохо, но люди постоянно работают с подключенными к Интернету устройствами, которые способствуют постоянному потоку данных.

Сегодня мы владеем смартфонами, ноутбуками, планшетами, интеллектуальными телевизорами, игровыми консолями, умными часами, и даже электро автомобилями, которые имеют подключение к серверам производителей.

Реальный объем больших данных зависит от того, как мы взаимодействуем с этими устройствами. Например, носимое устройство, такое как умные часы, может собирать все типы данных о вас. Это устройство может отслеживать частоту сердечных сокращений, качество сна, уровень глюкозы в крови и даже циклы менструации.

В свою очередь, данные ваших умных часов могут быть переданы поставщикам медицинских услуг для более персонализированного ухода за пациентами. Теоретически страховые компании также могут использовать эти данные (на ваше усмотрение) для определения ставки.

Big Data, это больше, чем просто взаимодействие пользователя с устройством. Огромные наборы данных можно вводить в нейронную сеть глубокого обучения (представьте себе цифровой искусственный сверхмозг), чтобы понять эффективность с точки зрения бизнеса. Примером этого может быть анализ производственного оборудования для профилактического обслуживания и экономии энергии.

Разобраться во всех этих данных и использовать их для получения уникальных, рентабельных и потенциально революционных открытий — вот в чем заключается реальная ценность больших данных.

3 сегмента Big Data

Конечно, большие данные непросто понять, особенно с такими огромными объемами и разнообразием данных сегодня. Чтобы помочь разобраться в больших данных, эксперты разбили их на три более простых для понимания сегмента. Эти сегменты называются тремя составляющими больших данных: объемом, скоростью и разнообразием.

1. Объем

Первый сегмент больших данных, самый знаменитый, и он относится к «большому» объему данных, доступных сейчас и в будущем.

Данных очень много, почти непонятное количество. Поскольку 90 процентов всех данных за всю историю было создано за последние несколько лет, это составляет примерно 2,5 квинтиллиона байтов данных, создаваемых каждый день. Чтобы представить это число в перспективе, если положить 2,5 квинтиллиона монет, они покроют Землю пять раз.

Но если вы думали, что 2,5 квинтиллиона, это много, загрузите этот отчет, заказанный Seagate и выполненный IDC показывает, что к 2025 году цифровая вселенная достигнет 163 зеттабайт данных, или 163 триллиона гигабайт!

Давайте посмотрим на объем с точки зрения социальных сетей, поскольку социальные сети оказали существенное влияние на большие данные. С момента первого запуска Facebook в 2004 году на платформу было загружено более 250 миллиардов фотографий.

Facebook накопил огромное количество личных данных, и его 2,5 миллиарда пользователей делятся ошеломляющим количеством данных каждую секунду.

2. Скорость

Вторая сегмент big data относится к скорости, с которой расширяется вселенная больших данных. Первоначально ускорение обработки больших данных может открыть захватывающие возможности.

К сожалению, скорость роста данных быстро опережает нашу способность их расшифровать. Исследование Digital Universe проведенное IDC показало, что объем данных в мире удваивается каждые два года. Еще более прискорбным является тот факт, что 3 процента мировых данных организованы и «помечены», и лишь 0,5 процента фактически готовы к анализу.

Большие данные не просто «большие», они еще и растут экспоненциально быстро. Давайте посмотрим на эту скорость в перспективе, продолжив нашу серию удивительных фактов о Facebook. Каждую минуту публикуется 500 000 комментариев, обновляется 293 000 статусов и генерируется 4 миллионов лайков в Facebook!

Я люблю аналогии. Так что для меня вселенная больших данных расширяется так же, как наша физическая вселенная звезд, планет, галактик и темной материи.

Big dara технологии и метаданные (данные о данных) в сочетании с искусственным интеллектом и машинным обучением необходимо будет использовать в полной мере, чтобы дать нам лучший снимок будущих рубежей.

3. Разнообразие

Последняя сегмент big data относится к разнообразию или множеству различных типов данных, которые генерируются сегодня.

Данные большие, данные быстрые, но данные также чрезвычайно разнообразны. Всего несколько десятилетий назад данные скорее всего, были бы в виде простого текста и аккуратно структурированы в реляционной базе данных. Вариантов использования этих данных было не так уж много, кроме простой классификации или возможно, поиска тенденции.

Большие данные коренным образом изменили ландшафт данных. По-прежнему есть место для текстовых данных, но в игру вступили такие форматы данных, как цифровое аудио, видео, изображения, геопространственные данные и другие.

Каждый тип данных уникален с точки зрения размера, а также того, как они хранятся и классифицируются в облаке, базе данных и т. д. Уникальным каждый формат также делает то, как мы их анализируем для получения ценных решений.

Правдивость и ценность

Но подождите, это еще не все! Два дополнительных сегмента, известные как достоверность и ценность, могут не быть частью основной структуры, но они становятся все более важными по мере распространения больших данных.

Правдивость, это просто точность данных. Не все данные точны или непротиворечивы и с ростом больших данных становится все труднее определить, какие данные действительно приносят пользу. Хорошим примером противоречивых данных являются данные социальных сетей, которые часто изменчивы и имеют тенденцию к тому или иному. Согласованными данными будут прогнозы погоды, которые намного легче предсказать и отслеживать.

Ценность, это самый простой сегмент big data. Он задает вопрос: «Как мы можем использовать все эти данные, чтобы извлечь что-то значимое для наших пользователей или бизнеса?» Большие данные не принесут особой пользы, если их анализировать без цели.

Типы больших данных

Мы знаем, что с притоком большего количества устройств, платформ и вариантов хранения это приведет не только к увеличению объема данных, но и к увеличению разнообразия имеющихся данных.

Но не все данные одинаковы. Под этим я подразумеваю, что способ хранения и поиска идентификационного номера в реляционной базе данных полностью отличается от извлечения значения из части видеоконтента.

Один тип данных мы называем структурированными, а другой — неструктурированным. Но есть также третий тип данных, называемый полуструктурированными. Давайте рассмотрим различия каждого типа данных.

Структурированные данные

Структурированные данные по большей части хорошо организованы в реляционной базе данных. Если вам нужно получить доступ к информации в базе данных, вы можете легко сделать это с помощью быстрого поиска.

Структурированные данные на самом деле очень похожи на машинный язык, который компьютер способен понять. Этот тип данных аккуратно размещается в фиксированном поле в записи или файле.

Один из наиболее распространенных примеров структурированных данных это то, что вы видите в электронной таблице.

Неструктурированные данные

Было бы неплохо, если бы все данные могли быть аккуратно структурированы, но данные, созданные человеком, такие как фотографии в социальных сетях, голосовая почта, текстовые сообщения и многое другое, по факту неструктурированы.

На самом деле от 80 процентов всех данных неструктурированы. Но что означает неструктурированный? Это означает, что данные, которые нелегко идентифицировать с помощью машинного языка, не соответствуют стандартной базе данных или таблице.

Вы можете быть удивлены, но большинство неструктурированных данных на самом деле содержат много текста. Например, текстовые сообщения неструктурированы, потому что в отношении машин, люди не разговаривают и не печатают логически. Вот почему машинное обучение и обработка естественного языка используются для анализа человеческих языков, сленгов, жаргонов и многого другого.

Существуют также неструктурированные данные, генерируемые машинами, которые машинам немного легче обрабатывать. Примером этого могут быть спутниковые снимки с прогнозом погоды.

Полуструктурированные данные

Третий тип данных находится где-то между структурированными и неструктурированными, также известными как полуструктурированные данные.

Такие вещи, как XML-файлы или электронные письма, являются примерами полуструктурированных данных, потому что, хотя они содержат такие теги, как дата, время и информация об отправителе и ​​получателе, язык используемый в них, не структурирован.

Аналитика больших данных

Программное обеспечение для анализа больших данных по сути, набирает обороты там, где прекращается обычный анализ, рассматривая большие объемы структурированных и (в основном) неструктурированных данных.

Давайте проведем быстрое сравнение этих двух.

Программное обеспечение бизнес-аналитики помогает предприятиям принимать более взвешенные решения, анализируя данные в хранилище данных организации. В центре внимания BI больше находится управление данными и повышение общей производительности и операций.

С другой стороны, аналитика больших данных рассматривает больше сырых данных в попытке выявить закономерности, рыночные тенденции и предпочтения клиентов, чтобы делать обоснованные прогнозы. Есть способы добычи данных, которые делает аналитика больших данных.

Описательный анализ

Описательный анализ создает простые отчеты, графики и другие визуализации, которые позволяют компаниям понять, что произошло в конкретный момент. Важно отметить, что описательный анализ относится только к событиям, которые произошли в прошлом.

Диагностический анализ

Диагностический анализ дает более глубокое понимание конкретной проблемы, тогда как описательный анализ, это скорее обзор. Компании могут использовать диагностический анализ, чтобы понять, почему возникла проблема. Этот анализ немного сложнее и может даже включать аспекты ИИ или машинного обучения.

Прогнозный анализ

Объединяя передовые алгоритмы с искусственным интеллектом и машинным обучением, компании могут предсказать, что скорее всего, произойдет дальше. Возможность дать обоснованный ответ о будущем, это может принести бизнесу большую пользу. Прогнозная аналитика полезна для прогнозирования тенденций и выявления закономерностей.

Предписательный анализ

Предписывающий анализ чрезвычайно сложен, поэтому он еще не получил широкого распространения. В то время как другие аналитические инструменты можно использовать, чтобы сделать собственные выводы, предписывающий анализ дает вам реальные ответы. Для отчетов такого типа необходим высокий уровень использования машинного обучения.

Примеры больших данных

В настоящее время данные переплетаются почти во всех частях нашего общества. Будь то пользователь, обновляющий свой статус в Facebook с помощью мобильного устройства или бизнес, использующий данные для улучшения функциональности продукта, мы все вносим свой вклад в мир больших данных.

Вот что некоторые отрасли планируют делать со всеми этими данными.

Телекоммуникации

С миллиардами мобильных пользователей по всему миру телекоммуникации созрели для инноваций в области больших данных. Используя аналитику больших данных, поставщики услуг могут намного быстрее восстанавливаться после сбоя сети, точно определяя его основную причину с помощью данных в реальном времени. Аналитика также может применяться для поиска более точных и персонализированных способов выставления счетов клиентам. Данные о настроениях из социальных сетей, геопространственные данные и другие мобильные данные могут использоваться для предложения целевых медиа и развлечений.

Финансовые услуги

Все больше банков отказываются от ориентации на продукты и сосредотачиваются на клиенте. Большие данные могут помочь сегментировать предпочтения клиентов с помощью многоканального маркетингового подхода. Возможно, наиболее очевидным применением больших данных в финансовых услугах является обнаружение и предотвращение мошенничества. Аналитика больших данных и машинное обучение позволяют изучить склонности клиента и отличить их от необычного поведения.

Здравоохранение

Мы упоминали, как данные умных часов можно использовать для персонализированного ухода за пациентами. Прогнозный анализ может иметь феноменальные возможности в сфере здравоохранения, позволяя раньше обнаруживать заболевания и более точно связывать определенные факторы риска.

Образование

Одна образовательная модель подходит не всем учащимся. Некоторые предпочитают онлайн, другие живое общение с преподавателем. Big data аналитику можно использовать для создания более индивидуальных моделей обучения для всех студентов.

Будущее Big data

Рынок больших данных не просто так сильно вырос. Все больше компаний осознают важность использования основанного на данных маркетинга и общего бизнес-подхода не только для внутренних процессов, но и для улучшения впечатлений своих клиентов.

Новые технологии такие как искусственный интеллект, машинное обучение и НЛП, используют большие данные для создания новых продуктов, взаимодействия с пользователем, снижения затрат и многого другого.

Так куда мы идем? Какое будущее ждет big data? Хотя картина не совсем ясна, у нас есть свое представление.

Мы можем предсказать, что интернет вещей (IoT) является движущей силой этого роста.

Одной из основных причин такого всплеска взаимодействий является рост числа интеллектуальных помощников и диалогового интерфейса. Вам нравится общаться с Siri или Алисой? Хорошие новости: приготовьтесь встретить еще много, таких виртуальных друзей в ближайшем будущем.

Интернет вещей не только увеличит взаимодействие пользователей с устройствами, но и сыграет решающую роль в межмашинном (M2M) взаимодействии. Датчики станут движущей силой, связывающей машины с Интернетом. Один из способов использования данных о взаимодействиях M2M — это мониторинг воздействия человека на окружающую среду, лесных пожаров, землетрясений и других природных сил.

Ожидается, что к 2025 году цифровая вселенная достигнет 163 зеттабайт, поэтому акцент будет постепенно смещаться с объема данных на их достоверность. Мы не только должны доверять данным, которые анализируем, но и быть уверенными, что в какой-то момент они пригодятся.

Big data даже в будущем будет иметь решающее значение для маркетинга, продаж и разработки продуктов, и когда мы полагаемся на данные для таких вещей, как вождение автомобиля с помощью автопилота или автоматизированный общественный транспорт. Вот почему правдивость становится все более важной.

В заключении

Появление больших данных поставило во главу угла клиентоориентированность. Большие данные помогают предприятиям принимать более быстрые и взвешенные решения. Используя аналитику больших данных, мы можем предсказать, где могут возникнуть проблемы в будущем, и применить эти данные для решения этих проблем.

Развитие новых технологий, таких как искусственный интеллект и машинное обучение, сделает big data более ценными. Мы живем во время, когда большие данные действительно набирают обороты, что может быть одновременно захватывающим и подавляющим.

Проголосуйте:

28 баллов
За Против