Алгоритм - Учебный центр

Версия сайта для слабовидящих
Заполните форму ниже! Мы вам перезвоним!

Нажав на кнопку "Отправить", Я даю своё согласие на автоматизированную обработку указанной информации, распространяющейся на осуществление всех действий с ней, включая сбор, передачу по сетям связи общего назначения, накопление, хранение, обновление, изменение, использование, обезличивание, блокирование, уничтожение и обработку посредством внесения в электронную базу данных, систематизации, включения в списки и отчетные формы.


Особенности хранения информации в корпоративных системах.

Особенности хранения информации в корпоративных системах.

С учетом современных требований к организации управления самым динамичным и наиболее ценным активом предприятия можно считать информацию (данные различного типа). Объем «потребляемой» информации растет в экспоненциальной прогрессии вместе с ростом глобальных сетей и электронной коммерции.

Благодаря развитию Интернета и коренным изменениям в бизнес-процессах информация накапливается с большой скоростью и управление ресурсами хранения данных становится одной из стратегических проблем, стоящих перед сетевыми администраторами. Для эффективного управления предприятием и достижения коммерческого успеха в его работе компании должны обладать эффективной стратегией хранения, защиты, совместного доступа и управления данными, – как сегодня, так и в будущем.

При экстенсивном пути развития информационная система предприятия буквально «съедает» ресурсы и постоянно требует новых. Чтобы информационная инфраструктура начала приносить реальную прибыль нужно внедрять решения «по ключ», которые обеспечат возврат от инвестированных в данном направлении средств. Подобные решения не должны быть статичными. Скорее они должны отражать реальные потребности в росте информационных потоков и обеспечивать готовность к наращиванию их объемов исходя из реальных потребностей. Таким образом, организации, планирующей рост объема данных от 500 гигабайт до 5 терабайт за 5 лет, нет необходимости сразу выкладывать деньги за хранилище емкостью 5 терабайт. Это можно сделать постепенно и планомерно.

Большие объемы данных, которые накапливаются и используются в корпоративных системах, можно разделить на хранилища данных, производственные базы данных и системы оперативной обработки транзакций.

Организация хранилищ данных (data warehousing) — это одно из технологических направлений, чаще всего ассоциирующееся с современными вычислительными системами масштаба корпораций. Одно из основных практических преимуществ состоит в том, что хранилище данных способствует повышению конкурентоспособности предприятия, поскольку благодаря ему упрощается анализ информации о состоянии дел. Ну, а по итогам такого анализа можно принять меры для повышения качества обслуживания клиентов.

Итак, что такое хранилище данных? Есть ли у компании необходимость в нем, и если да, то каким оно должно быть?

По существу хранилище данных обеспечивает накапливающиеся с течением времени данные для содействия в принятии решений. К числу программ, обеспечивающих принятие решений, относятся системы подготовки и вывода отчетов, оперативного анализа (online analytical processing, OLAP), информационные системы руководителей (executive information system, EIS) и средства интеллектуального анализа данных (data mining).

Хранилище данных можно рассматривать, в первую очередь, как централизованный интегрированный репозиторий (склад) информации. Здесь слово «интегрированный» означает, что проведены очистка данных от всего лишнего и ошибок, объединение данных и полученная выверенная информация объединена в новую структуру. Уровень сложности перечисленных шагов зависит от числа систем, размещающих информацию в хранилище данных, и степени различий между способами ее обработки, реализованными в таких системах.

Однако у большинства компаний уже есть репозитории производственной информации, и многие из них централизованны. Можно ли назвать их хранилищами данных? Не всегда. Хранилища данных отличаются от производственных баз данных или систем оперативной обработки транзакций (online transaction-processing, OLTP) своим назначением и устройством.

OLTP-системы проектируются и оптимизируются для ввода и обновления данных, тогда как хранилища данных — для извлечения данных и подготовки на их основе отчетов. Последние обычно представляют собой системы, доступные пользователям только для чтения (при этом администраторы или программы, наполняющие хранилище данными, имеют более широкие права доступа к нему). В OLTP-системах хранятся данные, необходимые в повседневной деятельности предприятия, тогда как хранилище содержит данные, позволяющие проводить анализ деловых операций. В OLTP-системах находятся текущие данные, подверженные частым изменениям, причем отдельные элементы в момент их ввода в базу данных могут быть неполными или даже неизвестными.

В хранилищах же накапливаются данные, не меняющиеся со временем и избавленные от ошибок транзакций. И, наконец, в силу отличий целевого назначения в OLTP-системах и хранилищах данных применяются разные стратегии моделирования данных. Избыточных данных в OLTP-системах практически не бывает, так как их обновление сопряжено с трудностями. OLTP-системы максимально нормализованы и обычно построены на основе реляционной модели. В то же время избыточность информации оказалась бы весьма полезной для хранилищ данных, поскольку благодаря этому упростился бы доступ пользователей к ней и повысилась производительность за счет снижения числа таблиц, «вовлекаемых» в поиск. Основой некоторых хранилищ данных служит вместо реляционной модели многомерная схема.

С учетом характера выполняемых операций и решений, для принятия которых хранилище необходимо, можно выделить два основных типа хранилища данных.

Один из простейших типов хранилищ данных — оперативный склад данных (operational data store, ODS) — копия производственной базы данных, освобожденных от ошибок. Основная характеристика такого типа хранилища данных состоит в том, что оно содержит значительное количество данных (миллиарды записей). В первую очередь, ODS применяется для составления отчетов о стандартных рабочих операциях и подробных описаний транзакций при анализе итогов. Так как ODS представляет собой копию OLTP-системы, если подходить более строго, то его нельзя относить к числу истинных хранилищ данных. Но поскольку ODS удовлетворяет общему определению и входит в состав многих хранилищ данных, его все же не следует исключать.

Частота обновления ODS — раз в месяц, неделю или чаще, иногда почти в режиме реального времени — зависит от того, сколь часто организации нужны отчеты. Основное преимущество склада данных — повышение быстродействия производственной системы за счет того, что ответственность за подготовку отчетов и запросов возлагается вместо OLTP-системы на ODS.

Потребности организаций, нуждающихся в основном в оперативных отчетах и редко занимающихся аналитическими или маркетинговыми исследованиями, ODS вполне удовлетворит. Вместе с тем, если число выполняемых за день транзакций относительно мало, применение ODS может оказаться лишним. В этом случае с составлением отчетов вполне справится и производственная система.

Меньшие, локальные хранилища данных называются информационными витринами (datamarts). Они содержат ограниченное подмножество данных, поступающих обычно с машин одного подразделения или группы, обслуживающей какой-то бизнес-процесс. Их можно применять для анализа информации о продажах, например, в конкретном регионе или для определенной серии изделий. В информационных витринах обычно хранятся только суммарные данные, но, если есть нужда в детальных описаниях транзакций, их можно связать с оперативными складами данных. Иногда ответственность за управление ими возлагается на отделы информационных технологий (ИТ), однако чаще всего эта задача находится на совести пользователей из отдела или рабочей группы.

Многие программы OLAP выполняются с применением информационных витрин данных, но добиться повышения эффективности анализа взаимодействия подразделений, информационных систем руководителей и программ интеллектуального анализа данных практически невозможно без сведений со всего предприятия.

Для сбора и анализа обширной информации такого плана предназначено корпоративное хранилище данных. В силу масштабности и сложности корпоративного хранилища данных им обычно управляет центральная группа ИТ. Как следует из его названия, такое хранилище содержит информацию, собранную по всем подразделениям организации. Этот тип хранилища гораздо труднее проектировать и обслуживать, чем хранилища других типов, поскольку подобные задачи подразумевают объединение в общие предметные области данных из нескольких разных систем.

Данные, собранные из разных систем, часто несовместимы по форме или не согласуются друг с другом, поэтому до объединения их в хранилище иногда приходится проводить ряд преобразований, с тем чтобы придать им осмысленный вид. Следует учитывать, что 80% времени при построении такого хранилища данных уйдет на извлечение, «очистку» и загрузку данных.

Если применение методов интеллектуального анализа данных сулит организации преимущества над конкурентами, корпоративное хранилище данных вполне может оправдать затраченные на его формирование усилия. Средства интеллектуального анализа взаимодействуют с различными статистическими методиками моделирования данных, а также оценки и прогнозирования результатов на основе известной информации. Такие инструменты лучше подходят для работы с крупными наборами данных.

Есть множество способов построения корпоративного хранилища данных. Например, централизованный подход предусматривает объединение всех данных предприятия в одно большое хранилище. При другом подходе, распределенном, предполагается сбор данных из множества информационных витрин (подразделенческих складов).

Применение хранилищ данных — дело прибыльное, но окупается далеко не сразу. Вероятно, следует тщательно оценить объемы необходимых капиталовложений, прежде чем надеяться на прибыль.

Объем дискового пространства. Хранилища данных требуют немало дискового пространства. При оценке его объема не стоит принимать во внимание только современные производственные системы. Надо помнить, что формируемая система будет хранить накапливающиеся данные. Любая организация предпочтет хранить важные данные как минимум за год, а если на будущее запланирован анализ тенденций, понадобятся данные за несколько лет. Кроме того, отчеты и анализы обычно не обходятся одним индексом. Итак, щедрость при оценке дискового пространства не помешает. Нет ничего необычного в хранилище данных, измеряемом терабайтами, а в некоторых крупных организациях счет идет даже на петабайты (1 Пбайт = 1024 Тбайт).

Консолидация. Объединение данных из нескольких источников может осложняться несовместимостью или проблемами, связанными с OLTP-системами. Для программ интеллектуального анализа согласованность имеет особое значение, поскольку большинство подобных инструментов автоматически повышает свой «интеллект» в процессе просмотра данных. Поэтому, возможно, придется подвергать данные дополнительной очистке либо вносить поправки в OLTP-системы. Следует выяснить у пользователей, какие данные им нужны, и решить, стоит ли овчинка выделки.

Безопасность. Защита хранилищ данных по своей сути отличается от защиты OLTP-систем. Чтобы хранилище данных не было убыточным, нужно, чтобы оно приносило пользу множеству исследователей, стало быть, доступ к нему будут иметь значительно больше людей, чем традиционно позволяют системы безопасности OLTP. Согласно мнению экспертов, разумный набор «прав на знание» должен превалировать над философией «необходимости в знании», следствием которой стал бы ограниченный доступ к хранилищам данных и минимальный уровень их эффективности. Организации, не способные пересмотреть культуру своей деятельности, скорее всего, впустую вложат средства в хранилища данных.

Дружественность по отношению к пользователю. Хранилища данных должны быть удобны в работе. Поскольку они не относятся к производственным системам, пользователям не часто приходится работать с ними. А самая быстродействующая и надежная система будет стоять без дела, если трудна в освоении или неудобна в эксплуатации.

Планирование проекта. Реализация хранилища данных иногда длится годами. Прежде чем приступить к проектированию хранилища, необходимо определиться, для каких целей оно предназначается, каковы потенциальные затраты и выгоды, какие ресурсы потребуются и сколько времени уйдет на его организацию. Без тщательного планирования и оценки нужд пользователей вероятность удачного завершения проекта мала.

Понимание значения хранилищ данных и заинтересованность компаний в их использовании растет. Но эффект от их использования не возникает на пустом месте, и наличие хранилища данных еще не означает автоматического повышения прибыльности компании. Хорошая технология не заменит хорошее руководство. Станет ли хранилище данных ценным стратегическим инструментом или дорогой безделушкой, зависит как от применяющей его организации, так и от технологических решений, в первую очередь от того, насколько оптимально оно интегрировано в информационную систему.  


Лицензия