среда, 8 октября 2014 г.

SAS Information Maps. Базовая работа с информационной картой. Часть 1.

SAS Information Maps. Базовая работа с информационной картой. Часть 1.


Всем привет!
Данная статья целиком и полностью посвящена работе в Information Map Studio 4.31 и всему, что с этим связано.


Работа с Information Maps начинается с работы в Management Console, а именно с управления библиотек:


Библиотеки, которые были созданы в Management Console, далее будут отображаться вInformation Map Studio. С ними мы и будем работать:
 

Далее, для работы потребуется включить Custom Properties значений, а также их шаблоны. Это обязательный элемент при проектировании информационной карты. 

Заходим в Tools -> Options -> Advanced:
 

Ставим галочки для Custom properties at start-up и находим шаблон matemplate.txt в\SASHome\SASCustomerIntelligenceStudio\ 
 

MATemplate.txt необходим для удобства и для ускорения работы с Information Maps. Он позволяет в несколько кликов выбрать соответствующие параметры для любых полей. Более того, его можно редактировать индивидуально для каждого конкретного случая.

Для того чтобы изменения вступили в силу, необходимо перезапустить Information MapStudio.

В качестве примера будем использовать стандартную схему Marketing AutomationSample

Данная таблица представляет собой описание о потребителях и домохозяйствах, а также связи между ними. Сохраним информационную карту и добавим таблицы из существующей библиотеки в Selected Resources:
 

Перенесём таблицу CUSTOMER в Information Map Contents:
 

Рассмотрим обязательные значения:
MAMeta – указание библиотеки (синтаксис SAS), где будут храниться значения метаданных после их генерации. В нашем случае будет так: libname mameta ‘c:\temp’;Очень важно не ставить слэш в конце ‘c:\temp\’, иначе генерация метаданных не будет работать.

Subject_Default – значение сущности (обычно ключа) по умолчанию. Используем:Subject_ID_C

Subject_ID_C – значение сущности, которое будет отображаться в выпадающем списке при работе в Customer Intelligence Studio.  Используем: Customer

Subject_Code_Subject_ID – уникальное двухзначное числовое значение, которое требуется для некоторых внутренних параметров в системе. Используем: 01

MetadataTable_Prefix_Subject_ID_C – значение, которое будет автоматически присвоено в начало названия у таблиц, содержащих метаданные. Используем: Cust

Также есть необязательные значения. Хочу выделить одно:
Metadata – указание на создание метаданных на самом верхнем уровне. Это означает, если было выбрано, что генерируются метаданные, то они будут сгенерированы абсолютно для всех элементов, если не указано обратное. На этом уровне рекомендую установить значение NONE. Если же параметр Metadata не указан, то по умолчанию у него проставлено значение COUNTS, что может очень сильно сказаться на скорости обновления метаданных.
 

Под метаданными понимается заранее подсчитанные и сгенерированные значения для выборки в Customer Intelligence Studio. Бывает 3 варианта: без метаданных (NONE), со значениями (VALUES) и со счётчиками (COUNTS). Выбор генерации метаданных определяет удобство с одной стороны, с другой стороны же – количество времени, требуемое на обновление этих метаданных. 

Приведу примеры отображения метаданных в Customer Intelligence Studio по характеристике Gender (пол):
 Без метаданных (NONE)
 
Со значениями (VALUES). 

В этом случае достаточно быстро можно получить актуальные счётчики значений, если предварительно выбрать интересующее значение из списка и нажать обновить счётчики.
 

Со счётчиками (COUNTS)

Продолжим настройку информационной карты. На уровне ниже (на уровне папки) также выставляем значение Subject_ID_C  - Subject_ID_C:

Далее переходим к основным элементам таблицы, с которой работаем. 

Основной параметр, который необходимо указать при работе с элементами – это LEVEL.
Level – значение, которое определяет как SAS будет работать с этой переменной. Оно бывает следующих типов:
Значение
Описание
ТипCHAR
ТипNum
Тип Дата
ID
Определяет данные, но не используется в анализе и не отображается в Customer Intelligence Studio
да
да
да
Unary
Может иметь лишь одно значение, включая пропущенное (NULL)
да
да
нет
Binary
Может иметь лишь два значения, включая пропущенное (NULL)
да
да
нет
Nominal
Может иметь множество различных значений, включая пропущенное (NULL).
Без какого-либо порядка, например пол человека, семейное положение и тд.
да
да
нет
Interval
Может иметь множество значений, включая бесконечность.
нет
да
да
Ordinal
Может иметь множество значений, которые могут быть упорядочены. Например, доход, возраст и тд.
да
да
нет

Также очень важный параметр – Classification. Параметр связан со значение Level, а также он определяет, каким образом будет производиться классификация в SASInformation Map Studio.
Значение Level
Classification
Category
Measure
ID
да
нет
Unary
да
нет
Binary
да
нет
Nominal
да
нет
Interval
да
да
Ordinal
да
нет

Разница между Category и Measure заключается в том, что Measure позволяет проводить агрегацию по сущности. Для поля этого типа будет доступно значение AGGREGATION, где указывается, какого рода манипуляцию можно будет сделать. В списке значений представлено огромное количество на выбор. Например, значение среднего, минимума, максимума и тд. 

Продолжение читайте во второй части статьи про информационные карты.

Комментариев нет:

Отправить комментарий