Анализ данных в государственном управлении
Анализ данных в государственном управлении
Сегодня, как никогда раньше, мы сталкиваемся с постоянно растущими объемами данных[1]. Анализ данных играет решающую роль в их капитализации, позволяя работникам органов государственного управления понять, отвечают ли разработанные ими программы нуждам общественности и решать возникающие проблемы. Органы государственного управления, которые анализируют данные, могут:
― Изучать общественное мнение и влиять на его изменение.
― Прогнозировать результаты выборов.
― Проводить предвыборные исследования и, опираясь на их результаты, влиять на изменение расстановки сил в пользу того или иного кандидата.
― Более эффективно планировать свои программы и работу с населением.
― Оценивать воздействие программы на целевой сегмент.
― Оценивать затраты на выполнение программы и их эффективность.
― Находить пути увеличения удовлетворенности населения.
Анализ данных позволяет извлечь полезную информацию из данных, которые собирались в течение многих лет. В 80-е годы для автоматизации решения задач, прежде выполнявшихся вручную, в коммерческих компаниях начали использовать компьютеры. Компьютеры стали применять для ведения многих организационных процессов, включая бухгалтерию и обслуживание клиентов.
В 90-е годы государственные организации начали создавать информационные базы данных и в настоящее время располагают огромными объемами данных, которые постоянно растут. Обработка данных осуществляется с использованием электронных таблиц MS Excel или специализированных программ, например SPSS.
Использование Microsoft Excel. Microsoft Excel предоставляет широкие возможности для анализа статистических данных. При решении простых задач всегда под руками встроенные функции, такие как СРЗНАЧ(), МЕДИАНА() и МОДА(). Если же их оказывается недостаточно, следует обратиться к Пакету анализа.
Пакет анализа является дополнением и содержит набор функций и инструментов, расширяющих встроенные аналитические возможности Excel. Пакет анализа позволяет строить гистограммы, делать случайные или периодические выборки данных и находить их статистические характеристики, генерировать неравномерно распределенные случайные числа, проводить регрессионный анализ, выполнять преобразование Фурье и т.д.
В статистике совокупность результатов измерений называют распределением. Microsoft Excel дает возможность анализировать распределения, используя встроенные статистические функции, функции анализа выборок и генеральной совокупности, а также инструменты Описательная статистика, Гистограмма, Ранг и Персентиль.
Основные встроенные статистические функции. Функция СРЗНАЧ() вычисляет среднее арифметическое или просто среднее для последовательности чисел: суммируются числовые значения в интервале ячеек и результат делится на количество этих значений. Эта функция игнорирует пустые, логические и текстовые ячейки.
Функция МЕДИАНА() вычисляет медиану множества чисел. Медиана – это число, являющееся серединой множества: количества чисел, меньшие и большие медианы, равны. Если количество чисел или ячеек четное, то результатом будет среднее двух чисел в середине множества.
Функция МОДА() возвращает наиболее часто встречающееся значение во множестве чисел.
Функция МАКС() возвращает наибольшее значение среди заданных чисел.
Функция МИН() возвращает минимальное значение среди заданных чисел.
Функция СУММПРОИЗВ() возвращает сумму произведений соответствующих членов двух и более массивов-аргументов (но не более 30 аргументов). Встречающиеся в аргументах нечисловые значения интерпретируются нулями.
Функция СУММКВ() возвращает сумму квадратов аргументов.
Анализ выборок и совокупности. Дисперсия и стандартное отклонение – это статистические характеристики распределения наборов или генеральной совокупности данных. Стандартное отклонение определяется как квадратный корень из дисперсии. Как правила, около 68% данных генеральной совокупности с нормальным распределением находится в пределах одного стандартного отклонения и около 95% - в пределах двух стандартных отклонений. При большой величине стандартного отклонения данные широко разбросаны относительно среднего значения, а при маленькой – они группируются близко к среднему значению.
Четыре статистические функции ДИСП(), ДИСПР(), СТАНДОТКЛОН() и СТАНДОТКЛОНП() – предназначены для вычисления дисперсии и стандартного отклонения чисел в интервале ячеек. Перед тем как вычислять дисперсию и стандартное отклонение набора данных, нужно определить, представляют ли эти данные генеральную совокупность или выборку из генеральной совокупности. В случае выборки из генеральной совокупности следует использовать функции ДИСП() иСТАНДОТКЛОН(), а в случае генеральной совокупности – функции ДИСПР() и СТАНДОТЛОНП().
Функция СУММСУММКВ() вычисляет сумму сумм квадратов соответствующих элементов в массивах.
Функция СУММКВРАЗН() вычисляет сумму квадратов разности соответствующих элементов в массивах.
Инструмент анализа Описательная статистика. Этот инструмент дает возможность построить таблицу параметров описательной статистики для одного или более наборов входных данных. Для каждого набора входных данных в выходном интервале строится таблица со следующей информацией: Среднее, Стандартная ошибка, Медиана, Мода, Стандартное отклонение, Дисперсия выборки, Эксцесс, Асимметричность, Интервал, Минимум, Максимум, Сумма, Счет, Наибольший (k), Наименьший (k) (для любого заданного k) и Уровень надежности (доверительный интервал). Статистической обработке подвергается один или несколько наборов данных, располагаемых в интервале, ссылка на который задается в поле Входной интервал. Переключатель Группирование дает возможность уточнить, как размещаются данные: по столбцам или по строкам. Если столбцы или строки данных имеют метки, то при установленном флажке Метки в первой строке / Метки в первом столбце они используются в качестве заголовков столбцов статистических параметров выходной таблицы. Адрес верхней левой ячейки для этой таблицы задается в полеВыходной интервал. При установленном флажке Итоговая статистика создается подробная выходная таблица, установив соответствующие флажки, можно поместить в нее дополнительные данные.
Как и другие инструменты Пакета анализа, инструмент Описательная статистика создает таблицу параметров. Если нужна не таблица, а отдельные статистические характеристики, то их можно получить либо с помощью другого инструментаПакета анализа, либо с помощью функций Microsoft Excel.
Инструмент Гистограмма. Гистограммы или линейчатые диаграммы – удобное средство для обработки результатов измерений. Область значений измеряемой величины разбивается на несколько интервалов, называемых также карманами, в которых в виде столбцов откладывается количество попавших в этот интервал измерений, называемое частотой. Карманы не обязательно должны быть равными, но они должны располагаться по возрастанию границ. В принципе поле Интервал карманов можно оставить пустым. Microsoft Excel равномерно распределит карманы в интервале от минимального до максимального значения исходных данных. Число карманов будет равно корню квадратному из количества исходных значений.
Можно выполнить до трех типов анализа, установив соответствующие флажки: Парето (отсортированная гистограмма),Интегральный процент и Вывод графика.
В столбце Частота выводится число исходных значений, которые больше или равны левой границы кармана, но меньше левой границы следующего кармана. Последним значением столбца является число исходных значений, больших или равных левой границе последнего кармана. Столбец интервалов для карманов дублируется в столбец Карман. Это удобно, если выходной интервал для результатов анализа задан в другом месте, а не рядом с интервалом карманов. Нельзя выходной интервал совместить с исходным интервалом карманов. Так как интервал карманов копируется, то его лучше заполнить числовыми константами, а не формулами. Если все же нужны формулы, то в них обязательно должны использоваться абсолютные ссылки, иначе результаты копирования могут оказаться неверными.
При установленном флажке Парето выходная таблица сортируется по убыванию частоты, а при установленном флажке Интегральный процент в таблицу добавляется столбец с накопляемым процентным вкладом каждого кластера.
Инструмент Гистограмма генерирует таблицу числовых констант. В тех случаях, когда необходима связь с исходными значениями, следует использовать формулы с табличной функцией ЧАСТОТА(массив данных; массив карманов).
Ранг и Персентиль. В Пакете анализа есть несколько функций, которые извлекают информацию о ранге и персентиле (в отечественной литературе встречается термин «процентиль»).
Функция ПРОЦЕНТРАНГ(массив; х; разрядность) возвращает процентное значение заданного элемента из множества данных. Данная функция может использоваться для создания таблицы персентилей, связанной с исходными данными. Значения этой таблицы будут обновляться при каждом изменении входных величин.
Функция ПЕРСЕНТИЛЬ(массив, k) используется для определения элемента во входном множестве массив с указанным уровнем персентиля k, который задается в виде десятичной дроби между 0 и 1.
Функция КВАРТИЛЬ(массив, часть) аналогична предыдущей. Первый аргумент массив задает входной интервал данных, второй аргумент часть может принимать только пять следующих значений: 0 – наименьшая величина, 1 – величина 25-го персентиля, 2 – медиана (величина 50 персентиля), 3 – величина 75-го персентиля, 4 – наибольшая величина. Вместо функции КВАРТИЛЬ() для получения наименьшего и наибольшего значений можно использовать функцию МИН() и МАКС()соответственно, а для получения медианы – функцию МЕДИАНА(). Эти функции вычисляются быстрее, чем функцияКВАРТИЛЬ(), особенно в случае больших массивов данных.
Функции НАИМЕНЬШИЙ(массив, k) и НАИБОЛЬШИЙ(массив,k) вычисляют соответственно k-тый наименьший и k-тый наибольший элемент во множестве данных, задаваемом аргументом массив.
Генерирование случайных чисел. Существует встроенная функция СЛЧИС(), предназначенная для генерирования равномерно распределенных случайных чисел в интервале от 0 до 1. Другими словами, при каждом обращении к функции СЛЧИС() она с равной вероятностью возвращает случайное число между 0 и 1.
Средства генерации случайных чисел из Пакета анализа дают возможность получать и неравномерные распределения. Эти массивы случайных чисел могут использоваться при решении задач методом Монте-Карло. Реализованы следующие типы распределений: Равномерное, Нормальное, Бернулли, Биномиальное, Пуассона и Дискретное. Седьмой тип – Модельноедает возможность заполнить числами массив по определенному закону.
Построение выборок из генеральной совокупности. Инструмент анализа ВЫБОРКА дает возможность извлекать подмножества чисел из заданного большого множества (генеральной совокупности) чисел. Из входного интервала ячеек можно выбрать определенное количество величин либо случайным образом, либо каждое n-ое значение и поместить их в заданный выходной интервал.
Вычисление скользящего среднего. Скользящее среднее – это методика прогнозирования, которая упрощает анализ тренда (тенденции), путем сглаживания флуктуаций результатов измерений по некоторому периоду времени. Эти флуктуации могут быть вызваны случайным «шумом», т.е. побочным результатом методики измерения. Например, результаты измерения роста ребенка будут изменяться в зависимости от погрешности линейки и от того, стоит ли ребенок прямо или сутулясь. Флуктуации в измерениях могут вызываться и другими условиями, что вносит систематическую ошибку. Так, выручка за месяц может зависеть от числа рабочих дней или от того, что ведущий продавец находился в отпуске.
Линейная и экспоненциальная регрессии. Термин "регрессия" широко применяется в научной литературе для обозначения так называемой статистической зависимости между двумя (несколькими) сериями значений каких-либо величин. Определение "статистическая" предполагает, что рассматриваемая зависимость реализуется как некоторая общая тенденция, от которой возможны случайные отклонения в ту или иную сторону.
Практические методы определения параметров регрессии (или, как еще говорят, регрессионного анализа) базируются на достаточно сложном математическом аппарате, составляющем предмет таких дисциплин, как математическая статистика, многомерный статистический анализ и др.
В табл. 1 приведены статистические функции, позволяющие пользователю реализовывать операции регрессионного анализа (выявления зависимостей между рядами данных) непосредственно на рабочем листе электронной таблицы.
В Excel имеется пять функций для линейной регрессии ЛИНЕЙН(), ТЕНДЕНЦИЯ(), ПРЕДСКАЗ(), НАКЛОН() и СТОШYX() и две функции для экспоненциальной регрессии ЛГРФПРИБЛ() и РОСТ(). Эти функции вводятся как табличные формы и возвращают результат в виде интервала массива. Каждая из функций может иметь один или несколько аргументов.
Таблица 1.
Статистические функции для регрессионного анализа
Функция |
Назначение функции и ее аргументы |
Тип |
ЛИНЕЙН |
Определяет параметры линейного тренда для заданного массива ЛИНЕЙН(знач.У; знач. X; констанста; стат.) |
Встроенная |
ТЕНДЕНЦИЯ |
Определяет предсказанные значения в соответствии с линейным трендом для заданного массива (метод наименьших квадратов) ТЕНДЕНЦИЯ(знач.У; знач. X; новые знач.Х; константа;) |
Встроенная |
ПРЕДСКАЗ |
Определяет предсказанное значение функции в заданной точке на основе линейной регрессии ПРЕДСКАЗ(Х; знач.У; знач. X) |
Встроенная |
НАКЛОН |
Определяет коэффициент для независимой переменной в уравнении парной регрессии НАКЛОН(знач.У; знач. X) |
Встроенная |
ОТРЕЗОК |
Определяет отрезок, отсекаемый на оси ординат линией линейной регрессии ОТРЕЗОК(знач.У; знач. X) |
Встроенная |
КВПИРСОН |
Определяет квадрат коэффициента корреляции Пирсона КВПИРСОН(знач.У; знач. X) |
Встроенная |
ПИРСОН |
Определяет коэффициент корреляции Пирсона (степень линейной зависимости между двумя множествами данных) ПИРСОН(массив 1 ; массив 2) |
Встроенная |
СТОШУХ |
Определяет стандартную ошибку предсказанных значений У для каждого X СТОШУХ(знач.У; знач. X) |
Встроенная |
РОСТ |
Аппроксимирует данные экспоненциальной кривой РОСТ(знач.У; знач. X; новые знач.Х; константа;) |
Встроенная |
Например, если требуется предсказать объем продаж при стабильных или слабо изменяющихся продажах, можно воспользоваться регрессией как средством прогнозирования. Однако можно получить неудовлетворительные результаты в периоды перед праздниками.
Линейная регрессия дает возможность наилучшим образом провести прямую линию через точки одномерного массива.
Экспоненциальная регрессия дает возможность наилучшим образом провести экспоненциальную кривую по точкам данных, которые изменяются нелинейно. Например, данные о росте населения почти всегда лучше описываются не прямой линией, а экспоненциальной кривой.
Множественная регрессия представляет анализ более чем одного набора данных, может быть как линейной, так и экспоненциальной. Например, для оценки стоимости дома в некотором районе необходимо использовать данные об его площади, числе ванных комнат, размере участка земли и времени постройки.
Установка надстройки Пакет анализа производится точно так же, как и установки прочих надстроек, то есть через меню Сервис > Надстройки, после чего в диалоговом окне Надстройки необходимо пометить пункт Пакет анализа и нажать кнопку ОК (рис. 1).
Рис. 1. Установка пакета анализа
Если процесс установки Завершается успешно, то в меню Сервис появляется еще один пункт - Анализ данных (рис. 2), а также при создании формул становится доступной новая группа функций - статистические.
Проблема изучения взаимосвязей различного рода показателей является одной из важнейших в экономическом анализе. В конечном счете, основное содержание любой экономической политики может быть сведено к регулированию экономических переменных, осуществляемому на базе выявленной тем или иным образом информации об их взаимовлиянии.
Целью статистического исследования является обнаружение и исследование соотношений между статистическими (экономическими) данными и их использование для изучения, прогнозирования и принятия решений.
Рис. 2. Окно Анализ данных, вызываемое из меню Сервис > Анализ данных
Capital Asset Pricing Model (Модель оценки финансовых активов) (CAPM) - экономическая модель для оценки акций, ценных бумаг, деривативов и/или активов путем соотношения риска и ожидаемого дохода. CAPM основывается на той идее, что инвесторы требуют дополнительный ожидаемый доход (рисковую премию), если их просят взять на себя дополнительный риск.
Описание CAPM. Объяснение Capital Asset Pricing Model (Модель оценки финансовых активов). CAPM была разработана Treynor ('61), Sharpe ('64) и Lintner ('65). Введя понятия систематического и специфического риска, она расширила теорию портфельного выбора (portfolio theory). В 1990г. William Sharpe стал лауреатом Нобелевской премии по экономике. «За его вклад в теорию ценообразования финансовых средств, так называемую Capital Asset Pricing Model (Модель оценки финансовых активов) (CAPM).»
Модель CAPM утверждает, что ожидаемый доход, который потребуют инвесторы равен: ставке по безрисковой ценной бумаге плюс рисковая премия. Если ожидаемый доход не равен или выше, чем требуемая доходность, то инвесторы откажутся инвестировать, и инвестиции не будут сделаны.
CAPM анализирует портфельный риск в форме систематического риска (systematic risk) и специфического риска (specific risk). Систематическим риском обладает рыночный портфель (market portfolio). Когда происходят движения на рынке, каждый индивидуальный актив подвергается влиянию в той или иной степени. В той степени, в какой актив движется вместе с изменениями на рынке, он подвержен систематическому риску. Специфическим риском называется риск уникальный для индивидуального актива. Он представляет составляющую доходности актива, не взаимосвязанную с общими движениями на рынке.
Согласно CAPM, рынок компенсирует инвесторов за принятие систематического риска, но не за принятие специфического риска. Это потому, что специфический риск можно диверсифицировать. Когда инвестор держит рыночный портфель, каждый индивидуальный актив в портфеле подвержен специфическому риску. Но посредством диверсификации, чистая подверженность инвестора риску составляет лишь систематический риск рыночного портфеля.
Формула CAPM. Формула CAPM является следующей:
― Ожидаемая доходность/Expected Security Return = Безрисковая доходность/Riskless Return + Beta x (Ожидаемая премия за рыночный риск/Expected Market Risk Premium)
или:
r = Rf + Beta x (RM - Rf)
{ Другой вариант формулы является следующим: r-Rf = Beta x (RM - Rf) },
где:
- r норма ожидаемого дохода по ценной бумаге;
- Rf ставка «безрисковой» инвестиции, т.е. по денежным средствам;
- RM норма доходности сопоставимого типа актива.
Beta - совокупный риск от инвестирования в общий рынок, как например, на Нью-Йоркской фондовой бирже. Beta, по определению приравнивается точно к 1.00000 .
Каждая компания также имеет Beta. Beta компании - риск компании по сравнению с Beta (риском) общего рынка. Если компания имеет Beta 3.0, то предполагается, что ее активы в 3 раза более рискованны, чем общий рынок. Beta показывает волатильность ценной бумаги, относительно типа актива.
Коэффициент Beta в данном уравнении (с точки зрения геометрической интерпретации он является угловым коэффициентом графика) служит важнейшей характеристикой риска изучаемого актива, о котором в зависимости от значения р можно заключить:
- Beta = 1 - риск ценной бумаги равен рыночному (рыночный риск - стандартное отклонение доходности рыночного портфеля), а доходность изменяется точно так же, как и рыночная;
-Beta>1 - риск ценной бумаги выше рыночного. В результате этого доходность ценой бумаги изменяется в том же направлении, что и рыночная, но в большей степени. Таким свойством, как правило, обладают ценные бумаги компаний, оперирующих в энергично развивающихся высокотехнологичных отраслях;
- 0<Beta<1 - риск ценной бумаги ниже рыночного, а ее доходность изменяется в том же направлении, что и рыночная, но в меньшей степени. Это часто встречается у компаний в традиционных отраслях, особенно связанных с пищевой промышленностью и коммунальным хозяйством;
- Beta<0 - данный теоретически возможный вариант означает, что доходность такой ценной бумаги изменяется в направлении, противоположном изменению рыночной доходности.
Если в качестве исходной информации мы имеем серии значений доходностей акций и доходностей рыночного (индексного) портфеля по периодам, то, применяя функцию НАКЛОН, мы можем легко получить оценку значения р-коэффициента (рис. 3). Заметим, что для оценки значения свободного члена линейного уравнения (ос) применяется функция ОТРЕЗОК.
В случае, если мы хотим провести полный статистический анализ имеющихся серий значений и, в частности, проверить статистические характеристики (значимость) полученных коэффициентов и всего уравнения регрессии в целом, нужно воспользоваться упомянутой выше надстройкой Пакет анализа (команда меню Пакет анализа > Регрессия).
Рис. 3. Определение значения коэффициента с помощью функции НАКЛОН
Компьютерная программа для статистической обработки SPSS – это мощное аналитическое программное обеспечение, эффективный инструмент, который позволит максимально использовать информацию, хранящуюся в виде необработанных данных.
Например, одно из областных Управлений здравоохранения смогло построить глубинные профили пациентов по их восприимчивости к различным опасным заболеваниям. Пользуясь статистическими методами анализа данных, сотрудники управления выделили поведенческие и демографические характеристики, которые определяли принадлежность человека к группе повышенного риска по отношению к тому или иному заболеванию. Этот анализ данных дал возможность эффективно информировать людей об опасности заболевания и обучать их мерам предотвращения этих заболеваний.
Еще один пример. Администрация области регулярно проводит мониторинг общественного мнения региона и пользуется SPSS как комплексным решением. В SPSS, кроме мощных аналитических возможностей, есть инструменты для разработки вопросников, ввода и чистки данных. Это позволяет Администрации постоянно быть в курсе изменений общественного мнения, влиять на эти изменения, а также направлять финансовые средства и усилия на поддержание определенных сфер жизни и групп населения.
Сегодня анализ данных позволяет делать обоснованные выводы на базе полученной информации. Вместо того, чтобы полагаться на интуицию, специалисты в области государственного управления анализируют данные и выбирают лучшие стратегии принятия решений.
Анализ данных опросов.
― Мониторинг общественного мнения и анализ социально-экономической ситуации. Анализ данных нужен для выяснения ситуации в регионе и определения проблемных сфер.
― Определение проблем, формирующих кризисную ситуацию. Анализ данных необходим не только для выявления проблем региона, но и для определения причин их возникновения.
― Анализ реакции населения на внедрение различных федеральных и региональных программ. Возможность корректировки программ для повышения их эффективности.
― Анализ экономического положения и уровня жизни населения.
Предвыборные исследования и прогнозирование результатов выборов.
― Анализ эффективности политической рекламы.
― Анализ средств массовой информации. Дает понимание того, к какой аудитории и насколько эффективно можно обратиться с помощью того или иного средства массовой информации.
― Выявление наиболее эффективных средств влияния на мнения различных групп избирателей.
― Диагностика предвыборной ситуации. Анализ данных применяют для определения шансов того или иного кандидата, постоянного контроля за рейтингом кандидатов и определения ниши каждого из кандидатов в свете образов конкурентов.
― Анализ основных проблем избирателей. Необходим для разработки направленной предвыборной программы кандидата.
Общественная безопасность
― Анализ преступности. Анализ данных необходим для того, чтобы понять, какие типы преступлений совершаются, и в каких районах они происходят.
― Отслеживание уровня рецидивизма. Анализ данных нужен для обнаружения причин, по которым правонарушители снова совершают преступления.
Образование
― Планирование школьных округов. Нахождение оптимального месторасположения новых школ, в зависимости от условий района, демографической ситуации и других факторов.
― Отслеживание успеваемости учащихся, выявление факторов способствующих повышению успеваемости.
― Администрирование - контроль за уровнем выполнения обязательных программ и тестов.
Трудоустройство
― Анализ рынка труда - понимание состава и структуры рабочей силы.
― Анализ заявлений о приеме на работу - разработка профилей претендентов.
Анализ прибыли
Сотрудник Налоговой Инспекции – "С помощью SPSS мы можем проводить полноценный анализ и ясно представлять результаты в виде графических изображений, а не колонок цифр."
― Оценка соответствия размеров уплаченных налогов и имущества.
― Анализ мошенничеств - выявление характеристик предприятий и физических лиц, имеющих предрасположенность к совершению мошенничеств.
Здравоохранение
― Отслеживание болезней и создание отчетов о случаях заболеваний.
― Эпидемиология - выявление причин заболеваний и территории их распространения, а также контроль заболеваемости.
― Медицинская помощь - определение профилей тех, кому часто требуется медицинская помощь.
― Профилактика - выявление групп риска и необходимости медицинского вмешательства.
Окружающая среда
― Анализ экосистем - выяснение факторов, влияющих на здоровье экосистемы.
― Оценка качества воды/воздуха - осуществление контроля за соответствием качества вод или воздуха имеющимся стандартам.
Транспорт
― Планирование наиболее эффективных маршрутов для лучшей организации транспортных и пассажирских потоков.
― Создание отчетов о дорожных происшествиях для выяснения факторов, влияющих на происшествия.
― Моделирование программ поддержания надлежащего состояния дорожного покрытия, прогнозирование возможного ремонта дорог.
Стратегическое планирование
Анализ данных также является неотъемлемой составляющей оценки программ и стратегического планирования в каждой из сфер, упомянутых выше и используется для:
― Анализа удовлетворенности клиентов и изучения изменений потребностей общественности.
― Оценки программ - понимания факторов успешной реализации программы.
― Профилирования населения - более эффективного направления действия программы на определенные слои населения.
― Анализа затрат - выявления наиболее эффективных программ. в Анализа результатов выполнения программ.
Статистика - инструмент для анализа данных, который дает неоценимые преимущества сотрудникам органов государственного управления в принятии обоснованных решений и претворении в жизнь необходимых изменений.
Углубленный анализ данных позволяет подняться выше простых суммарных коэффициентов и таблиц для того, чтобы глубже заглянуть в данные.
Возможности специализированного программного обеспечения для анализа данных больше по сравнению с электронными таблицами и базами данных, потому что это программное обеспечение позволяет глубже погрузиться в данные. Даже если специалисты в области государственного управления максимально используют потенциал электронных таблиц для анализа данных, с их помощью нельзя получить такие же эффективные результаты, как с помощью применения специальных пакетов. Электронные таблицы хорошо использовать для того, чтобы понять, что происходит, но с их помощью нельзя ответить, почему это происходит.
Статистика, с другой стороны, эффективна для поиска закономерностей и связей, позволяя конечному пользователю делать обоснованные выводы и прогнозировать. Группируя данные и сравнивая различные группы, можно обнаружить скрытые закономерности. Более того, SPSS по сравнению с электронными таблицами позволяет работать с данными более продуктивно, быстро и просто создавая отчеты и строя графики.
Например, стандартные бизнес графики, такие как столбиковые диаграммы, линейные и секторные диаграммы, хорошо представляют суммирующую информацию. Статистические графики дают возможность получить исчерпывающую информацию о данных, например ящичковая диаграмма, является мощным аналитическим подспорьем для обнаружения тенденций, не лежащих на поверхности, которые не покажет обычный бизнес-график. Здесь представлено не только среднее значение, но также минимум, максимум и общее распределение баллов для каждой школы (рис.4).
Рассмотрим несколько примеров применения программного обеспечения SPSS для решения различных задач, с которыми сталкиваются органы государственного управления.
Сотрудники департамента образования городской администрации пользуются статистическими методами для того, чтобы понять распределение баллов за тесты среди учащихся школ. Перед использованием статистических методов, район создавал стандартные отчеты и графики, которые показывали только средние баллы за тест. Это значит, что на результаты могли повлиять экстремальные значения - очень низкие или высокие баллы, что часто ведет к неверной оценке успеваемости отдельно взятой школы. С помощью статистических графиков департамент образования сделал шаг вперед и получил более точную картину того, что происходит в районных школах.
Рис. 4. Ящичковая диаграмма - график, который позволяет администрации района глубже проникнуть в ситуацию.
Анализируя ящичковую диаграмму (рис. 4) специалисты могут визуально оценить общее распределение баллов учащихся. Выбросы и нетипичные значения данных просто выделить и даже исключить из анализа, чтобы они не оказывали побочного влияния на результаты (рис. 4).
Связь между количеством прогулов и баллами, полученными за тесты, представлены на рисунке 5. Она показывает, что чем выше уровень прогулов, тем ниже успеваемость.
Для того, чтобы понять причины прогулов, сотрудники департамента образования могут продолжить анализ различных групп учащихся. На рисунке 6 представлены возможные причины таких прогулов. Здесь мы видим, что "групповое давление" является одной из основных причин прогулов. Злоупотребления наркотиками и алкоголем также являются существенными предикторами. Информация, обнаруженная в ходе анализа данных, очень важна для департамента образования при разработке программ, которые направлены на выявление и устранение причин низкой успеваемости учащихся.
Рис. 5. Диаграмма рассеяния иллюстрирует связь между количеством прогулов и баллами, полученными за тесты.
Рис. 6. Причины прогулов
Выборы. Рассмотрим еще один пример. В ходе кампании по выборам губернатора одной из областей сотрудники предвыборного штаба одного из кандидатов (для удобства назовем этого кандидата "А") использовали анализ данных для поиска наиболее эффективных путей привлечения дополнительных голосов избирателей. В ходе предвыборной кампании обозначился явный лидер, отрыв которого от остальных кандидатов был очень значителен. Рейтинг кандидата "А" за несколько месяцев до даты выборов был четвертым, причем был очень близок к рейтингу еще трех кандидатов. Был проведен опрос, который позволил выяснить наиболее эффективный и надежный для этого кандидата способ привлечения голосов избирателей. Было рассчитано, что использование выбранного способа агитации в масштабах, которые позволял бюджет предвыборной кампании, гарантирует получение кандидатом "А" существенно большего дополнительного количества голосов, чем могли получить его конкуренты.
Однако, очень большое отставание от лидера предвыборной гонки не гарантировало победы, поэтому необходимо было не только найти пути привлечения избирателей, но и способ отнять как можно больше голосов у лидера. Был проведен еще один опрос, целью которого было определить отношения избирателей к различным партиям и движениям, а также близости кандидатов, по мнению избирателей, к тем или иным партиям и движениям. Далее был проведен кластерный анализ для выделения групп избирателей, схожих по своим политическим предпочтениям и выбору кандидата. Одним из результатов кластерного анализа стал тот факт, что избиратели, собирающиеся голосовать за лидера предвыборной кампании, не симпатизировали одной определенной партии. Они разделялись на три большие подгруппы, каждая из которых отдавала предпочтение какой-либо одной партии. Причем, эти партии находились в разных частях политического спектра. В штабе кандидата "А" нашли возможность договориться с общероссийскими руководителями двух из трех партий о выступлениях по телевидению, в которых выражалось бы недоверие лидеру предвыборной гонки. При этом руководители партий выступали с поддержкой своих кандидатов, которые принимали участие в выборах. Эффект такого хода был потрясающим. Кандидат в губернаторы, лидировавший с большим отрывом в течение всей предвыборной кампании, всего за несколько дней до даты выборов потерял примерно четверть голосов избирателей и даже не прошел во второй тур. Кандидат "А" занял пост губернатора области.
Анализ данных помогает уменьшить неопределенность в процессе принятия решений. Вот другой пример. Управление областной администрации, отвечающее за снабжение населения электроэнергией, анализирует данные для того, чтобы обнаружить изменяющиеся закономерности в потреблении электричества. Применяя статистические методы исследования к своим данным, сотрудники администрации обнаружили, что они могут оценить влияние различной электротехники на общее потребление электроэнергии. С этой информацией они могут дальше исследовать свои данные и строить прогностические модели для того, чтобы оценить, как может измениться расход электроэнергии в различные периоды времени. И, что очень важно, на основе полученной информации можно оценить ресурсы, необходимые для того, чтобы встретить эти изменения.
В другом случае, аналитический отдел и отдел образования в быстро растущем жилом районе анализируют данные для планирования распределения свободных ресурсов при потенциальном росте населения, которое ожидается в их районе. Специалисты внимательно изучают тенденции изменения населения и демографические характеристики для того, чтобы решить, строить ли новые школы и вспомогательные сооружения. Они также следят за общей успеваемостью учащихся и эффективностью работы учителей для поддержания стандартов обучения, планируя ресурсы на будущее.
Быстрая реакция на требования общественности. Чем дольше руководители, принимающие решения, должны ждать специального доклада, тем мед-леннее их ответная реакция по внесению изменений, необходимых для лучшего проведения в жизнь политики и программ. Сегодня у государственных служащих есть возможность быстрого и простого доступа к данным, а также все необходимые аналитические инструменты на персональном компьютере. Статистический анализ помогает сотрудникам органов государственного управления быстро реагировать на изменения требований общественности, материального положения населения и других ключевых показателей. Возможность быстро выполнить анализ и создать отчет, позволяет руководителям быстро и уверенно принимать решения, основанные на фактах.
Пример. Городскому отделу социального обеспечения необходимо оценить, является ли отказ в оказании социальной помощи причиной того, что люди оказываются бездомными. Анализ данных позволил сотрудникам отдела установить, что предполагаемая связь не случайна. Они также проанализировали, как долго люди остаются бездомными и какие виды социальной помощи обычно получают.
Рисунок 7 показывает потенциальную связь между суммой социальной помощи и риском оказаться бездомным. Как видно, между этими показателями существует сильная зависимость. Получив подобную информацию, исследователь может двигаться дальше и построить модель, классифицирующую тех, у кого велик риск стать бездомным. Можно также выявить, какие другие социально-экономические и демографические факторы могут увеличивать количество бездомных.
[1]Анализ данных в государственном управлении // ww.predictivesolutions.ru/solutions/government.pdf
Рис. 7. Диаграмма рассеяния показывает обратную связь между социальными дотациями и риском стать бездомным. Ясно видно, что при меньшем объеме социальной помощи, возрастает риск оказаться бездомным.
Служащие государственных организаций, могут исследовать, обогащать, понимать свои данные и делать выводы с помощью анализа данных. Залог успеха любой претворяемой в жизнь программы - предварительный анализ данных. Анализ данных помогает пользователям понять силу взаимосвязи между характеристиками и факторами, которые на них влияют. С помощью статистического анализа данных можно также получить глубинный профиль населения и найти группы или сегменты, для которых наиболее подходит данная программа.
По сравнению с прошлым десятилетием, когда анализ данных требовал обширных знаний статистики и программирования, сейчас использовать статистические методы гораздо проще. Сегодня, благодаря доступности компьютеров и простоте программного обеспечения, государственные служащие могут использовать в своей работе сложные методы анализа данных для того, чтобы выявить существующие проблемы, а также найти возможности их решения.
Государственные служащие с помощью статистических пакетов могут исследовать и лучше понимать свои данные, а также делать обоснованные выводы на базе полученных результатов.
Задания:
Цель: научиться обрабатывать статистические данные с помощью встроенных функций MS Excel; изучить возможности Пакета анализа и его некоторые инструменты: Генерация случайных чисел, Гистограмма, Описательная статистика.
- Поиск решения и решение оптимизационных задач с помощью Excel.
- Построение гистограмм, сводных таблиц с помощью Excel.
- Структурирование таблицы ручным способом с помощью Excel.
- Расчёт параметров регрессии и корреляции с помощью Excel.
4.1 Постройте поле корреляции и сформулируйте гипотезу о форме связи.
4.2 Рассчитайте параметры уравнения линейной регрессии
4.1 Оцените тесноту связи с помощью показателей корреляции и детерминации.
4.2 Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.
4.3 Оцените с помощью средней ошибки аппроксимации качество уравнений.
4.4 Оцените с помощью F-критерия Фишера статистическую надёжность результатов регрессионного моделирования.
4.5 Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .
5. Написание макросов.