Кластерный анализ курсовая работа

Делая упор на приобретенные познания и эксперименты, люди упорядочивали объекты в согласовании с их схожестью. Часто схожая сортировка имела совсем принципиальный смысл для сохранения жизни людей того времени, к примеру, деление растений на съедобные и несъедобные, животных по уровню опасности и так далее. Данный процесс сортировки объектов людьми согласно некоторым показателям получил название - классификация. С увеличением познаний о мире, роль классификации резко возросла. Сокэл [1] подчеркнул, что классификация или систематизация является интеллектуальной деятельностью высшего уровня, характеризующиеся большим объемом научных достижений.

Кластер-это группа элементов, характеризуемых общим свойством. Фактически кластерный анализ- это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научно деятельности классификация является одной из фундаментальных составляющих, без которой не возможны построения и проверка научных теорий и гипотез.

Кластерный анализ и его применение в классификации агрономических данных

Делая упор на приобретенные познания и эксперименты, люди упорядочивали объекты в согласовании с их схожестью.

Часто схожая сортировка имела совсем принципиальный смысл для сохранения жизни людей того времени, к примеру, деление растений на съедобные и несъедобные, животных по уровню опасности и так далее. Данный процесс сортировки объектов людьми согласно некоторым показателям получил название - классификация.

С увеличением познаний о мире, роль классификации резко возросла. Сокэл [1] подчеркнул, что классификация или систематизация является интеллектуальной деятельностью высшего уровня, характеризующиеся большим объемом научных достижений. Действенный и четкий анализ получаемой информации фактически неосуществим для человека, в силу её объемности и трудности, и, требует для их решения новые методы.

В данных критериях, автоматизация различных направлений человеческой жизнедеятельности путем внедрения вычислительной техники затронула и процесс классификации. В базу данного процесса легла идея о применении математических способов для сбора, сортировки и классификации объектов. В настоящее время, группу способов и алгоритмов, применяемых для автоматической классификации полученных данных, принято называть кластерным анализом. Кластерный анализ дает возможность рассматривать довольно большой объем информации и классифицировать его, согласно предлагаемым условиям и целям исследования.

Кластерный анализ обширно используется в различных сферах и отраслях науки таких как: биология, химия, математика, информатика, статистика, медицина и почти во всех других. В общеобразовательных школах, высших учебных заведениях имеются специалисты, использующие в своей работе элементы кластерного анализа.

За счет этого, используя математический аппарат кластерного анализа можно проследить динамику уровня образования, количество успевающих и отстающих, занятие в каких либо кружках или секциях.

Из сделанного анализа литературы по теме данной теме исследования можно сделать вывод о том, что, кластерный анализ играет не заключительную роль в постоянно растущем и развивающемся современном мире. Вышеуказанные позиции определили актуальность и позволили определить задачу дипломного исследования, заключающуюся в использовании математических методов кластерного анализа в общеобразовательной школе, с их практическим подтверждением.

Более того, в современных условиях математические методы кластерного анализа широко используются и активно внедряются во все сферы человеческой деятельности. Цель исследования: — изучить основные математические модели кластерного анализа; - предложить алгоритм и основные этапы решения предлагаемых методов; - обосновать использование математических методов кластерного анализа в общеобразовательной школе; - изучить и обосновать использование математического пакета Statistica.

Использовать методы кластерного анализа для решения практических задач, а именно задач встречающихся в общеобразовательной школе. Для реализации цели необходимо было решить следующие задачи: - применить теоретический материал по математическим методам кластеризации; - провести анализ и алгоритм решения предлагаемых моделей в дипломной работе; - теоретически обосновать и экспериментально проверить эффективность предложенных методов с использованием пакета Statistica.

Объект исследования: использование и применение методов кластерного анализа в общеобразовательных школах. Предмет исследования: математические методы и модели кластерного анализа. Теоретической и методологической основой исследования являлись исследования зарубежных ученых занимающихся кластеризацией: Айвазян С.

Практическая значимость результатов заключается в том, что полученные теоретические знания применяются для исследования школьных коллективов, с целью составления кластеров по успеваемости и психологической совместимости учащихся, с возможностью прогнозирования. Глава 1 Математические методы статистики. Математическая модель кластерного анализа. Систематизацией, предшествовавшей кластеризации, общество занималось с древнейших времен.

Невзирая на это, усилия чтобы упорядочить процесс систематизации почти никак не предпринимались вплоть до 19 столетия.

Первая и, наверное, более существенная причина — это интенсивное формирование и развитие вычислительной техники. При присутствии точного математического метода, который может быть переведен в программный код, Электронная вычислительная машина ЭВМ может справиться с некоторыми задачами намного быстрее чем человек и со значительно меньшими затратами [1].

Процедура автоматизации и компьютеризации коснулась многих сфер человеческой жизнедеятельности и никак не мог не коснуться вопросов умственной обработки данных. Непосредственно кластерный анализ без ЭВМ во многом утрачивает свое значение, поэтому развитие вычислительной техники возможно рассматривать как причиной, так и средством развития этой дисциплины.

Другой главной предпосылкой считается усиление знаний об окружающем нас мире и потребность в наиболее подробном изучении данных знаний. Число информации о предметах и явлениях современного мира нередко доходит до таких объемов, что для человека правильно будет осуществлять их систематизацию, с учетом всех параметров, становится проблематично.

При данных обстоятельствах кластерные методы намного правильнее подходят для данной задачи, потому что готовы в достаточной мере, моментально осуществлять сортировку объектов, принимая во внимание все без исключения нужные характеристики, описанные в этом методе. И, в конечном итоге, третьей предпосылкой можно назвать резкое увеличение стремительности и объемов прибывающей информации.

Нередко, люди попросту на физическом уровне не могут рассматривать информацию в темпе их поступления. Таким образом, к примеру, регулярно меняющиеся данные о котировках акций на фондовых биржах просто не может быть воспринятыми довольно моментально и быстро без её предварительной обработки и приведения к виду, удобного для человека графики, таблицы.

Это приводит к непрерывному накапливанию информации, какие, вероятно, никогда в жизни не будут рассмотрены. В подобных обстоятельствах автоматическое объединение и сокращение данных делаются весьма значительными. Формирование кластерного анализа происходило, в главном из-за множественных изданий в научных журналах и газетах. Первоначальные подобные публикации согласно иерархическим способам возникли в начале х годов.

Однако более интенсивное формирование кластеризация приобрела в х годах го столетия. Хроника кластерного анализа насчитывает меньше лет, однако он уже успел стать неотделимой частичкой процедуры переработки информации в многочисленных науках и иных сферах людской жизнедеятельности. Столь интенсивное формирование систематизации находится в связи с увеличением вычислительной техники и её повседневном использовании.

В нехватке такого рода техники цель кластерного анализа - автоматизирование процесса сортировки объектов — утрачивает свое значение. Вероятно, именно поэтому все работы в этом направлении совсем не проводились до последнего столетия. Кластерный анализ формировался в тесной связи с иными предметами, но, однако, многочисленные его методы и способы обладают довольно общим видом и требуют доработки с целью использования к определенным задачам.

Плотность — качество кластера, которое дает возможность определить кластер, как скопление точек в пространстве данных, относительно плотное по сравнению с другими сферами пространства, включающими в себя либо мало точек, либо не содержащих их вовсе. Дисперсия определяет уровень рассеяния точек в пространстве относительно центра кластера.

Правильнее всего считать дисперсию как характеристику того, в какой мере близко друг к другу расположены в пространстве точки кластера. История формирования кластерного анализа как уже упоминалось, систематизацией, предшествовавшей кластеризации, люди занимались с древнейших времен.

Одним из первых трудов в области кластеризации, которую можно отметить, считается концепция классификации и систематизации, предложенная французским ботаником Огюстеном Декандолем в году с целью систематизации растений. Данная теория получила наименование таксономия. Декандоль ставил своей целью дать описание и классифицировать все виды растений на нашей планете. Изначально таксономия применялась только исключительно в биологии, но позже она нашла свое применение во множестве иных наук, обладающие дело с множествами иерархически организованных объектов.

В первоначальном периоде формирования таксономия являлась изолированной теорией и по отношению к кластерному анализу выступала лишь в качестве предшественницы. Нынешнюю же таксономию полагается рассматривать как одно из течений кластеризации.

Первоначальное формирование кластерного анализа как независимой дисциплины относится к первой половине 20 столетия. Одной из первых 9 публикаций согласно этой теме является статья польского антрополога Яна Чекановского, которую он написал в году.

Этот способ предполагает собой обработку информаций, вплоть до формирования машин, однако частично формирует основу с целью последующего формирования данного течения. Терентьевым в году. Однако издан он был лишь через много лет в Этот способ поначалу предназначался только лишь для кластерного анализа признаков, а не объектов. На сегодняшний день кластерный анализ является одним из наиболее результативных инструментов обработки больших объемов информации и используется везде, где применяется вычислительная техника.

При этом нужно не забывать, что переменные должны измеряться в сравнимых шкалах. Это значительно усложняет работу при использовании кластерного анализа. Но одного общего определения этой дисциплины на нынешний день не существует. Это связано с тем, что кластеризация используется во многочисленных сферах человеческой жизнедеятельности, и в каждой отдельной задаче ее применение имеет свои характерные черты.

Совокупность похожих объектов принято называть кластерами от англ. Кластером считают объединение нескольких однородных элементов, которое может рассматриваться как независимая единица, имеющая свои определенные характеристики. Характеристика элементов, уровень их подобия и прочие характеристики, влияющие на их объединение, переходят от задачи к задаче, что не позволяет дать одно единое определение кластера. Основные задачи которые выполняет кластерный анализ: - разработка классификации или типологии.

Самостоятельно от предмета изучения применение кластерного анализа предполагает следующие этапы: - отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.

Цели кластеризации имеют все шансы быть разными, однако среди их числа можем отметить 3 главных направления. Первое — это данное представление информации — подразумевает разделение подборки в категории сходных предметов, то что дает возможность облегчить последующее обрабатывание информации и реализовать заключение, применяя к любому кластеру свой собственный способ рассмотрения.

В качестве образца возможно просмотреть био систематику — научную дисциплину, в задачи которой входит создание основ систематизации живых существ фактическое дополнение данных принципов к построению системы.

Второе течение — сокращение информации — предназначается для сокращения размеров информации с наименьшими утратами данных. В случае если начальная выборка чрезмерно огромна, то возможно уменьшить ее, оставив по одному наиболее обычному представителю от любого кластера. Нередко рассмотрение единственного предмета может быть достаточной ради нахождения черт абсолютно всех сходных объектов с значительной возможностью.

К примеру, доказав теорему о площади любого прямоугольника, мы можем так же отметить, что она правдива для всех прямоугольников на плоскости. Третье течение — выявление новизны — направлено на выявление новейших или мало встречающихся объектов в некоторых выборках.

При этом выделяются нетипичные объекты, которые никак не получается добавить ни к одному из кластеров. Кластерный анализ имеет ряд достоинств перед другими методами классификации данных. В первую очередь, это связано с тем, что он дает возможность осуществлять разделение объектов не по одному, а по целому комплекту свойств. К тому же, давление любого из характеристик может быть достаточно просто усилено или ослаблено путем внесения в математические формулы определенных коэффициентов.

Помимо этого, кластерный анализ не накладывает ограничений на вид группируемых объектов, и дает возможность рассматривать множество исходных данных практически произвольной природы. Еще одной характерной чертой кластеризации считается то, что многие алгоритмы способны самостоятельно определить число кластеров, на которое следует разбить данные, а так же отметить характеристики этих кластеров без участия человека только при помощи применяемого метода.

Для проведения анализа данных используют меры сходства [4]. Выделяют четыре меры сходства: 1. Коэффициент корреляции — это показатель характера взаимного влияния изменения двух случайных величин. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0 — связь отсутствует или является существенно нелинейной.

При коэффициенте корреляции равном по модулю единице говорят о функциональной связи а именно линейной зависимости , то есть изменения двух величин можно описать линейной функцией [5]. Мера расстояния устанавливает сходство или различие между объектами. Два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю. Меры расстояния обычно не ограничены сверху и зависят от 7 выбора шкалы масштаба измерений.

Существует много различных мер расстояния, но наиболее часто используется евклидово расстояние [6]. Коэффициенты ассоциативности применяются, когда необходимо установить сходство между объектами, описываемыми бинарными переменными, причем 1 указывает на наличие переменной, а 0 — на ее отсутствие.

ПОСМОТРИТЕ ВИДЕО ПО ТЕМЕ: Кластерный анализ. Как правильно работать в кластерном графике

Обзор методов кластерного анализа: центроидного, метода полных связей, максимального локального расстояния. курсовая работа, добавлен При анализе и прогнозировании социально-экономических явлений исследователь кластерный анализ – объект изучения в данной курсовой работе.

ВВЕДЕНИЕ Огромное множество инвестиционных инструментов, предоставляемых современным финансовым рынком, заставляет корпоративных инвесторов с каждым днем анализировать все большее количество финансовой информации. Подчас успех инвестирования зависит от объема анализируемых финансовых данных, времени, затраченного на анализ, и вида, в котором представлены результаты. Больше, быстрее, удобнее - вот основные требования, предъявляемые постоянно меняющимся финансовым рынком к методам анализа финансовых данных. При составлении больших диверсифицированных портфелей необходимо анализировать сотни финансовых инструментов по десяткам показателей за несколько прошлых лет. Это миллионы чисел, между которыми нужно выявить взаимосвязь и которые надо расположить в определенном порядке. Ситуация на финансовом рынке меняется настолько быстро, что для поддержания оптимального соотношения доходность-риск анализ финансовых активов приходится проводить по несколько раз в день. При этом счет может идти если не на секунды, то на минуты. Результаты финансового анализа, представленные в виде больших массивов чисел, не сильно упрощают процесс принятия решений. Можно сгруппировать результаты в таком виде, чтобы процесс принятия решений стал более эффективным. Можно визуализировать данные и результаты анализа так, чтобы аналитик разом мог охватить их взглядом. Процедура кластеризации решает вопрос о сходстве финансовых активов, характеризуемых значениями многих параметров, на основе формальных математических критериев. Это позволяет заменить длительный и трудоемкий процесс изучения и сравнения активов более быстрым вычислительным алгоритмом. Кроме того, будучи средством анализа многомерных данных, кластеризация позволяет выделить активы с близкими значениями всех параметров. Целью данной курсовой является исследование акций российского рынка. Для достижения цели в работе решаются следующие задачи: анализ акций и выбор наиболее надёжного кластера. Для решения поставленных задач в работе используются следующие методы: аналитические, графические, сравнительные. Понятие кластерного анализа При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания.

Так как мы рассматриваем случай, когда индексная функция имеет единственный ярковыраженный скачок в точке , то имеет место неравенство.

Введение в кластерный анализ. Кластерный анализ в задачах социально-экономического прогнозирования и его методы. Алгоритм последовательной кластеризации.

Дипломная работа " Кластерный анализ"

Введение в кластерный анализ. Кластерный анализ в задачах социально-экономического прогнозирования и его методы. Алгоритм последовательной кластеризации. Выбор необходимого числа кластеров. Способ построения дендограмм. Применение кластерного анализа.

Алгоритм последовательной кластеризации. Применение кластерного анализа. В результате проведения этих процедур исходная совокуп-ность объектов разделяется на кластеры или группы классы схожих между собой объектов. Под кластером обычно понимают группу объектов, обладающую свойст-вом плотности плотность объектов внутри кластера выше, чем вне его , дисперси-ей, отделимостью то других кластеров, формой, размером. Наиболее часто методы кластерного анализа используются в социологии, мар-кетинговых исследованиях, экономике, биологии, медицине, археологии. Сложность задач кластерного анализа состоит в том, что реальные объекты являются многомерными, то есть описываются не одним, а несколькими параметра-ми, и объединение объектов в группы проводится в пространстве многих измерений, что весьма нетривиально. Кроме того, данные могут носить нечисловой характер В целом методы кластеризации делятся на агломеративные от слова агломе-рат — скопление и итеративные дивизивные от слова division — деление, разделе-ние. В агломеративных, или объединенных, методах происходит последовательное объединение наиболее близких объектов в один кластер. Процесс такого последова-тельного объединения можно показать на графике в виде дендрограммы, или дерева объединения.

.

.

.

.

.

.

.

.

ВИДЕО ПО ТЕМЕ: Кластерный анализ
Похожие публикации