置顶

聚类定位,多维度聚类

作者:hacker | 分类:网络攻防 | 浏览:127 | 日期:2022年08月22日

目录:

什么是聚类分析和GO注释分析

你这个问题~~

有点无厘头~

聚类分析,我们可以简单的理解成为中国人可以聚成一类,美国人聚成另一类,这些都是根据他们不同的各自属性来聚类的。

GO注释分析,翻译成中文好像是基因本体论分析,也就是gene ontology annotation,按照了三个大的标准(相当于前面所说的属性)将每个基因聚类(分别是根据基因的功能,参与代谢的过程,以及这个基因产物的定位)

字都打错了,可见你很不严谨呀。

一般两种 *** ,一是你自己来测,不过很花钱的(具体实验 *** 步骤可以到Google里通过gene sequencing来搜索)。

如果别人已经测好了,或者现在数据库里有了,你可以到NCBI上找到。

聚类算法的算法分类

很难对聚类 *** 提出一个简洁的分类聚类定位,因为这些类别可能重叠,从而使得一种 *** 具有几类的特征,尽管如此,对于各种不同的聚类 *** 提供一个相对有组织的描述依然是有用的,为聚类分析计算 *** 主要有如下几种: 划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,KN。而且这K个分组满足下列条件:

(1) 每一个分组至少包含一个数据纪录聚类定位

(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);

对于给定的K,算法首先给出一个初始的分组 *** ,以后通过反复迭代的 *** 改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。

大部分划分 *** 是基于距离的。给定要构建的分区数k,划分 *** 首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其聚类定位他准则。传统的划分 *** 可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局更优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上,大多数应用都采用了流行的启发式 *** ,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部更优解。这些启发式聚类 *** 很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的 *** 。

使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法; 层次法(hierarchical methods),这种 *** 对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。

例如,在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

层次聚类 *** 可以是基于距离的或基于密度或连通性的。层次聚类 *** 的一些扩展也考虑了子空间聚类。层次 *** 的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤销。这个严格规定是有用的,因为不用担心不同选择的组合数目,它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的 *** 。

代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等; 基于密度的 *** (density-based methods),基于密度的 *** 与其它 *** 的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

这个 *** 的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等; 基于网格的 *** (grid-based methods),这种 *** 首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。

代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法; 基于模型的 *** (model-based methods),基于模型的 *** 给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。

通常有两种尝试方向:统计的方案和神经 *** 的方案。

如何运用聚类分析法?

聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering) *** 。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling *** ysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means *** 聚类,通过重复再分配类成员来使“类”内分散度最小化的 *** 。

聚类 *** 有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类 *** 分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种 *** 。传统的统计聚类分析 *** 包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇 *** 作进一步地分析。

聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。

数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。

聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。

这些算法可以被分为划分 *** 、层次 *** 、基于密度 *** 、基于网格 *** 和

基于模型 *** 。

1 划分 *** (PAM:PArtitioning method) 首先创建k个划分,k为要创建的划分个数;然后利用一个循环

定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分 *** 包括:

k-means,k-medoids,CLARA(Clustering LARge Application),

CLARANS(Clustering Large Application based upon RANdomized Search).

FCM

2 层次 *** (hierarchical method) 创建一个层次以分解给定的数据集。该 *** 可以分为自上

而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合

并经常要与其它聚类 *** 相结合,如循环定位。典型的这类 *** 包括:

之一个是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) *** ,它首先利用树的结构对对象集进行划分;然后再利

用其它聚类 *** 对这些聚类进行优化。

第二个是CURE(Clustering Using REprisentatives) *** ,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定

量(向聚类中心)进行收缩。

第三个是ROCK *** ,它利用聚类间的连接进行聚类合并。

最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。

3 基于密度 *** ,根据密度完成对象的聚类。它根据对象周围的密度(如

DBSCAN)不断增长聚类。典型的基于密度 *** 包括:

DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密

度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此 *** 将一个聚类定义

为一组“密度连接”的点集。

OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一

个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。。

4 基于网格 *** ,首先将对象空间划分为有限个单元以构成网格结构;然后利

用网格结构完成聚类。

STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基

于网格聚类的 *** 。

CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方

法。

5 基于模型 *** ,它假设每个聚类的模型并发现适合相应模型的数据。典型的

基于模型 *** 包括:

统计 *** COBWEB:是一个常用的且简单的增量式概念聚类 *** 。它的输入对象是采

用符号量(属性-值)对来加以描述的。采用分类树的形式来创建

一个层次聚类。

CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚

类。它为每个结点中的每个属性保存相应的连续正态分布(均值与方差);并利

用一个改进的分类能力描述 *** ,即不象COBWEB那样计算离散属性(取值)

和而是对连续属性求积分。但是CLASSIT *** 也存在与COBWEB类似的问题。

因此它们都不适合对大数据库进行聚类处理.

什么叫层次聚类分析

聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering) *** 。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling *** ysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means *** 聚类,通过重复再分配类成员来使“类”内分散度最小化的 *** 。

聚类 *** 有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类 *** 分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种 *** 。传统的统计聚类分析 *** 包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇 *** 作进一步地分析。

聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。

数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。

聚类分析是数据挖掘中的一个很活跃的研究领域,并提出了许多聚类算法。

这些算法可以被分为划分 *** 、层次 *** 、基于密度 *** 、基于网格 *** 和

基于模型 *** 。

1 划分 *** (PAM:PArtitioning method) 首先创建k个划分,k为要创建的划分个数;然后利用一个循环

定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分 *** 包括:

k-means,k-medoids,CLARA(Clustering LARge Application),

CLARANS(Clustering Large Application based upon RANdomized Search).

FCM

2 层次 *** (hierarchical method) 创建一个层次以分解给定的数据集。该 *** 可以分为自上

而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合

并经常要与其它聚类 *** 相结合,如循环定位。典型的这类 *** 包括:

之一个是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) *** ,它首先利用树的结构对对象集进行划分;然后再利

用其它聚类 *** 对这些聚类进行优化。

第二个是CURE(Clustering Using REprisentatives) *** ,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定

量(向聚类中心)进行收缩。

第三个是ROCK *** ,它利用聚类间的连接进行聚类合并。

最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。

3 基于密度 *** ,根据密度完成对象的聚类。它根据对象周围的密度(如

DBSCAN)不断增长聚类。典型的基于密度 *** 包括:

DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密

度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此 *** 将一个聚类定义

为一组“密度连接”的点集。

OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一

个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。。

4 基于网格 *** ,首先将对象空间划分为有限个单元以构成网格结构;然后利

用网格结构完成聚类。

STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基

于网格聚类的 *** 。

CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方

法。

5 基于模型 *** ,它假设每个聚类的模型并发现适合相应模型的数据。典型的

基于模型 *** 包括:

统计 *** COBWEB:是一个常用的且简单的增量式概念聚类 *** 。它的输入对象是采

用符号量(属性-值)对来加以描述的。采用分类树的形式来创建

一个层次聚类。

CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚

类。它为每个结点中的每个属性保存相应的连续正态分布(均值与方差);并利

用一个改进的分类能力描述 *** ,即不象COBWEB那样计算离散属性(取值)

和而是对连续属性求积分。但是CLASSIT *** 也存在与COBWEB类似的问题。

因此它们都不适合对大数据库进行聚类处理.

对聚类中心过于依赖的聚类算法有哪些

层次聚类分析:

是创建一个层次以分解给定的数据集。该 *** 可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类 *** 相结合,如循环定位。典型的这类 *** 包括:

之一个是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) *** ,它首先利用树的结构对对象集进行划分;然后再利用其它聚类 *** 对这些聚类进行优化。

第二个是CURE(Clustering Using REprisentatives) *** ,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。

第三个是ROCK *** ,它利用聚类间的连接进行聚类合并。

最后一个CHEMALOEN,它则是在层次聚类时构造动态模型。

有哪些常用的聚类算法

划分法

划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,KN。而且这K个分组满足下列条件:

(1) 每一个分组至少包含一个数据纪录;

(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);

对于给定的K,算法首先给出一个初始的分组 *** ,以后通过反复迭代的 *** 改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。

大部分划分 *** 是基于距离的。给定要构建的分区数k,划分 *** 首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分 *** 可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局更优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上,大多数应用都采用了流行的启发式 *** ,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部更优解。这些启发式聚类 *** 很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的 *** 。[1]

使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

层次法

层次法(hierarchical methods),这种 *** 对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。

例如,在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

层次聚类 *** 可以是基于距离的或基于密度或连通性的。层次聚类 *** 的一些扩展也考虑了子空间聚类。层次 *** 的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤销。这个严格规定是有用的,因为不用担心不同选择的组合数目,它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的 *** 。[1]

代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;

密度算法

基于密度的 *** (density-based methods),基于密度的 *** 与其它 *** 的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

这个 *** 的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;

图论聚类法

图论聚类 *** 解决的之一步是建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。因此,每一个最小处理单元数据之间都会有一个度量表达,这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源,因而其主要优点是易于处理局部数据的特性。

网格算法

基于网格的 *** (grid-based methods),这种 *** 首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。

代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

模型算法

基于模型的 *** (model-based methods),基于模型的 *** 给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。

通常有两种尝试方向:统计的方案和神经 *** 的方案。

发表评论

访客 游客 2022-08-23 · 回复该评论
一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来

访客 游客 2022-08-22 · 回复该评论
过重复再分配类成员来使“类”内分散度最小化的方法。聚类方法有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不

取消
微信二维码
支付宝二维码