在医学领域:发现某些症状与某种疾病之间的关联,为医生进行疾病诊断和治疗提供线索; 在商业领域:发现商品间的联系,为商场进行商品促销及摆放货架提供辅助决策信息; 在地球科学领域:揭示海洋、陆地和大气过程之间的关系。
问答题什么是频繁项集?
问答题下表中列出了4个点的两个最近邻。使用SNN相似度定义,计算每对点之间的SNN相似度。
问答题什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。
问答题假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p、q及两个簇C1、C2的信息如下,分别求出记录和簇彼此之间的距离。(k-means算法的拓展) p={男,广州,18},q={女,深圳,20} C1={男:25,女:5;广州:20,深圳:6,韶关:4;19} C2={男:3,女:12;汕头:12,深圳:1,湛江:2;24}
问答题简述k-means算法,层次聚类算法的优缺点。