如下图所示,样本中有三个类别C1、C2、C3,采用KNN分类算法,图中给出了被测数据对象X和Y在特征空间中的映射点,以X、Y为中心的圆表示对应K个与X、Y最相近点的分布情况。依据KNN的多数表决规则,X归为C3类,Y归为C2类,但感觉这个分类结果与图示有些偏差,直观上X和Y都比较接近C1。你觉得可以采取哪些措施来改进算法以避免这种情况发生?()
A.X的问题是K值选择太小,可以适当增大K值,Y的问题是K值过大,可以适当减小K值B.Y的分类问题可能是由于样本数不平衡造成,可以考虑压缩C2类别的样本数量C.Y的问题可以考虑用加权多数表决法解决D.X的问题可能是C3类含比较异常的样本,去除异常样本数据可以提高分类准确度
多项选择题采用KNN分类,表中列出了与被测对象距离最近的5个结果,采用欧式距离,有2个类别“0”、“1”。请选择以下正确的选项()。
A.采用多数表决法,K=3时,结果为“0”类,K=5时为“1”类B.用加权多数表决法,直接用距离倒数作为权值。结果与A一致C.用加权多数表决法,直接用距离倒数作为权值。K=3和K=5时,结果均为“0”类D.采用加权表决规则后,K值越大,准确性越高
单项选择题假设一门课将一部分内容安排成了线上内容,包括课程相关的视频和集中讨论两部分。对于线上内容学生可以自愿选择是否参加,不影响总成绩。学期结束时,老师希望对学生在线上的学习情况用KNN进行分析,老师能够统计到每个学生线上收看视频的时间,以及参与集中讨论的时间。现在老师希望做两个分类工作:(1)根据学生看视频和参与讨论的时间,将学生分成“自主学习型”(看视频较多)和“集中学习型”(参与讨论较多)两类。(2)根据学生参与线上内容的程度,将学生分成“课堂学习型”和“课堂+线上学习型”。试问对于上述两个分类工作,如果考虑欧式距离和余弦相似度,应该选择哪种距离函数比较合适?()
A.(1)和(2)都选择余弦相似度B.(1)选择欧式距离,(2)选择余弦相似度C.(1)选择余弦相似度,(2)选欧式距离D.(1)和(2)都选欧式距离
多项选择题假设有如下16个数据点:1,2,5,11,15,18,19,21,25,27,29,32,33,37,40,57。要聚成3类(从左到右,分别称为第一类,第二类,第三类),初始中心为10,20,30。试根据算法流程完成聚类。根据你的聚类结果,下面哪些说法是正确的?()
A.根据初始中心,最开始1,2,5,11,15同属第一类,但后来15属于第二类了B.聚类结束时,第二类最大,有7个数C.聚类结束时,第三类的中心大于35D.聚类结束时,11也属于第二类了
多项选择题“聚类”,也是一个日常生活中的用语,在交谈中用它,人们基本也知道是什么意思。但在讨论算法的语境下(或者说作为一个技术专用术语),它有特定的含义。下面这些陈述句中所体现的情况是否属于“聚类”的范畴?()
A.如果把人们的受教育程度分为“受过高等教育”和“没有受过高等教育”两类,张三刚从大学毕业了,因此他应该属于“受过高等教育”类别的B.幼儿园举办亲子活动,午餐的时候,为了便于交流,特意安排家长们聚在一起,小朋友们聚在一起C.产品经过自动检测的流水线,就被分成了次品和正品两类D.经过长期的观察研究,发现小学生在课堂上的表现可以分为“积极踊跃”“沉静寡言”和“心里有数”三种类别
多项选择题两个整数a,b分别为55,34,采用扩展欧几里得算法得出一组解(x,y)为(13,-21),满足等式ax+by=gcd(a,b)。请选择以下正确的选项()。
A.13是满足ax+by=gcd(a,b),x绝对值最小的整数B.21是满足ax+by=gcd(a,b),y绝对值最小的整数C.x的绝对值还可以减小,会引发y的绝对值发生变化D.y的绝对值还可以减小,会引发x的绝对值发生变化