A.计算点与点之间的距离来找出和此查询相近似的文件并加以排序输出B.利用余弦相似度求出文件的相似程度,并将文件依相似程度由大到小排序输出C.将待查的字符串直接和原文字符串进行快速字符串比对D.签名档利用重迭编码的技巧,将文件转换成一固定长度的签名以加速字符串比对
单项选择题以下哪一项不属于针对兼类词的歧义排除经典算法()
A.基于规则的算法B.基于概率统计模型的算法C.规则和统计相结合的算法D.基于协同过滤算法
单项选择题关于word2vec模型,下面说法不正确的是()
A.得到的词向量维度小,可以节省存储和计算资源B.考虑了全局语料库的信息C.无法解决多义词的问题D.可以表示词和词之间的关系
单项选择题信息撷取与检索(Information Extraction &Retrieval)及文本挖掘(Text Mining)的基础是()
A.文本分析B.文本检索C.文本查询D.文本拼接
单项选择题所谓词嵌入法,以下描述中错误的是()
A.词嵌入法中的常用方法为tf-idfB.是指将一个词语(word)转换为一个向量(vector)表示C.所谓word2vec,是指学习一个映射f,它可以将单词变成向量表示:vec=f(word)D.词嵌入英文名称为word2vec
单项选择题监督特征学习中,被标记过的数据被当作特征用来学习,以下不属于监督特征学习的是()
A.神经网络B.多层感知器C.监督字典学习D.矩阵分解