A.IDF表示一个词在文档中的分布状况B.如果一个词没有集中出现在某些文档,则这个词越重要C.如果一个词集中出现在某些文档,则这个词越重要
单项选择题自然语言处理工作中,在自动建构关键词(非控制字汇)时,经常采用的方法是()
A.Controlled Vocabulary(控制字汇)B.Inversion of Terms(逐项反转)C.Inversion Document Frequency(IDF)D.Full-Text Scanning
单项选择题下面有关向量空间模型(VSM)的描述中,错误的是()
A.以向量来表示文档后,两者的夹角越小说明相似度越高B.文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息C.在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重D.基于向量的文本相似度计算中,除了内积,Dice系数、夹角余弦,还可以用Jaccard方法
单项选择题信息检索技术中的签名文件(Signature File)指的是()
A.计算点与点之间的距离来找出和此查询相近似的文件并加以排序输出B.利用余弦相似度求出文件的相似程度,并将文件依相似程度由大到小排序输出C.将待查的字符串直接和原文字符串进行快速字符串比对D.签名档利用重迭编码的技巧,将文件转换成一固定长度的签名以加速字符串比对
单项选择题以下哪一项不属于针对兼类词的歧义排除经典算法()
A.基于规则的算法B.基于概率统计模型的算法C.规则和统计相结合的算法D.基于协同过滤算法
单项选择题关于word2vec模型,下面说法不正确的是()
A.得到的词向量维度小,可以节省存储和计算资源B.考虑了全局语料库的信息C.无法解决多义词的问题D.可以表示词和词之间的关系