- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
自然语言处理工程师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
以下哪项是Word2Vec中CBOW模型的核心机制?
A.用中心词预测上下文词
B.用上下文词预测中心词
C.用当前词预测下一个词
D.用全局词频调整词向量权重
答案:B
解析:Word2Vec包含CBOW(连续词袋模型)和Skip-gram两种架构。CBOW的核心是通过上下文词(如窗口内的多个词)预测中心词(如窗口中间的目标词),而Skip-gram则相反(中心词预测上下文)。选项A是Skip-gram的机制,C是语言模型(如n-gram)的典型任务,D是GloVe模型的特征(结合全局词频)。
以下哪种技术常用于解决长文本中的“长距离依赖”问题?
A.循环神经网络(RNN)
B.门控循环单元(GRU)
C.自注意力机制(Self-Attention)
D.隐马尔可夫模型(HMM)
答案:C
解析:RNN和GRU通过循环结构建模序列依赖,但由于梯度消失/爆炸问题,难以捕捉长距离依赖(如相隔几十个词的语义关联)。自注意力机制通过计算序列中任意两个词的相关性,直接建立长距离依赖关系,是Transformer模型解决该问题的核心。HMM是概率图模型,依赖马尔可夫假设(仅考虑前一状态),无法处理长距离依赖。
文本分类任务中,以下哪种指标最适合评估类别不平衡场景?
A.准确率(Accuracy)
B.F1分数(F1-score)
C.精确率(Precision)
D.召回率(Recall)
答案:B
解析:准确率在类别不平衡时(如99%负样本、1%正样本)会因多数类主导而虚高(如全预测负样本准确率99%)。F1分数是精确率和召回率的调和平均,综合考虑了两类错误,更适合不平衡场景。精确率和召回率仅反映单一维度,无法全面评估。
以下哪项是BERT模型的预训练任务?
A.下一句预测(NextSentencePrediction)
B.自回归语言模型(AutoregressiveLM)
C.掩码语言模型(MaskedLM)
D.序列到序列生成(Seq2Seq)
答案:C
解析:BERT的预训练任务包括掩码语言模型(MLM,随机遮盖部分输入词并预测)和下一句预测(NSP,判断两句话是否连续)。自回归语言模型是GPT的训练目标(单向预测),Seq2Seq是生成任务(如翻译)的典型架构。
分词时,“北京大学”被正确切分为“北京/大学”,这属于分词中的哪种歧义类型?
A.交集型歧义
B.组合型歧义
C.真歧义
D.无歧义
答案:B
解析:组合型歧义指一个字符串可以切分为多个不同的词语组合(如“北京大学”可切为“北京/大学”或“北/京大/学”),但其中只有一种符合语义。交集型歧义指多个词语共享部分字符(如“乒乓球拍卖完了”中的“乒乓球/拍卖”与“乒乓/球拍”)。真歧义指两种切分均合理(如“他将来北京”中的“将来”可切为“将/来”或“将来”)。
以下哪项不是预训练模型微调(Fine-tuning)的典型步骤?
A.冻结预训练模型的全部参数
B.添加与任务相关的输出层(如分类器)
C.用下游任务数据训练模型
D.调整预训练模型的部分参数
答案:A
解析:微调的核心是在预训练模型基础上,用下游任务数据进一步训练。通常会保留预训练模型的大部分参数(不冻结),仅调整与任务相关的输出层或部分高层参数(如BERT的最后几层)。冻结全部参数(仅训练输出层)属于“特征提取”而非微调。
以下哪种方法用于解决OOV(未登录词)问题?
A.词袋模型(BagofWords)
B.字符级嵌入(CharacterEmbedding)
C.TF-IDF
D.共现矩阵(Co-occurrenceMatrix)
答案:B
解析:OOV问题指训练语料中未出现的词无法获得词向量。字符级嵌入通过将词拆分为字符(如“苹果”拆为“苹”“果”),用字符向量组合生成词向量,可处理未登录词。词袋模型、TF-IDF和共现矩阵均基于预定义词表,无法直接处理OOV。
以下哪项是生成式对话系统(如ChatGPT)的典型评估指标?
A.BLEU分数
B.困惑度(Perplexity)
C.ROUGE分数
D.以上都是
答案:D
解析:生成任务常用BLEU(机器翻译)、ROUGE(摘要)评估生成文本与参考文本的重叠度;困惑度衡量语言模型对测试集的预测能力(值越低模型越好)。三者均适用于生成式对话系统评估。
以下哪种模型属于基于规则的NLP方法?
A.隐马尔可夫模型(HMM)
B.正则表达式匹配(RegexMatching)
C.条件随机场(CRF)
D.双向LSTM
答案:B
解析:基于规则的方法依赖人工定义的模式(如正则表达式、语法规则
您可能关注的文档
- 2025年专利代理师资格考试考试题库(附答案和详细解析)(1013).docx
- 2025年公关策划师考试题库(附答案和详细解析)(1017).docx
- 2025年国际会展管理师考试题库(附答案和详细解析)(1013).docx
- 2025年执业药师资格考试考试题库(附答案和详细解析)(1013).docx
- 2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1013).docx
- 2025年文物拍卖从业人员资格证考试题库(附答案和详细解析)(1020).docx
- 2025年智能对话系统工程师考试题库(附答案和详细解析)(1020).docx
- 2025年注册园林工程师考试题库(附答案和详细解析)(1017).docx
- 2025年注册暖通工程师考试题库(附答案和详细解析)(1020).docx
有哪些信誉好的足球投注网站
文档评论(0)