本研究针对云计算环境中文本处理的需求,提出了一种基于双向编码器表示转换器(bidirectional encoder representation from transformers,BERT)的并行化方法。首先,介绍了BERT模型的基本原理以及编码器组成的Transformer结构,并对文本...本研究针对云计算环境中文本处理的需求,提出了一种基于双向编码器表示转换器(bidirectional encoder representation from transformers,BERT)的并行化方法。首先,介绍了BERT模型的基本原理以及编码器组成的Transformer结构,并对文本进行标记化和上下文建模的机制;其次,本研究关注文本在云计算环境下的处理效率,提出了一种并行化的BERT模型优化策略,并通过对文本进行预处理、分割和标记化,实现了对BERT模型的并行计算,以提高在大规模文本数据上的计算效率;最后,为验证所提出方法的有效性,本文选用了CoNLL2003数据集进行实验。实验结果表明,相较于串行模型,并行BERT模型在准确率、召回率和F1值上均有显著提升,其优于串行模型的原因包括计算效率提升、全局上下文建模、资源利用率提高和更强泛化能力等方面。展开更多
文摘本研究针对云计算环境中文本处理的需求,提出了一种基于双向编码器表示转换器(bidirectional encoder representation from transformers,BERT)的并行化方法。首先,介绍了BERT模型的基本原理以及编码器组成的Transformer结构,并对文本进行标记化和上下文建模的机制;其次,本研究关注文本在云计算环境下的处理效率,提出了一种并行化的BERT模型优化策略,并通过对文本进行预处理、分割和标记化,实现了对BERT模型的并行计算,以提高在大规模文本数据上的计算效率;最后,为验证所提出方法的有效性,本文选用了CoNLL2003数据集进行实验。实验结果表明,相较于串行模型,并行BERT模型在准确率、召回率和F1值上均有显著提升,其优于串行模型的原因包括计算效率提升、全局上下文建模、资源利用率提高和更强泛化能力等方面。