学习笔记 | 生活平淡又惊奇

计算语义相似度(理论和实验结果篇3-总结)

2021.09.15

研究过程涉及的模型如下:
第一类模型:WordNet、Word2Vec、GloVe、fastText
第二类模型:ELMo、GPT-2、BERT、BioBERT、SciBERT、ClinicalBERT、BlueBERT、 PubMedBERT

实验需考虑问题:
是否有模型可以处理多语言
哪个模型对同义词的语义相似度计算更为准确

实验模型输入:
五个词——German measles,Rubella,Rötheln,Morbilli,Rubeola

模型与实验总结

image-1690793380548

实验方法确定

image-1690793445855

实验1 Rotheln和Rötheln的同源性测试

image-1690793470622

image-1690793477222

bert-base-multilingual-uncased预训练模型属于BERT预训练模型,这个模型是在多语言数据集上经过训练的,支持英语、法语、荷兰语、德语、意大利语以及西班牙语等100多种语言。

通过实验可以发现在多语言预训练模型中Rotheln和Rötheln的相似度为1,因此两者同源。在接下来计算相似度的单语言模型中,可以用Rotheln代替Rötheln。

实验2 词汇语义相似度计算

image-1690793505479

image-1690793509348

PubMedBERT-uncased-abstract预训练模型语料库包含1400万篇摘要,其中包含30亿个单词(21 GB),还通过添加PubMed Central的全文文章来对另一个版本的PubMedBERT进行预训练,使预训练语料库大幅增加至168亿字(107 GB)。

通过实验发现German measles与其他词汇的语义相似度从高到低分别为Rubella,Rötheln(Rotheln),Morbilli,Rubeola,其中Rubella的语义相似度最高

Case Study

image-1690793540759