(原标题:光云科技申请融合检索和填空的文本数据增强专利,提高分类模型的识别率及分类准确率)
金融界2023年12月4日消息,据国家知识产权局公告,杭州光云科技股份有限公司申请一项名为“融合检索和填空的文本数据增强方法、装置及电子设备“,公开号CN117150305A,申请日期为2023年11月。
专利摘要显示,本申请公开了一种融合检索和填空的文本数据增强方法、装置及电子设备,对特定领域的带标签文本数据和未标注文本数据做数据预处理,接着生成有带标签文本数据和未标注文本数据的句向量,然后通过构造完形填空的输入方式由训练好的语言模型进一步提纯数据,最后,根据多个评判标准确定召回的未标注文本数据的标签,融合相似句检索的候选句召回方式和构造完形填空输入语言模型提纯的文本数据增强方法,提高了候选问句的标签准确性,从而获取多样的增强数据用于分类模型的训练,提高分类模型的识别率及分类准确率,充分发挥模型预训练时在无监督任务中学习到的先验知识,在训练数据较少的情况下也能取得较好的效果。
本文源自:金融界
作者:情报员