(原标题:信源信息申请基于文本库的投标文件重复率对比方法及系统专利,解决了现有技术中对比效率较低的问题)
金融界2024年1月10日消息,据国家知识产权局公告,郑州信源信息技术股份有限公司申请一项名为“一种基于文本库的投标文件重复率对比方法及系统“,公开号CN117371421A,申请日期为2023年10月。
专利摘要显示,本发明公开了一种基于文本库的投标文件重复率对比方法及系统,属于数据处理技术领域,该方法包括步骤S1:识别投标文件中的文本、表格和图片,将文本拆分为多个段落;步骤S2:将部分段落分类至分类标签下,基于已被分类的段落生成多个关键词,基于关键词将剩余段落分类至对应的分类标签下;步骤S3:获取各个段落的重复率、表格的重复率,若重复率或重复率大于第一阈值,则将段落或表格定义为抄袭段落或抄袭表格;步骤S4:定位抄袭图片;步骤S5:计算投标文件的总体重复率,若总体重复率大于第二阈值,则生成指向投标文件的警告信息。通过本发明解决了现有技术中对比效率较低的问题。
本文源自:金融界
作者:情报员