2019年认证杯SPSSPRO杯数学建模B题(第一阶段)外星语词典全过程文档及程序

2019年认证杯SPSSPRO杯数学建模

基于方差分布的方法对未知语言文本中重复片段的自动搜索问题的研究

B题 外星语词典

原题再现:

  我们发现了一种未知的语言,现只知道其文字是以 20 个字母构成的。我们已经获取了许多段由该语言写成的文本,但每段文本只是由字母组成的序列,没有标点符号和空格,无法理解其规律及含义。我们希望对这种语言开展研究,有一种思路是设法在不同段文本中搜索共同出现的字母序列的片段。语言学家猜测:如果有的序列片段在每段文本中都会出现,这些片段就很可能具备某种固定的含义 (类似词汇或词根),可以以此入手进行进一步的研究。在文本的获取过程中,由于我们记录技术的限制,可能有一些位置出现了记录错误。可能的错误分为如下三种:
  1. 删失错误:丢失了某个字母;
  2. 插入错误:新增了原本不存在的字母;
  3. 替换错误:某个字母被篡改成了其他的字母。
  第一阶段问题: 假设我们已经获取了 30 段文本,每段文本的长度都在5000–8000 个字母之间。我们希望找到的片段的长度在 15–21 个字母之间。为简单起见,我们假设文本中出现的错误只有替换错误,而且对我们要找的片段而言,在文本中每次出现时,最多只会出现 4 个字母的替换错误。请设计有效的数学模型,快速而尽可能多地找到符合要求的字母片段,并自行编撰算例来验证算法的效果。

整体求解过程概述(摘要)

  本文针对未知语言文本中重复片段自动搜索的问题,运用了模式识别、非监督学习中的聚类算法等思想理论,构建了含有重复字母序列片段的未知语言文本模型,综合运用了 Matlab, Excel 等软件编程以及数据分析,最终能够高效、准确的找到重复出现的字母序列片段。
  本文的特色是借鉴模式识别中非监督学习的思想,利用方差这一数据统计特征把未知的样本数据中具有相似特点的数据归为一类,进而搜索出重复片段。由于重复出现字母序列片段的长度,所在文本段落中的出现位置都是随机的。针对这样的随机性和未知性,先通过方差这一数据统计特性,缩小搜索范围,相比于传统的穷举遍历法可减少搜索次数近 50 倍,大大提高了搜索速度。
  针对问题一,要求解决文本长度在 5000-8000 个未知语言字母(未知语言的文字由20 个字母构成)之间的 30 段文本中,搜索到长度为 15-21 个字母的重复出现的字母序列片段,并且此字母序列片段中会出现 0 至 4 个字母被篡改的替换错误的问题。首先,运用了随机取样的方法,构建了含有重复字母序列片段的未知语言文本模型,运用了Matlab 软件编写基于方差分布的自动搜索算法,再通过该算法能够搜索到重复的字母序列片段。
  针对问题二,要求解决评价所编写的算法的有效性及时效性问题,运用了 Matlab软件编程求解。最终得出本文所编写的算法有较高的准确率和时效性的结论。
  本文最后给出了基于方差分布的自动搜索算法的评价,客观地评价算法的优点和缺点。优点:1.提高运算速度,简化搜索过程;2.搜索到的重复字母序列片段准确性高;3. 此算法适应性强,对模型要求低。缺点:1.搜索的结果中会有一定数量的字母片段丢失;2. 当样本增长时,搜索时间将急速增长,不适用于过大的样本数量情况下的搜索。

问题分析:

  对问题一的分析
  该问题要求在文本长度在 5000-8000 个未知语言字母(未知语言的文字由20 个字母构成)之间的 30 段文本中,搜索到长度为 15-21 个字母的重复出现的字母序列片段,并且此字母序列片段中会出现 0 至 4 个字母被篡改的替换错误。首先,所研究的语言文字—字母未知,所以需要先将用已知语言的字母标记未知语言的字母。其次,实验所需的 30 段文本样本未知,我们需要建立 30 段未知语言的文本库。再次,保证每段文本中会含有重复出现的字母序列片段,同时也需要建立随机的目标字母序列片段库,并将产生的目标字母序列片段随机插入30 段文本中的随机位置。最后,根据非监督学习中的聚类算法的思想,编写程序算法,在文本中快速且多地搜索到含有替换错误的重复出现的目标字母序列片段。
  对问题二的分析
  由于模型一设计的算法已可以查找出问题中所要找的片段,但为了评价算法的查找能力,我们需要建立如下评价标准。我们通过实际算例验证所编写的算法的有效性及时效性。

模型假设:

  (1) 为方便计算,假设每段文本的长度均相同;
  (2) 假设希望找到的片段长度在 15-21 个字母之间;
  (3) 为了简化问题,假设问文本中出现的错误只有替换错误,并且所找片段中最多只出现 4 个字母的替换错误;
  (4) 为了方便提取随机样本,假设随机抽取的 30 段样本均满足均匀分布;
  (5) 由于语言未知,目前已知此语言由 20 个字母构成,为了方便生成样本研究,故使用英文字母 A~T(共 20 个)代表未知语言的 20 个未知字母。

论文缩略图:

在这里插入图片描述
在这里插入图片描述

全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可

部分程序代码:(代码和文档not free)

clc;
clear;
%假设有original_num段原始数据,有target_num段目标数据,有替换错误
出现(每段目标数据有一个被随机替换)
%假设原始数据长度一致,目标数据长度随机,每段原始数据随机插入随机
段不同目标数据
%生成原始数据及目标数据
original_num = 30;
original_length = 5000; %原始数据长度
target_num = 10; %目标数据段数
target_length = ceil(rand(1,target_num)*7)+14; %目标数据长度矩阵,每一
列为对应段目标数据长度,取值为15~21
Origin_Data = ceil(rand(original_length,original_num)*20);
for i=1:target_num
 temp = ceil(rand(target_length(1,i),1)*20); %按长度生成每段数据
 temp = [temp;zeros(21-length(temp),1)]; %将数据补零至21位(最大),
以便于合成矩阵
 Target(:,i) = temp; %生成的目标数据,每一列为一段
end
temp = []; %清空temp
%初始化替换后的目标数据
for i=1:original_num
 Target_after(:,:,i) = Target; %每一列为目标数据,第三维为原始数据
个数
end
%生成替换后的目标数据
for i=1:original_num
 for j=1:target_num
 replace_index(i,j) = ceil(rand*target_length(1,j));
 replace_value(i,j) = ceil(rand*20);
 Target_after(replace_index(i,j),j,i) = replace_value(i,j);
 end
end
%生成插入下标,0表示不插入
Insert_index = zeros(original_num,target_num); %初始化插入位置下标
for i=1:original_num
index = 0; %当前插入下标
last_index = 0; %记录上一次插入下标
 for j=1:target_num
 temp = rand;
 if temp>=0.5
 overlap_flag = 0; %下标重叠标志位
 while(overlap_flag==0)
 index = ceil(rand*(original_length-target_length(1,j))); %
随机生成下标
%如果当前生成下标与上一次生成下标差大于目标数据长度,则生成有效,
防止覆盖上一次插入值
 if(abs(index-last_index)>target_length(1,j))

Insert_index(i,j) = index;
overlap_flag=1;
last_index = index;
 end
 end 
 end
 end
end
temp = []; %清空temp
%将目标数据随机插入到原始数据中
for i = 1:original_num
 for j=1:target_num
 if Insert_index(i,j) ~= 0 %只插入下标不为0的
 
Origin_Data(Insert_index(i,j):Insert_index(i,j)+target_length(1,j)-1,i) = 
Target_after(1:target_length(1,j),j,i);
 end
 end
end
%%以上为随机生成的模型代码
%%以下为自动搜索算法的代码
%开始计时
tic
%采样参数
sample_length = 14; %单次采样长度
sample_count = original_length-sample_length+1; %采样次数
%存放采样后的矩阵
Origin_Data_sample = zeros(sample_length,sample_count,original_num);
%存放方差的矩阵
Origin_Data_var = zeros(original_num,sample_count);
%采样并计算方差
for i=1:original_num
 for j=1:sample_length
 for k=1:sample_count
 Origin_Data_sample(:,k,i) = Origin_Data(k:k+sample_length-1,i);
 Origin_Data_var(i,k) = var(Origin_Data_sample(:,k,i),1); 
 end
 end
end
%计算方差分布
var_divide_num = 13; %划分端点数,划分段数=段点数-1
max_var = max(max(Origin_Data_var)); %最大方差值
min_var = min(min(Origin_Data_var)); %最小方差值
var_divide_point = linspace(min_var,max_var,var_divide_num); %计算分割
点
var_divide_center = zeros(1,var_divide_num-1);
for i=1:var_divide_num-1
 var_divide_center(i) = mean(var_divide_point(i:i+1)); %计算分割中心
end
var_distribution_num = zeros(original_num,var_divide_num-1);
for i=1:original_num
 var_distribution_num(i,:) = 
hist(Origin_Data_var(i,:),var_divide_center); %进行分割
end
%方差分布直方图
% figure(1)
% bar(var_divide_center,A_var_distribution_num);
% figure(2)
% bar(var_divide_center,B_var_distribution_num);
% figure(3)
% bar(var_divide_center,C_var_distribution_num);
% 
%对方差及其下标进行排序
var_order = zeros(original_num,sample_count);
var_index_order = zeros(original_num,sample_count);
for i=1:original_num
 [var_order(i,:),var_index_order(i,:)] = sort(Origin_Data_var(i,:));
end
%生成下标重排序矩阵,按照方差分布排序,便于后续寻找下标
for i=1:original_num
 for j=1:var_divide_num-1
 for k=1:var_distribution_num(i,j)
 var_index_reorder(k,j,i) = 
var_index_order(i,sum(var_distribution_num(i,1:j-1))+k);
 end
 end
end
%两两按方差分布比较,位于同一方差分布段内的才进行比较,减少比较次
数
compare_count = 1;
similar_count = 1;
similar_num = 0;
for x=1:original_num-1
 for y=x+1:original_num
 for n=1:var_divide_num-1
 for i=1:var_distribution_num(x,n)
 for j=1:var_distribution_num(y,n)
 error_count = 0; %初始化错误计数位
 for k=0:sample_length-1
 if Origin_Data(var_index_reorder(i,n,x)+k,x) ~= 
Origin_Data(var_index_reorder(j,n,y)+k,y) %如果不相等则error_count+1
 error_count = error_count+1; 
 end
 if error_count>=4 %error_count>=4时,跳出
循环
break;
 end
 if k == sample_length-1 %k到达最大值,判断
AB相似,则记录下标
 
similar_index(similar_count,compare_count) = var_index_reorder(i,n,x);
 
similar_index(similar_count,compare_count+1) = var_index_reorder(j,n,y);
 
similar_index(similar_count,compare_count+2) = var_index_reorder(i,n,x)-
var_index_reorder(j,n,y);
 similar_count = similar_count+1;
similar_num = similar_num+1;
 end
 end
 end
 end 
 end
 compare_count = compare_count+3;
 similar_count = 1;
 end
end
%计时结束
toc
全部论文及程序请见下方“ 只会建模 QQ名片” 点击QQ名片即可

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/309578.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++面试宝典第18题:旋转数组

题目 给定一个数组,将数组中的元素向右移动k个位置,其中k是非负数。要求如下: (1)尽可能想出更多的解决方案,至少有三种不同的方法可以解决这个问题。 (2)使用时间复杂度为O(n)和空间复杂度为O(1)的原地算法解决这个问题。 示例 1: 输入: [1, 2, 3, 4, 5, 6, 7] 和 k…

GPT function calling v2

原文:GPT function calling v2 - 知乎 OpenAI在2023年11月10号举行了第一次开发者大会(OpenAI DevDays),其中介绍了很多新奇有趣的新功能和新应用,而且更新了一波GPT的API,在1.0版本后的API调用与之前的0.…

MySQL 从零开始:02 MySQL 安装

文章目录 1、下载 MySQL 安装程序2、安装 MySQL 要操作 MySQL ,首先要安装 MySQL ,本文将一步步展示如何安装 MySQL,简直详细到令人发指。 环境: 操作系统:Windows10 64位MySQL版本:社区版 8.0.11.0 1、下…

SpringBoot集成Skywalking实现分布式链路追踪

官方网址: Apache SkyWalking官方文档: SkyWalking 极简入门 | Apache SkyWalking下载地址:Downloads | Apache SkyWalking Agent:以探针的方式进行请求链路的数据采集,并向管理服务上报; OAP-Service&am…

L1-096:谁管谁叫爹

《咱俩谁管谁叫爹》是网上一首搞笑饶舌歌曲,来源于东北酒桌上的助兴游戏。现在我们把这个游戏的难度拔高一点,多耗一些智商。 不妨设游戏中的两个人为 A 和 B。游戏开始后,两人同时报出两个整数 NA​ 和 NB​。判断谁是爹的标准如下&#xff…

pythroch abaconda 安装 cuda 版本确定

一、简述 公司有一个深度学习的项目,由于目前没有项目。时间也有恰好可以一起学习一下 1、下载abaconda https://repo.anaconda.com/archive/ 2、安装 环境变量要✔ 其他一直下一步 3、测试 (base) C:\Users\alber>conda -V conda 23.1.0(base) C:\User…

【设计模式-02】Strategy策略模式及应用场景

一、参考资料 Java 官方文档 Overview (Java SE 18 & JDK 18)module indexhttps://docs.oracle.com/en/java/javase/18/docs/api/index.html Java中使用到的策略模式 Comparator、comparable Comparator (Java SE 18 & JDK 18)declaration: module: java.base, pa…

C++学习笔记——队列模拟

目录 一、模拟队列 二、模拟队列的知识点 三、队列 3.1入队操作 3.2出队操作 3.3访问队首元素 3.4访问队尾元素 3.5判断队列是否为空 3.6获取队列的大小 四、实现队列的基本功能 一、模拟队列 当涉及到数据存储和处理时,队列是一种常见的数据结构&#x…

最新版CleanMyMac X4.14.7智能清理mac磁盘垃圾工具

CleanMyMac X是一款专业的Mac清理软件,可智能清理mac磁盘垃圾和多余语言安装包,快速释放电脑内存,轻松管理和升级Mac上的应用。同时CleanMyMac X可以强力卸载恶意软件,修复系统漏洞,一键扫描和优化Mac系统,…

java SSM物业管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM物业管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和 数据库,系统主要采用B/…

Java 对象的内存布局

目录 一. 前言 二. Java 对象的内存布局 三. Java 对象结构 3.1. 对象头 3.1.1. Mark Word 3.1.2. 类型指针(Class Metadata Pointer) 3.1.3. 数组长度(Length) 3.2. 实例数据 3.3. 对齐填充(Padding&#xf…

如何在SpringBoot中优雅地重试调用第三方API?

1.引言 在实际的应用中,我们经常需要调用第三方API来获取数据或执行某些操作。然而,由于网络不稳定、第三方服务异常等原因,API调用可能会失败。为了提高系统的稳定性和可靠性,我们通常会考虑实现重试机制。 2.重试机制的必要性 第三方API调用可能面临各种不可预测的问题…

Win10下python3和python2同时安装并解决pip共存问题

特别说明,本文是在Windows64位系统下进行的,32位系统请下载相应版本的安装包,安装方法类似。 使用python开发,环境有Python2和 python3 两种,有时候需要两种环境切换使用,下面提供详细教程一份。 1、下载…

Centos7升级openssl到openssl1.1.1

Centos7升级openssl到openssl1.1.1 1、先查看openssl版本:openssl version 2、Centos7升级openssl到openssl1.1.1 升级步骤 #1、更新所有现有的软件包列表并安装最新的软件包: $sudo yum update #2、接下来,我们需要从源代码编译和构建OpenS…

Vue3 子传父 暴露数据 defineExpose

defineExpose 属性:用于将子组件中的数据和方法,暴露给父组件,父组件再配合 ref 属性使用。 语法格式 // 子组件:暴露数据和方法 defineExpose({ 数据, 数据, 方法 });// 父组件:使用数据和方法 ref名称.value.数据 …

领域专家精心讲解AI视频生成

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的…

PPT插件-大珩助手-快速构建自己的图形

绘图板-快速构建自己的图形 通过手绘的方式,快速构建自己的想法和创意,通过在PPT中插入绘图,植入背景透明的绘图,点击画笔可切换橡皮擦,可以清空画板重新绘制。 素材库-存储图形 通过素材库存储自己的图形 图形调整…

【笔记------coremark】单片机上的跑分库coremark移植

coremark的官方仓库:https://github.com/eembc/coremark 官方收录了很多单片机的跑分情况:https://www.eembc.org/coremark/scores.php 这个是我建立的一个仓库,用来收集自己用到的一些单片机的跑分情况:https://gitee.com/wild_c…

2024.1.11每日一题

LeetCode 2645.构造有效字符串的最少插入数 2645. 构造有效字符串的最少插入数 - 力扣(LeetCode) 题目描述 给你一个字符串 word ,你可以向其中任何位置插入 “a”、“b” 或 “c” 任意次,返回使 word 有效 需要插入的最少字…

招投标系统是Electron的纯内网编辑Office Word,可以设置部分区域可编辑,其他的地方不能编辑吗?

问题: 我们是招投标系统的开发公司,框架是用的Electron,需要在纯内网的环境下编辑Office Word,可以设置部分区域可编辑,其他的地方不能编辑吗(如下红框位置)并且在用户忘记填写一些区域的时候做…