生成能够精确匹配原字符串的正则表达式

正则表达式匹配字符串

  • 简介
    • 具体方案
    • 生成正则表达式的代码实现

简介

需求内容:需要将不同的公司名称归一化
比如namecheap, NAMECHEAP. INC. 等表示同一含义,但是表现形式不同
本文使用java语言实现了由一串字符串自动生成精确匹配的正则表达式的方式,并顺带介绍了归一化不同表达方式的公司为同一个公司的方案

具体方案

将收集到的域名注册商或者服务提供商进行字典序的排序,然后按照字母字典序来拆分成(26个字母+其他语言)的集合,每个集合分开来处理每个字母对应的注册商和服务商,将复杂问题拆解,划分成更小的问题进行解决
1、找出同一个字母开头的服务商或者注册商群进行归类

  • 截取掉一些关键信息,包括以下的几类缩写:
  • 有限公司
    • Ltd.(Limited):常见于英语国家,如美国、英国、加拿大、澳大利亚等。
    • S.A.(Societe Anonyme):常见于法语国家,如法国、瑞士、比利时、卢森堡、意大利、西班牙、葡萄牙等。
    • GmbH(Gesellschaft mit beschränkter Haftung):常见于德语国家,如德国、瑞士等。
    • K.K.(Kabushiki Kaisha):常见于日语国家,如日本、韩国等。
    • S.R.L.(Società a responsabilità limitata):常见于意大利语国家,如意大利、墨西哥等。
    • S.A.R.L.(Société à responsabilité limitée):常见于法语国家,如法国、比利时、卢森堡等。
    • B.V.(Besloten Vennootschap):常见于荷兰语国家,如荷兰、比利时、卢森堡等。
    • N.V.(Naamloze Vennootschap):常见于荷兰语国家,如荷兰、比利时、卢森堡等。
  • 股份有限公司
    • Plc.(Public Limited Company):常见于英语国家,如英国、加拿大、澳大利亚等。
    • S.A.(Societe Anonyme):常见于法语国家,如法国、瑞士、比利时、卢森堡、意大利、西班牙、葡萄牙等。
    • AG(Aktiengesellschaft):常见于德语国家,如德国、瑞士等。
    • K.K.(Kabushiki Kaisha):常见于日语国家,如日本、韩国等。
    • S.A.P.A.(Società per Azioni):常见于意大利语国家,如意大利、墨西哥等。
    • S.A.R.L.(Société Anonyme à Responsabilité Limitée):常见于法语国家,如法国、比利时、卢森堡等。
    • B.V.A.(Besloten Vennootschap met Aandeelhouders):常见于荷兰语国家,如荷兰、比利时、卢森堡等。
    • INC.(Incorporated) 代表股份邮箱公司
  • 其他
    • Co. (Company):常见于英语国家,表示公司。
    • Ltd. Co.(Limited Company):常见于英语国家,表示有限公司。
    • Pte. Ltd.(Private Limited Company):常见于新加坡,表示私人有限公司。
    • S.C.(Società Civile):常见于意大利语国家,表示合伙公司。
    • S.C.S.(Società in accomandita semplice):常见于意大利语国家,表示有限合伙公司。
    • S.N.C.(Società in nome collettivo):常见于意大利语国家,表示无限合伙公司。
    • S.L.(Sociedad Limitada):西班牙语有限责任公司
    • Inc.(incorporated )股份有限公司的常见缩写
    • Limited (limited liability company)有限责任公司的缩写
    • LLC(limited liability company)有限责任公司的缩写
    • Co.,(company)公司的缩写,类似还有Corp.Co.
      对于每个公司名称,先根据这些常见的缩写进行拆分:
      拆分完成之后,在每个字母开头的集群里去进行正则匹配,不区分大小,如何匹配到相同的正则表达式(由开发定义),匹配成功,则合成一个并查集
      对于一些没办法通过自动正则表达式规则匹配的,通过手动配置相关联的名称为同一个正则表达式,然后将两个集合合并在一起。

生成正则表达式的代码实现

// 生成归一化的正则表达式
    public static String generateRegularExpression(String str,
        Map<Integer, List<String>> companySuffixMap, List<String> pureCompanySuffix) {
        String strToLowerCase = str.toLowerCase();
        //先遍历特殊的公司后缀
        for(Integer innerElement : companySuffixMap.keySet()) {
            List<String> companySuffixList = companySuffixMap.get(innerElement);
            for(String companySuffix : companySuffixList) {
                String companySuffixToLowerCase = companySuffix.toLowerCase(Locale.ROOT);
                int index = strToLowerCase.indexOf(companySuffixToLowerCase);
                if(index != -1) {
                    String prefixStr = strToLowerCase.substring(0, index);
                    return "^(?i)" + matchRegx(prefixStr) + ".*$";
                }
            }
        }
        //再遍历英文公司后缀
        for(String englishCompanySuffix : pureCompanySuffix) {
            String companySuffixToLowerCase = englishCompanySuffix.toLowerCase(Locale.ROOT);
            int index = strToLowerCase.indexOf(companySuffixToLowerCase);
            if(index != -1) {
                if(index == 0) {
                    continue;
                }
                if(strToLowerCase.charAt(index - 1) == ' ' || strToLowerCase.charAt(index - 1) == ','
                        || strToLowerCase.charAt(index - 1) == '.') {
                    String prefixStr = strToLowerCase.substring(0, index-1);
                    return "^(?i)" + matchRegx(prefixStr) + ".*$";
                }
            }
        }
        //实在不行,就进行全匹配
        return "^(?i)" + matchRegx(str) + "$";
    }
    public static String matchRegx(String prefixStr) {
        return escapeSpecialCharacters(prefixStr).replaceAll("[ ,.]", "[\\\\s|,|\\.]*");
    }

    public static String escapeSpecialCharacters(String inputString) {
        StringBuilder escapedString = new StringBuilder();
        for (char character : inputString.toCharArray()) {
            switch (character) {
                case '\\':
                    escapedString.append("\\\\");
                    break;
                case '*':
                    escapedString.append("\\*");
                    break;
                case '+':
                    escapedString.append("\\+");
                    break;
                case '?':
                    escapedString.append("\\?");
                    break;
                case '[':
                    escapedString.append("\\\\[");
                    break;
                case ']':
                    escapedString.append("\\\\]");
                    break;
                case '(':
                    escapedString.append("\\(");
                    break;
                case ')':
                    escapedString.append("\\)");
                    break;
                case '{':
                    escapedString.append("\\{");
                    break;
                case '}':
                    escapedString.append("\\}");
                    break;
                case '^':
                    escapedString.append("\\^");
                    break;
                case '$':
                    escapedString.append("\\$");
                    break;
                case '|':
                    escapedString.append("\\|");
                    break;
                case '-':
                    escapedString.append("\\-");
                    break;
                case '/':
                    escapedString.append("\\/");
                    break;
                default:
                    escapedString.append(character);
            }
        }
        return escapedString.toString();
    }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/577187.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

创建Spring Boot项目

选择Maven Archetype,之后再Archetype选择webapp 两个都打勾 这是当前的打勾 这个是以后都默认勾上 打开对应的路径&#xff0c;用vscode打开settings.xml 加入国内源 阿里云 若没有此文件可上网查找 若jar包出现问题&#xff0c;可在repostitory文件内全删除 之后在Maven刷…

巴特沃斯滤波原理及代码实现(matlab详细过程版)

目录 一、算法原理1、原理概述2、参考文献 二、代码实现三、结果展示 本文由CSDN点云侠原创&#xff0c;原文链接。如果你不是在点云侠的博客中看到该文章&#xff0c;那么此处便是不要脸的爬虫与GPT。 一、算法原理 1、原理概述 巴特沃斯滤波器&#xff08;Butterworth filt…

主成分分析(PCA)在 Java 中的简单应用

在数据科学的众多工具中&#xff0c;主成分分析&#xff08;PCA&#xff09;是一种非常重要的统计技术&#xff0c;用于数据降维和模式识别。它通过提取数据中的关键特征来简化数据结构&#xff0c;从而帮助我们更好地理解数据集的主要变化因素。本文将介绍如何在 Java 编程环境…

CARLA (I)--Ubuntu20.04 服务器安装 CARLA_0.9.13服务端和客户端详细步骤

目录 0. 说明0.1 应用场景&#xff1a;0.2 本文动机&#xff1a; 1. 准备工作2. 安装 CARLA 服务端软件【远程服务器】3. 安装 CARLA 客户端【远程服务器】3.1 .egg 文件安装&#xff1a;3.2 .whl 文件安装&#xff1a;3.3 从Pypi下载Python package 4. 运行服务端程序5. 运行客…

arcgis js 4.x加载SceneLayer并实现基于属性查询定位及高亮

一、代码 <!DOCTYPE html> <html> <head><meta charset"utf-8" /><meta name"viewport" content"widthdevice-width, initial-scale1,maximum-scale1,user-scalableno"><title></title><link rel…

北京车展创新纷呈,移远通信网联赋能

时隔四年&#xff0c;备受瞩目的2024&#xff08;第十八届&#xff09;北京国际汽车展览会于4月25日盛大开幕。在这场汽车行业盛会上&#xff0c;各大主流车企竞相炫技&#xff0c;众多全球首发车、概念车、新能源车在这里汇聚&#xff0c;深刻揭示了汽车产业的最新成果和发展潮…

神经网络的激活函数

目录 神经网络 激活函数 sigmoid 激活函数 tanh 激活函数 backward方法 relu 激活函数 softmax 激活函数 神经网络 人工神经网络&#xff08; Artificial Neural Network&#xff0c; 简写为ANN&#xff09;也简称为神经网络&#xff08;NN&#xff09;&#xff0c…

杰发科技AC7840——CAN通信简介(7)_波形分析

参考&#xff1a; CAN总线协议_stm32_mustfeng-GitCode 开源社区 0. 简介 隐形和显性波形 整帧数据表示 1. 字节描述 CAN数据帧标准格式域段域段名位宽&#xff1a;bit描述帧起始SOF(Start Of Frame)1数据帧起始标志&#xff0c;固定为1bit显性(b0)仲裁段dentify(ID)11本数…

c++图论基础(2)

目录 图的存储方式&#xff1a; 邻接矩阵&#xff1a; 代码实现&#xff1a; 邻接表&#xff1a; 代码实现&#xff1a; 邻接矩阵邻接表对比&#xff1a; 带权图&#xff1a; 邻接矩阵存储&#xff1a; 邻接表存储(代码实现)&#xff1a; 图的存储方式&#xff1a; 邻…

Unreal Engine添加UGameInstanceSubsystem子类

点击C类文件夹&#xff0c;在右边的区域点击鼠标右键&#xff0c;在弹出的菜单中选择“新建C类”在弹出的菜单中选中“显示所有类”&#xff0c;选择GameInstanceSubsystem作为父类, 点击“下一步”按钮输入子类名称“UVRVIUOnlineGameSubsystem”&#xff0c;选择插件作为新类…

Qt 创建控件的两种方式

目录 Qt 创建控件的两种方式 通过ui界面创建控件 通过代码方式创建控件 Qt 创建控件的两种方式 通过ui界面创建控件 这里当然我们是需要先有一个项目的&#xff0c;按照我们之前创建项目的步骤&#xff0c;我们可以先创建一个 Widget 的项目&#xff0c;但是 MainWindow 也…

EasyRecovery数据恢复软件2025激活码及下载使用步骤教程

EasyRecovery数据恢复软件是一款功能强大且用户友好的数据恢复工具&#xff0c;专为帮助用户找回因各种原因丢失的数据而设计。该软件由全球知名的数据恢复技术公司开发&#xff0c;经过多年的技术积累和更新迭代&#xff0c;已经成为行业内备受推崇的数据恢复解决方案。 EasyR…

Spring MVC系列之九大核心组件

概述 Spring MVC是面试必问知识点其一&#xff0c;Spring MVC知识体系庞杂&#xff0c;有以下九大核心组件&#xff1a; HandlerMappingHandlerAdapterHandlerExceptionResolverViewResolverRequestToViewNameTranslatorLocaleResolverThemeResolverMultipartResolverFlashMa…

Andorid复习

组件 TextView 阴影 android:shadowColor"color/red" 阴影颜色android:shadowRadius"3.0" 阴影模糊度&#xff08;大小&#xff09;android:shadowDx"10.0" 横向偏移android:shadowDy"10.0" 跑马灯 这里用自定义控件 public cla…

【Java】HOT100 回溯

目录 理论基础 一、组合问题 LeetCode77&#xff1a;组合 LeetCode17&#xff1a;电话号码的字母组合 LeetCode39&#xff1a;组合总和 LeetCode216&#xff1a;组合总和ii LeetCode216&#xff1a;组合总和iii 二、分割问题 LeetCode131&#xff1a;分割回文串 Leet…

MFC实现ini配置文件的读取

MFC实现 ini 配置文件的读取1 实现的功能&#xff1a;点击导入配置文件按钮可以在旁边编辑框中显示配置文件的路径&#xff0c;以及在下面的编辑框中显示配置文件的内容。 1. 显示配置文件内容的编辑框设置 对于显示配置文件内容的 Edit Contorl 编辑框的属性设置如下&#x…

vue3中所有页面需要手动刷新一下才能显示,控制台没有报错

1.问题 登录进来是进入首页&#xff0c;然后切换任何页面都是空白&#xff0c;但是控制台没有报错。在其他页面刷新后却能显示&#xff0c;然而切换到首页刷新后再切换到其他页面又是空白。 2.解决问题 原因&#xff1a;在于首页给了两个根标签&#xff0c;我把其中一个根标签…

视频输入c++ 调用 libtorch推理

1、支持GPU情况 libtorch 支持GPU情况比较奇怪&#xff0c;目前2.3 版本需要在链接器里面加上以下命令&#xff0c;否则不会支持gpu -INCLUDE:?ignore_this_library_placeholderYAHXZ 2 探测是否支持 加一个函数看你是否支持torch&#xff0c;不然不清楚&#xff0c;看到…

axios——503响应超时重复多次请求——技能提升

今天在写后台管理系统时&#xff0c;遇到一个问题&#xff0c;就是每天早上一启动项目&#xff0c;接口会提示503超时&#xff0c;因此项目运行必须重新刷新请求成功后才可以正常使用。 后端同事说请求超时了&#xff0c;需要前端处理一下&#xff0c;如果是503的状态码&#…

封装 H.264 视频为 FLV 格式然后推流

封装 H.264 视频为 FLV 格式并通过 RTMP 推流 flyfish 协议 RTMP (Real-Time Messaging Protocol) RTSP (Real Time Streaming Protocol) SRT (Secure Reliable Transport) WebRTC RTMP&#xff08;Real Time Messaging Protocol&#xff09;是一种用于实时音视频流传输的协…
最新文章