Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Languag...

📅 2026/7/5 15:31:55 👁️ 阅读次数 📝 编程学习

文章总结与翻译

该研究聚焦低资源语言乌尔都语的反讽检测问题，核心是通过跨语言数据适配与多模型对比，构建高效的乌尔都语反讽检测体系，具体内容如下：

数据构建：针对乌尔都语反讽数据集稀缺的现状，将英文常用反讽语料库（含1950条Reddit评论，标注为反讽/非反讽）通过“机器翻译+人工后期编辑”的半自动化方式翻译成乌尔都语，经多阶段质量验证，确保语义准确性与反讽意味的完整性，最终形成适用于二分类任务的乌尔都语数据集。
数据预处理：针对乌尔都语语言特性，执行文本标准化（去除冗余空格、控制字符等）、去除变音符号、统一音译形式、小写转换、语言专属分词、停用词移除等步骤；为传统机器学习模型采用GloVe和Word2Vec词嵌入，为Transformer类模型使用内置预训练分词器。
模型实验：
- 传统机器学习模型：测试逻辑回归、SVM、随机森林等10种算法，基于GloVe和Word2Vec嵌入训练，其中梯度提升（Gradient Boosting）表现最佳，GloVe嵌入下F1分数达89.18%。
- 大型语言模型（LLMs）：微调BERT、RoBERTa、LLaMA 2（7B）、LLaMA 3（8B）、Mistral等模型，LLaMA 3（8B）性能最优，F1分数高达94.61%。
实验结论：LLMs在乌尔都语反讽检测中显著优于传统机器学习模型，深层语义表征与上下文捕捉能

编程学习技术分享实战经验