Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Languag...

📅 2026/7/5 15:31:55 👁️ 阅读次数 📝 编程学习
Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Languag...

文章总结与翻译

一、主要内容

该研究聚焦低资源语言乌尔都语的反讽检测问题,核心是通过跨语言数据适配与多模型对比,构建高效的乌尔都语反讽检测体系,具体内容如下:

  1. 数据构建:针对乌尔都语反讽数据集稀缺的现状,将英文常用反讽语料库(含1950条Reddit评论,标注为反讽/非反讽)通过“机器翻译+人工后期编辑”的半自动化方式翻译成乌尔都语,经多阶段质量验证,确保语义准确性与反讽意味的完整性,最终形成适用于二分类任务的乌尔都语数据集。
  2. 数据预处理:针对乌尔都语语言特性,执行文本标准化(去除冗余空格、控制字符等)、去除变音符号、统一音译形式、小写转换、语言专属分词、停用词移除等步骤;为传统机器学习模型采用GloVe和Word2Vec词嵌入,为Transformer类模型使用内置预训练分词器。
  3. 模型实验
    • 传统机器学习模型:测试逻辑回归、SVM、随机森林等10种算法,基于GloVe和Word2Vec嵌入训练,其中梯度提升(Gradient Boosting)表现最佳,GloVe嵌入下F1分数达89.18%。
    • 大型语言模型(LLMs):微调BERT、RoBERTa、LLaMA 2(7B)、LLaMA 3(8B)、Mistral等模型,LLaMA 3(8B)性能最优,F1分数高达94.61%。
  4. 实验结论:LLMs在乌尔都语反讽检测中显著优于传统机器学习模型,深层语义表征与上下文捕捉能