全面开花--(大)语言模型在各领域的综述:评估、多模态、推荐、扩散模型、时间序列
Part1大语言模型综述
A Survey of Large Language Models
https://arxiv.org/pdf/2303.18223.pdf
自20世纪50年代图灵测试提出以来,人类一直在探索机器对语言智能的掌握。语言本质上是一个由语法规则支配的复杂、错综复杂的人类表达系统。开发有能力的人工智能(AI)算法来理解和掌握一种语言,这构成了一个重大挑战。作为一种主要的方法,语言建模在过去20年里被广泛研究,用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练Transformer模型,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面显示出强大的能力。由于研究人员发现,模型的缩放可以导致模型能力的提高,他们通过将参数规模增加到更大的规模来进一步研究缩放效应。有趣的是,当参数规模超过一定水平时,这些放大的语言模型不仅实现了性能的显著提高,而且还表现出一些小规模语言模型(如BERT)所不具备的特殊能力(如incontext learning)。为了区分不同参数规模的语言模型,研究界为具有相当规模的PLM(例如,包含数百或数千亿的参数)创造了大型语言模型(LLM)这一术语。最近,学术界和工业界对LLMs的研究都有了很大的进展,一个引人注目的进展是ChatGPT(一个基于LLMs开发的强大的人工智能聊天机器人)的推出,引起了社会的广泛关注。LLMs的技术演进已经对整个人工智能界产生了重要影响,这将彻底改变我们开发和使用人工智能算法的方式。考虑到这种快速的技术进步,在本次调查中,我们通过介绍背景、关键发现和主流技术来回顾LLMs的最新进展。特别是,我们专注于LLMs的四个主要方面,即预训练、适应性调整、利用和能力评估。此外,我们还总结了开发LLM的现有资源,并讨论了未来方向的剩余问题。这项调查提供了关于LLMs的最新文献回顾,这对研究人员和工程师来说都是一个有用的资源。



Part2大语言模型评估综述
A Survey on Evaluation of Large Language Models
https://arxiv.org/pdf/2307.03109v1.pdf
大型语言模型(LLMs)在学术界和工业界都越来越受欢迎,因为它们在各种应用中具有前所未有的性能。随着LLMs继续在研究和日常使用中发挥重要作用,对它们的评估变得越来越关键,不仅在任务层面,而且在社会层面,以便更好地了解它们的潜在风险。在过去的几年里,人们已经做出了巨大的努力,从不同的角度来研究LLM。本文对这些法律硕士的评价方法进行了全面的回顾,主要集中在三个关键的方面:评价什么,在哪里评价,以及如何评价。首先,我们从评价任务的角度进行了概述,包括一般的自然语言处理任务、推理、医学用途、伦理、教育、自然和社会科学、代理应用和其他领域。其次,我们通过深入研究评估方法和基准来回答 "哪里 "和 "如何 "的问题,这些方法和基准是评估LLM性能的关键组成部分。然后,我们总结了LLMs在不同任务中的成功和失败案例。最后,我们阐明了未来在LLMs评估方面的几个挑战。我们的目的是为LLMs评估领域的研究人员提供宝贵的见解,从而帮助开发出更熟练的LLMs。我们的主要观点是,应将评价作为一门重要的学科,以更好地帮助法律硕士的发展。我们一直在维护相关的开源材料:https://github.com/MLGroupJLU/LLM-eval-survey

Part3多模态大语言模型综述
A Survey on Multimodal Large Language Models
https://arxiv.org/pdf/2306.13549.pdf
多模态大语言模型(MLLM)最近是一个新崛起的研究热点,它利用强大的大语言模型(LLM)作为大脑来完成多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的数学推理,在传统方法中是罕见的,这表明了通往人工通用智能的潜在道路。在本文中,我们旨在追踪和总结MLLM的最新进展。首先,我们介绍了MLLM的表述,并对其相关概念进行了界定。然后,我们讨论了关键技术和应用,包括多模态指令调整(M-IT)、多模态语境学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,我们讨论了现有的挑战并指出了有希望的研究方向。鉴于MLLM的时代才刚刚开始,我们将持续更新这项调查,并希望它能激发更多的研究。收集最新论文的相关GitHub链接在https://github.com/BradyFU/AwesomeMultimodal-Large-Language-Models

Part4大语言模型在推荐系统中的应用
A Survey on Large Language Models for Recommendation
https://arxiv.org/pdf/2305.19860.pdf
大型语言模型(LLMs)已经成为自然语言处理(NLP)领域的强大工具,最近在推荐系统(RS)领域获得了极大关注。这些模型采用自监督学习的方式在海量数据上进行训练,在学习通用表征方面表现出显著的成功,并有可能通过一些有效的转移技术来增强推荐系统的各个方面,如微调和提示调谐等等。利用语言模型的力量来提高推荐质量的关键是利用其对文本特征的高质量表示和对外部知识的广泛覆盖来建立项目和用户之间的关联。为了全面了解现有的基于LLM的推荐系统,本调查提出了一个分类法,将这些模型分为两大范式,分别是用于推荐的判别性LLM(DLLM4Rec)和用于推荐的生成性LLM(GLLM4Rec),其中后者是第一次被系统地整理出来。此外,我们系统地回顾和分析了每个范式中现有的基于LLM的推荐系统,提供了对其方法、技术和性能的深入了解。此外,我们还确定了关键的挑战和一些有价值的发现,为研究人员和从业人员提供启发。我们还创建了一个GitHub资源库,以索引关于LLMs推荐的相关论文。

Part5扩散模型在自然语言处理中的应用
A Survey of Diffusion Models in Natural Language Processing
https://arxiv.org/pdf/2305.14671.pdf
这篇调查报告对扩散模型在自然语言处理(NLP)中的应用进行了全面回顾。扩散模型是一类数学模型,旨在捕捉信息或信号在网络或流形中的扩散情况。在NLP中,扩散模型已被用于各种应用,如自然语言生成、情感分析、话题建模和机器翻译。本文讨论了NLP中使用的扩散模型的不同表述,它们的优点和局限性,以及它们的应用。我们还对扩散模型和其他生成模型进行了彻底的比较,特别强调了自回归(AR)模型,同时还研究了不同的架构如何将转化器与扩散模型结合在一起。与AR模型相比,扩散模型在平行生成、文本插值、符号级控制(如句法结构和语义内容)和稳健性方面具有明显的优势。探索将transformer整合到扩散模型中的进一步变化将是一个有价值的追求。此外,开发多模态扩散模型和大规模扩散语言模型,并使其具有显著的几率学习能力,将是NLP中扩散模型未来发展的重要方向。

Part6时间序列的预训练模型
A Survey on Time-Series Pre-Trained Models
https://arxiv.org/pdf/2305.10716.pdf
时间序列挖掘(TSM)是一个重要的研究领域,因为它在实际应用中显示出巨大的潜力。依靠大量标记数据的深度学习模型已被成功用于TSM。然而,由于数据标注的成本,构建一个大规模的良好标注的数据集是很困难的。最近,由于预训练模型在计算机视觉和自然语言处理中的显著表现,它在时间序列领域逐渐引起了人们的关注。在这项调查中,我们对时间序列预训练模型(TS-PTMs)进行了全面的回顾,旨在指导对TS-PTMs的理解、应用和研究。具体来说,我们首先简要介绍了TSM中采用的典型深度学习模型。然后,我们根据预训练技术对TS-PTMs做了一个概述。我们探讨的主要类别包括有监督的、无监督的和自监督的TS-PTMs。此外,我们还进行了广泛的实验,以分析转移学习策略、基于Transformer的模型和代表性的TS-PTMs的优缺点。最后,我们指出了TS-PTMs在未来工作中的一些潜在方向。源代码在https://github.com/qianlima-lab/time-series-ptms
