paper_collect
收集的感兴趣的AI
Paper • 2502.14499 • Published • 177Note benchmark AI 研究Agent的benchmark
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines
Paper • 2502.14739 • Published • 94Note Benchmark LLM 研究生多学科测试,当前deepseek 60%成功
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?
Paper • 2502.14502 • Published • 83Note 微调,LoRA 通过在微调数据中混合一定比例的一直知识,可以提升微调效果
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Paper • 2502.14282 • Published • 18Note GUI-Agent,PC-Agent 1、感知增强APM,通过pywinauto/OCR来提升感知效果--->(类ARIA、A11y 和图像打框) 2、提出一个分层plann框架 指令、子任务、行动
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models
Paper • 2502.14802 • Published • 11Note RAG,Memory,KG 通过离线构建知识图谱,在线搜索的时候过滤搜索知识图谱的三元组(先重排、过滤) 在图谱搜索的时候引入PPR算法(给每个节点添加个性化内容)
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
Paper • 2502.15007 • Published • 160Note LLM,Context,模型机制研究 LLM 及 context 提示词中的冠词、停用词和标点符号对模型具有重大影响,且通常承载最高信息量,去除这些元素会对性能产生很大影响。去除停用词和标点会损失 8%的性能。——这难道不是语义表达不清楚所导致的吗?感觉是这样。文章主要提供了一套用于研究 LLM 内部机制的工具,仅以停用词和冠词的去除来展示该工具。
SurveyX: Academic Survey Automation via Large Language Models
Paper • 2502.14776 • Published • 91Note AI工具,文章编写工作流 可以通过一个问题生成一个领域的论文综述,在github中可以通过提issue获取综述
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback
Paper • 2502.15027 • Published • 7Note benchmark,feedback 模型无法100%通过人类反馈信息完成纠错,当前先进模型40%到50%的纠错成功率
Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis
Paper • 2502.14767 • Published • 5Note 文章辨析工作流,辩论 通过将不同方向的论文转换为一个Agent角色,进行角色间的辩论来分析多个方向论文的差异和新颖性
Thus Spake Long-Context Large Language Model
Paper • 2502.17129 • Published • 67Note long-contenxt,分析 长上下文对于中间内容的注意力丢失、长输出挑战
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties
Paper • 2502.16922 • Published • 7Note Temporal Reasoning,Benchmark 对于实体在处于不同时间和背景下进行关系推理,目前GTP-4 40%成功率
InductionBench: LLMs Fail in the Simplest Complexity Class
Paper • 2502.15823 • Published • 6Note 推理,归纳推理,Benchmark 现在大模型推理聚焦在演绎推理(数学、逻辑),归纳推理是科学研究的一种重要方式,文中提出一个数据集进行测试. 测试大约40%成功率
Grounded Persuasive Language Generation for Automated Marketing
Paper • 2502.16810 • Published • 10Note 文章生成,房地产 生成房地产的评论
Towards an AI co-scientist
Paper • 2502.18864 • Published • 41Note 文章生成,科学研究 通过多智能体从不同角度分析辩论,将结果进行反思评估,最终生成内容
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
Paper • 2502.19400 • Published • 42Note AI应用,数学定理,视频 通过视觉模型将数学定理使用视频方式进行展示
Self-rewarding correction for mathematical reasoning
Paper • 2502.19613 • Published • 75Note RL,推理逻辑设计 通过构建带有自我校验的推理路径,触发模型对生成的结果进行反思,是否正确,进而进行自修正逻辑
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving
Paper • 2502.16111 • Published • 7Note multi-agent,agent范式,复杂推理 通过将推理过程拆解,让思维模式融入到多智能体协作工作流中提升。 文中主要将原来人工编写的固定的反思规则,通过一个智能体动态从问题(任务)中抽取 通过将best-n,tree 等方法融入到多智能体框架中
DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking
Paper • 2502.20730 • Published • 32Note RAG,复杂工程场景(环境、采矿) 通过设计了一种交替树形结构(生成和评论节点交替)运行通过外置的树结构来运行LLM进行多方向探索,回溯
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
Paper • 2503.01506 • Published • 8Note 预训练 在预训练的时候会平衡各领域的数据占比,但是没有考虑不同领域之间的重复度不同,本文通过训练一个模型可以评估各领域数据占比的最好值
Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis
Paper • 2502.20383 • Published • 2Note web代理,安全 web代理的多工作流容易绕过llm本身的一些安全评估能力,容易被攻破。
MPO: Boosting LLM Agents with Meta Plan Optimization
Paper • 2503.02682 • Published • 23Note 关注,Agents,planning 文章讲述如何训练一个元规划模型(高级任务分解), 1、使用GPT-4o从轨迹总结高级抽象,2、SFT训练模型 3、生成元计划并评估 4、使用评估的数据DPO微调 可以用到GUI-agent的场景,用于从输入拆分出理解能力
ATLaS: Agent Tuning via Learning Critical Steps
Paper • 2503.02197 • Published • 7Note Agent,Steps filter 通过对专家轨迹的筛选获取关键轨迹,使用关键轨迹在进行训练,减少非关键轨迹噪声影响
Exploring Rewriting Approaches for Different Conversational Tasks
Paper • 2502.18860 • Published • 4Note RAG,rewrite 文中提出一个融合改写方案,使用上一次改写的内容加当前查询进行改写。通用的改写是使用前k条+当前query生成改写。 融合改写在数据查询任务上更优秀,查询改写在文本问答上更有效
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom
Paper • 2503.01836 • Published • 10Note 数据合成,指令数据 使用多agent生成数据并根据自定义指标过滤数据
GAIA: a benchmark for General AI Assistants
Paper • 2311.12983 • Published • 192Note benchmark,通用Agentic,Manus Manus在此benchmark达成最优,这个数据集中主要是对浏览器能力的要求,Manus通过自研给AI使用的浏览器来提升(我觉得是其比其他要好的原因)
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models
Paper • 2503.01763 • Published • 4Note Agent,Action,庞大工具集 如何通过IR模型在一个大范围的工具集中找到需要使用的工具 介绍了如何通过train一个模型来解决,包括数据的合成等。