Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers

Overview

image

两个贡献:

(1)提出基准测试和度量标准: 这是首个针对海报生成的基准测试,它通过以下四个方面来评估生成的海报:

  • 视觉质量: 生成海报的语义与人类设计的海报的契合度

  • 文本连贯性: 海报中语言的流畅性

  • 整体评估: 通过“视觉语言模型(VLM)作为评判者”来评分的六项细致的美学和信息标准

  • PaperQuiz: 衡量海报传达论文核心内容的能力,方法是让 VLM 回答根据海报生成的问题

(2)PosterAgent: 一个新颖的、自上而下、融入视觉反馈的多智能体管道,专门用于海报生成。它包含三个主要组成部分:

  • 解析器(Parser): 将论文内容提炼成结构化的“资产库”。

  • 规划器(Planner): 将文本和视觉元素对齐到二叉树布局中,以保持阅读顺序和空间平衡。

  • 绘图器-评论器循环(Painter–Commenter Loop): 通过执行渲染代码并利用 VLM 的反馈来优化每个面板,以消除溢出并确保对齐

Paper2Poster Benchmark

Data curation

data source (POSTERSUM dataset) -> data sampling (length control + latest version)-> final dataset

Evaluation Metrics

视觉质量指标 (Visual Quality Metrics)

视觉相似度 (Visual Similarity)

衡量生成的宣传海报 ( ) 与真实(由作者设计)宣传海报 ( ) 之间的整体视觉相似性

首先,使用 CLIP 图像编码器 ( ) 将生成海报和真实海报都转化为图像嵌入(即它们的数值表示):

然后,计算这两个图像嵌入之间的余弦相似度:

与传统的基于分布的度量(例如 FID)相比,这种方法在实例层面操作,能够直接衡量单个海报图像之间的语义一致性和整体内容相似性。

图表相关性 (Figure Relevance)

此指标评估生成海报中的每个图表是否在上下文上是恰当的,检查图表与其在原始论文中对应的文本内容之间的语义关联度。

对于从生成海报 中提取的 个图表裁剪 ,以及在原始论文中它们对应的文本段落 ,会分别计算它们的图像嵌入和文本嵌入:

然后计算每个图表图像嵌入与其对应文本嵌入之间的余弦相似度 如果海报中包含图表 ( ),则 定义为所有这些图表-文本对余弦相似度的平均值:

如果海报中没有包含任何图表 ( ),则图表相关性 直接设为

Textual Coherence (文本连贯性)

这个指标关注的是海报中所有文本(包括标题、正文、图表描述等)的质量。它旨在确保海报上的文字清晰、流畅、自然,符合语法和语义规则,从而提高读者的可读性和理解力

计算方法:

使用标准化的“Perplexity (PPL)”(困惑度)来量化文本连贯性

将整个海报的文本输入到预训练的语言模型Llama-2-7b-hf中,语言模型会为每个词元 计算一个条件概率 ,这个概率表示在已知前面所有词元 的情况下,当前词元 出现的可能性有多大。

困惑度定义为:

VLM进行整体评估

输出分数: 对于每一张海报图像,VLM 会在 6 个具体的评估标准上打分,分值范围是 1 到 5 分

两大类:
审美分数 (Aesthetic Score):
  • 元素质量 (Element Quality)
  • 布局平衡 (Layout Balance)
  • 吸引力 (Engagement)
信息分数 (Information Score):
  • 清晰度 (Clarity)
  • 内容完整性 (Content Completeness)
  • 逻辑流程 (Logical Flow)

重点的prompt可以参照Paper2Poster/utils/prompt_templates下:

aesthetic_element_judge.yamlaesthetic_engagement_judge.yamlaesthetic_layout_judge.yamlimformation_content_judge.yamlimformation_logic_judge.yamlaesthetic_low_level_judge.yaml

Paper Quiz

1. Quiz问题的生成

image

输入每一篇论文的 PDF 文件,gpt-o3为每篇论文生成100道多项选择题:

  • 50 道逐字问题 (Verbatim Questions): 这些问题可以直接从论文文本中找到答案

  • 50 道解释性问题 (Interpretive Questions):这些问题需要更高层次的理解能力才能回答

2. Quiz问题的回答

image

将海报图像展示给六个VLM,模拟了从“休闲读者”到“专家读者”的不同理解水平,这些 VLM 只能基于海报来回答 quiz 问题

3. 评估海报效果

通过比较不同海报版本在这些 quiz 上的得分,可以确定哪张海报最能有效地传达原始论文的内容。

4. 计算公式

海报作为一种视觉媒介,其文本长度通常远少于论文。如果一个模型只是简单地将大量论文文本复制到海报上,它可能会在 quiz 上获得高分,但这并不符合海报简洁明了的特点。

论文引入了一个基于长度的惩罚机制,对原始 Quiz 分数 进行调整,得到一个惩罚分数

其中:

: 原始 Quiz 分数 : 生成海报的总文本长度 : 人工设计海报的文本长度中位数。这个值作为参考基准,代表了“合理”的海报文本长度

PaperAgent

image

1. Parser:对于Poster进行粗粒度压缩

image

先利用工具将pdf文件转换为markdown,再利用LLM生成类似于JSON文件的大纲

Text assets

对于文本,按照段落进行分割,每个键是一个章节标题,每个值是对应段落的摘要

Visual assets

对于视觉内容,每一个键是图表标题或表格标题,每一个值是提取的图像文件

2. Planner:构建海报

image

Asset matching

将上文提到的Text assetsVisual assets进行一个匹配,使用LLM对这里面相关的内容进行语义对齐,生成一组(章节,图片)对

Layout generation

在一个给定的白板上确定布局,需要考虑内容长度,保留阅读顺序和内容宽高比,使用一种二叉树布局策略,将这种约束为每一个章节确定一个明确的面板

Panel iteration

使用下面的Painter–Commenter循环,一次次迭代绘制面板

3. Painter–Commenter

image

绘图器(Painter)

使用LLM接受章节摘要并生成要点,即海报上呈现出来的主要文本内容

利用python-pptx库生成代码并渲染成图像

评论器(Commenter)

绘图器渲染出面板图像之后,使用一个VLM作为评论器评估质量,提出有针对性的视觉反馈,进行一个迭代,直到评论器发出成功信号或者到达最大迭代次数时才停止

为防止VLM的幻觉问题,

  • 使用了zoom-in策略,使评论器重点关注面板的特定区域,而不是进行整体评估,从而提高判断的准确性
  • 使用上下文参考提示,提供给评论器两个示例,一个展示了严重文本溢出,另一个展示了理想布局,帮助评论器更准确识别