EAGLE实验室博士生莫也的论文被人机交互领域顶级会议CHI2025录用
ACM CHI conference on Human Factors in Computing Systems 是人机交互领域的顶级会议。近期,CHI2025会议录用结果公布,本次会议共收到5020份完整投稿,最终录用1249篇,录用率为25.1%。EAGLE实验室博士生莫也的论文《TableNarrator: Making Image Tables Accessible to Blind and Low Vision People》被CHI2025录用。
![](http://eagle.zju.edu.cn/wp-content/uploads/2025/02/image1.jpeg)
表格是传递结构化信息的基本数据格式,它们广泛应用于教育、商业活动等关键领域。随着人们对视觉设计、跨平台兼容性等要求的不断增加,图像表格已成为了一种广泛使用的表格格式。然而这给盲人和低视力(BLV)人群带来了重大的可访问性挑战。尽管人工智能在图像表格解析方面取得了进展,但当前解决方案的可用性并不高。一方面,大多数算法专注于特定场景,例如PDF文档。另一方面,现有表格理解算法的输出并没有充分考虑BLV人群的需求。此外,常用于图片描述的多模态大模型也面临着幻觉的风险。
为解决上述挑战,我们提出了TableNarrator,这是一个旨在提升图像表格可访问性的系统。根据形成性研究的结论并结合信息可访问性指南,我们确定了 TableNarrator的设计目标。目标包括简化结构信息、保持单元格之间的独立性、提供必要的补充信息、提供简单直接的交互模式和个性化选项。然后我们创建了一个集成架构。该架构由表格布局分析模块和表格结构识别模块组成,分别用于提取图像表格的内容、结构关系并对单元格分类。该架构还利用大语言模型融合语义信息。
![](http://eagle.zju.edu.cn/wp-content/uploads/2025/02/image3.png)
此外,我们根据BLV用户的需求设计了个性化选项,以适应用户不同的访问目的,并结合简单而有效的手势来增强用户体验。
![](http://eagle.zju.edu.cn/wp-content/uploads/2025/02/image4.png)
![](http://eagle.zju.edu.cn/wp-content/uploads/2025/02/image5.png)
![](http://eagle.zju.edu.cn/wp-content/uploads/2025/02/image6.png)
我们对TableNarrator进行了技术评估和用户研究,结果证明TableNarrator不仅具有较高的技术准确性和内容覆盖率,而且参与评估的9位BLV用户也给出了较高的评价。
![](http://eagle.zju.edu.cn/wp-content/uploads/2025/02/image7.png)