发表时间:2025-06-27
阅读次数:53次
李彦鹏
图纸是工程师的语言,但大模型它不会
请各位摸着良心说,AI在设计院的日常工作中大量使用了吗?你有感觉被赋能并马上可能被失业吗?
相信大多数的回答是,没有。相信自己的判断,你的体感和真实的情况实际是一样的,大模型在建筑设计这个场景下,现在主要就用在前端的10%和后端10%,前端比如效果图生成、建筑意向建议、资料收集等场景,后端比如各种名叫“小某”的智慧设计助手,用来问答、查规范、客服。而中间这最大的一段80%,实际就是没用,所有号称智能设计和自动出图的产品,进行剖析之后实际就是参数化,而不是AI大模型技术。

那为什么中间这块最需要赋能的地方,AI渗透效果这么差呢?图纸是工程师的语言,但是大模型它压根就不会。
对于大模型,只有模态的突破才能带来其下游行业的变革。比如文字模态突破,有了LLM(大语言模型),比如ChatGPT、DeepSeek、豆包等,才有了写小说、法律、记者、公文写作等相关产业和下游任务的突破;图像模态突破,有了Diffusion Model(潜在扩散模型),比如大名鼎鼎的MJ和SD,才有了效果图生成、平面设计、广告设计等以图像为载体的产业变革;视频时序模态突破,有了视频大模型,如Sora、Runway、可灵等,才有了视频制作、广告制作、口播等产业的变革;蛋白质被突破,也才有了制药产业的突破。

反观建筑业,知识浓度最高的是图纸、用来传递信息载体是图纸、结果呈现和归档的方式也主要是图纸,因此如果要带来产业的变革,让AI能真正在中间80%的找到落地场景,就必须突破矢量图这个模态。
再举个例子,佐证我的判断。比如设计院现在招了个新员工,他能说会道也很聪明,但是注定一辈子看不懂图也不会画图,你能把他安排在哪个岗位?是不是就是前端岗位(方案和营销岗)和后端岗位(行政和职能岗)?他就是注定无法踏足中间那80%的实际业务场景。

而现在很多高校和企业都号称在DeepSeek基础上,微调出了行业大模型,我认为都是噱头大于实际。我们行业有自身的特性和数据特点,没有办法生硬的将我们的数据翻译成语言大模型所理解的语料,然后通过语言大模型来解决我们的问题。就好比我们一直在训练眼睛的能力,但是训练的再强,他也解决不了听觉的问题。现在行业落地的核心问题,不是看的不够准,而是根本就是缺少一种器官。
因此,想要AI赋能设计院,进而替代设计院,首先要解决的就是“让大模型读懂图纸”。
什么叫大模型读懂图纸
读懂图对每个设计师来说像呼吸一样自然,但是要让你严谨定义一下什么叫读懂了图纸,就没那么容易了。
“看懂图纸”不仅仅是读取图形,更重要的是理解其语义信息和表达的意图。一般来看,图纸通常包括以下内容:几何信息(形状、尺寸、比例);图纸类型(平面图、立面图、剖面图、详图等);标注、符号(尺寸标注、公差、材料符号等);注释、说明文字;图层、色彩、线型、线粗;表格信息(如明细表、标题栏、材料表等);相关规范(符合国标、行业标准等);多图纸之间的关系(管线、构件、空间参照)。
上面这样罗列式分类还是有点乱,不利于我们理解,所以我们结合实际应用场景将“理解图纸”能力细化为三个子能力:
1. 视觉解析能力
-
图元检测:识别直线、圆弧、多边形等基本图元。
-
对象检测:检测多种工程对象,如门、窗、墙、轴、管道、元器件符号等。
-
图纸类型判别:判断这是哪类工程图(机械、土建、电气等)及其子类型。
-
简单说就是理解什么东西、有几个、在哪里
2. 语义理解能力
-
标注解析:抽取尺寸、公差、角度等关键标注信息。
-
符号识别:识别行业标准内的图例符号,并给出含义。
-
文字与表格抽取:理解与提取标题栏、表格、明细表,以及备注说明。
-
简单说就是理解文字和图形所表达实体的对应关系,比如读梁配筋图
3. 结构与逻辑推理能力
-
结构层级识别:分辨各部件之间的装配、分解关系。
-
视角与投影关系理解:能判别多个视图间为同一对象的不同投影。
-
跨图纸引用解析:追踪和理解不同图纸间的参照与调用。
-
简单说就是详图和大平面什么关系,平面和立面怎么对应
饭要一口一口吃,事要一件一件办。为了能分阶段突破,我们再将三个能力体系化,并且定义其具体要解决的任务:
1. 视觉解析与对象检测
-
基础图元识别:墙体、柱、梁、板、门窗、楼梯、电梯井、基础等典型土建构件的提取与定位。
-
图纸元素判别:分辨图中线型(虚实线、粗细)、区域填充、阴影、剖面线等,判定表示意义。
-
视图类别识别:建筑平面/立面/剖面/详图的自动归类。
2. 语义理解与信息抽取
-
尺寸标注解析:自动提取轴线编号、结构尺寸、门窗尺寸、层高、埋件、孔洞等数据,封装为结构化表格。
-
文字与图元关系抽取:分析墙体、楼板、屋面等部位的材料、厚度、做法编号,抽取信息形成数据中台。
-
文本与表格识别:提取图纸中的说明、设计总说明、门窗表、构件表、材料表等常见文字信息与表格内容。
3. 结构与空间逻辑推理
-
构件关系还原:识别构件间依赖关系(如节点详图和原位标注的关系、楼梯详图与大平面关系等)。
-
跨视图关联:实体在平面、立面、剖面之间的对应映射与联合推理。
-
编号与定位一致性:精准还原轴线、编号,核验标高和坐标数据一一对应。
这样将图纸理解能力体系化分拆过后,聪明的你就可以发现,现在市面上很多科技企业实际上都在试图突破这个瓶颈,比如现在相对比较成熟的AI审图,实际上就是第一步视觉解析能力的商业化业务场景。每一步的难度都是几何级增加的,并且每一步用到的大模型能力也不同,比如第一步可以用单模态大模型解决,后面两步就得由多模态模型解决。当然每一步突破,所带来的场景大小和经济效益,也是几何级增加的。

设计院凭什么上AI的牌桌
从以上的分析可以看出,问题并不难理解,大模型公司那么多聪明人肯定也都看清楚了,并且建筑业整个35万亿市场也不是特别小的市场,应该是有吸引力的,但现在还没有感觉到科技公司裹挟资本冲劲进来,肯定是遇到了什么问题,并且是很难解决的问题。
同时,往后的竞争不来自于同行间的竞争,大家都不得不和外部的大模型或科技公司竞争,那我们在这样的竞争中有胜算吗?我们可以打的牌到底有什么?
还是从第一性原理出发,AI的三大要素算法、算力、数据,毫无疑问前两个肯定不是我们的优势,我们可以依仗的肯定只有数据,而且是私有的、大量的、高质量数据。我也认为,现在外部科技公司碰到的问题也在这里,没有大量的高质量数据,同时也没有清晰的应用场景和商业模式。
所以真的是建筑业数字化的落后救了我们,数字化能力建筑业落后于农业,排名倒数第一,所以数据基础非常薄弱,因此造成了AI无法直接将其作为语料进行训练,反观医疗、法律、金融等行业,信息化和数字化都很先进,其数据比如病例和判例,天生就是优质的QA数据,直接就可以拿来训练。
因此,设计院可以依仗上牌桌的就是数据。并且当寻找破局方向和技术通路时,必须要发挥其长板,即拥有大量难以获得的高质量数据。比如审图就不是特别好的场景,因为仅针对审图这个任务,采用CV的方案,只需要几千张图纸就够了,此时大家拼算法和开发效率,那设计院必输。所以,一定要投身要用到大量高质量数据的技术方向,比如预训练CAD大模型或多模态大模型。虽然技术难度很高,但是对于设计院来说至少不会输。

如果几年后证明做不出来,那说明大模型还没有办法取代这个行业,原来做什么就继续做;如果证明做的出来,那就有机会站在时代的风口上,掌握作为基础设施的数据资源,作为上桌的依靠。
AI会取代设计院吗
从以上推理过程可以看出,近期不会。
不要被别人贩卖焦虑。
短期内大模型对于以图纸和模型为信息载体的建筑业、制造业、工业等冲击都有限,大量的场景都依赖于矢量图模态的突破。所以不要高估AI的近期能力,但同时也不要低估AI的远期潜力。
前文也拆分了让大模型读懂图纸,所需分步克服的技术问题,可以看出并非不能实现,现阶段主要就是卡在了数据和数据清理上。我们自己就进行了相关的实践,证明其技术通路是完全可行的,就是时间问题。
对于设计院,AI并不是个坏事,原来可能担心原来是赋能,突然有一天就变替代了。经过分析发现,如果掌握了“提炼浓缩铀的能力”(数据清理和训练能力),还有机会单车变摩托,拿到AI新航路的船票。
当然只有少数公司和人能上船,但能有耐心看到这里的你,肯定有机会是其中的一员。
(来源:公众号 IO LAB )