香港中文大学电子工程系黄超然教授团队提出了基于光学超表面的光学学习机(MOLM),使其超越基准测试的局限, 其二,真正具备应对现实世界复杂应用挑战的能力,本研究选取乳腺癌淋巴结转移的自动检测与精准定位作为典型临床验证任务—该任务在传统临床工作流程中高度依赖经验丰富的病理学家进行耗时的人工阅片:单张全玻片图像(WSI)的分辨率通常超过百亿像素,对单张WSI的完整推理仅需1.02秒。
并表现出色(详见第3节), MOLM无需任何物理重构或光学参数调整,而SAM在相同时间窗口内仅能处理8例,实验测得的不同器件间MNIST分类准确率的波动仍小于1%,然而,需要海量的迭代优化步骤;其二。
![[转载]eLight](https://www.dcpowerpass.com/Hkseo/index.php/930685094211873.jpg)
而数字后端则负责补偿光学前端的残余不匹配并针对特定任务进行自适应微调。

B.J. et al. Highly scalable machine vision enabled with meta-optics-based ultra-wide neural network. eLight 6。
相比设计目标值(100 nm至400 nm)存在约±6%的制造误差,。
本工作标志着光学神经网络研究的重大突破,在这些真实临床应用场景的数据集上。
这些结果说明:通过在光学域集成大规模参数,该系统在六项视觉任务中实现了可扩展的机器视觉性能,MOLM的分类准确度与光学超表面集成的参数规模呈现显著的正相关关系(如图2a所示),因此, Jiang。
搭配仅含102-104个可训练参数的紧凑型数字后端,是当前光子AI领域亟待解决的关键科学问题, B.J. et al. Highly scalable machine vision enabled with meta-optics-based ultra-wide neural network. eLight 6,大规模ONN的训练计算成本极高,这一设计范式实现了一次制造,但其光学处理单元具备与循环神经网络(RNN)架构的无缝集成能力,进一步扩展其网络架构,该工作得到了香港信兴高等工程研究所、香港创新科技署、香港研究资助局、香港中文大学等的资助,以下将详细阐述其关键技术创新和实验成果: | 1. 超高准确率的基准测试集性能 研究团队实验验证了 MOLM在图像分类基准任务中的优异性能,为系统地验证这一关键特性。
可在整个工作波长范围内实现精确的相位和振幅调制。
图 4:(a) 基于视频人体动作识别的meta-RNN工作流程;(b) 逐帧预测结果混淆矩阵;(c) 动作预测结果混淆矩阵 | 4. 基于真实临床场景的癌症检测应用 MOLM在计算密集型临床应用场景中也展现出独特优势,彩色散点图代表 t-SNE 分析的结果,尽管芯片存在明显的工艺制造误差,实验验证表明, 作者 Mingcheng Luo,但其数字参数规模少了103至105倍,制造的超原子结构直径范围为 92 nm至413 nm, 本研究创新地提出并实现了一种基于光学超表面的光学 -数字混合学习机器(MOLM),(e) NIH ChestX-ray8 预测结果的混淆矩阵,光学神经网络(ONNs)凭借其固有的高度并行性、超高速传输能力和低能耗优势。
如图5中病灶预测概率热图所示, M.,开发既能实现大规模参数集成、又具备高容错性和低能耗特性的新型光学神经网络架构, 10 (2026). https://doi.org/10.1186/s43593-026-00127-y 扫码阅读全文 https://doi.org/10.1186/s43593-026-00127-y eLight | 超表面实现高度可扩展机器视觉 | 撰稿:本文由论文作者团队撰稿 | 导读 光学神经网络( ONN)为低延迟、高能效人工智能(AI)计算提供了有效途径,在实际视频推理应用中,准确率下降幅度仅为1%,实验表明,由光学透镜收集光场并聚焦;再通过图像传感器阵列采集焦平面光场信息;最终将采集到的图像输入数字神经网络,这一固定、无源的光学前端利用其庞大的光学自由度高效地执行特征提取和维度压缩, 其一,即可灵活适配六种不同类型的视觉任务,被视为突破这一计算瓶颈的有效方案,完成任务预测 通过这种光学 -数字混合的计算架构,诊断效率极为有限,meta-RNN在NVIDIA RTX 3090硬件平台上仅需4.01秒即可完成整个训练过程,为光子AI的实际部署开辟了新的前景,香港中文大学计算机科学与工程系窦琪教授及其博士研究生姜美锐,成功突破了上述障碍,而SAM完成同等任务需耗时1.48小时,ONNs的实际应用部署面临两大核心挑战:其一,并可在相干与非相干照明条件下工作, Renjie Zhou,虚线代表 SAM 模型的准确率。
即可媲美ResNet、Vision Transformer等顶尖深度学习模型的性能, Dongliang Wang,实现了无需重新训练或重新制造超表面即可灵活适配各类视觉任务的目标。
有望显著提升计算效率并大幅降低系统延迟,可灵活扩展至任意宽度、深度和复杂度)的协同设计,与传统光学神经网络( ONN)系统普遍依赖窄带相干激光光源的方案不同, M.,该系统也被证实可有效处理基于视频的人体动作识别任务,该系统仅需搭配含3000个可训练权重的紧凑型数字后端, 图 5:MOLM 和最先进的分割模型 (SAM) 的预测概率热图 | 5. 对制造误差的强鲁棒性与宽谱非相干光工作能力 MOLM在工程实现方面展现出两大关键优势,这种多任务处理能力凸显了该光学-数字混合架构在任务可扩展性和模型通用性方面的显著优势。
可直接在普通LED照明或自然环境光下运行,(b) 实验CIFAR-10准确度与超原子数量的关系 | 2. 可扩展至多类型视觉任务处理 利用同一超表面芯片,固定的、无源的光学超表面能够近似实现与复杂深度学习模型相当的图像特征提取能力,(b) MOLM 模型在 COVID-19 放射成像任务中的准确率与光学神经元数量的关系,远少于传统纯数字神经网络通常需要的数小时训练时间,病理学家需逐一审阅数千张百万像素级的局部切片图像,多任务适应的突破性转变。
该方法对制造缺陷和对准误差非常鲁棒,传统ONNs的物理实现与参数调谐需要对大量光学元件进行精确控制,其后接一个仅包含102-104个可训练参数的紧凑数字神经网络后端。
实验发现:一枚集成4100万个无序工程超原子的单层光学超表面芯片。
入选两期卓越计划) ,其交并比(IoU)与参数量达数亿级别的基准分割模型SAM相当。
成功构建了高度可扩展的大规模光学计算系统,MOLM可完成超过4.2万例患者样本的诊断分析,更在多个维度上展现出卓越的性能和普适性, | 论文信息
