关键特性

AI 场景创新

智能时代,操作系统需要面向AI不断演进。一方面,在操作系统开发、部署、运维全流程以AI加持,让操作系统更智能;另一方面,openEuler已支持ARM,x86,RISC-V等全部主流通用计算架构,在智能时代,openEuler也率先支持NVIDIA、昇腾等主流AI处理器,成为使能多样性算力的首选。

OS for AI

sysHAX大语言模型异构协同加速运行时

sysHAX大语言模型异构协同加速运行时专注于单机多卡环境下大模型推理任务的性能提升,针对鲲鹏+xPU(GPU、NPU等)的异构算力协同,显著提升大模型的吞吐量和并发量:

  • 异构融合调度:支持在GPU侧任务满载时,动态将推理请求的prefill阶段在GPU上执行,decode阶段放在CPU上执行。

sysHAX大语言模型推理优化方案当前支持DeepSeek、Qwen、baichuan、Llama等transformer架构的模型。主要适用于以下典型场景:

  • 数据中心场景:sysHAX通过上述技术,利用CPU填充推理任务,充分利用CPU资源,增加大模型并发量与吞吐量。

故障分组检测

AI 集群在训练过程中不可避免会发生性能劣化,导致性能劣化的原因很多且复杂。现有方案是在发生性能劣化之后利用日志分析,但是从日志收集到问题定界根因诊断以及现 网闭环问题需要长达 3-4 天之久。基于上述痛点问题,我们设计了一套在线慢节点定界方 案,该方案能够实时在线观测系统关键指标,并基于模型和数据驱动的算法对观测数据进行实时分析给出劣慢节点的位置,便于系统自愈或者运维人员修复问题。

基于分组的指标对比技术提供了 AI 集群训练场景下的慢节点/慢卡检测能力。这项技术通过 sysTrace实现,新增内容包括配置文件、算法库、慢节点空间维度对比算法和慢节点时间维度对比,最终输出慢节点异常时间、异常指标以及对应的慢节点/慢卡 ip, 从而提高系统的稳定性和可靠性。该特性主要功能如下:

  • 配置文件:主要包括待观测指标类型、指标算法配置参数以及数据接口,用于初始化慢节点检测算法。
  • 算法库:包括常用的时序异常检测算法 spot 算法,k-sigma 算法,异常节点聚类算法和相似度度量算法。
  • 数据:采集到的各个节点的指标数据,以时序序列表示。
  • 指标分组对比:包括组内空间异常节点筛选和单节点时间异常筛选。组内空间异常节点筛选根据异常聚类算法输出异常节点;单节点时间异常筛选根据单节点历史数据进行时序异常检测判断节点是否异常。

异构融合GMem

在后摩尔时代,GPU、TPU 和 FPGA 等专用异构加速器设备正不断涌现,它们与 CPU 类似,需要将数据放在本地内存(例如 LPDDR 或 HBM)中以提高计算速度。加速器厂商们也不可避免地需要开发复杂的内存管理系统。 现行加速器内存管理方案存在诸多缺陷:

  • CPU 侧内存管理与加速器侧分离,数据显式搬移,加速器内存管理的易用性和性能难以平衡。
  • 大模型场景下加速器设备 HBM 内存(High BandWidth Memory)严重不足,现有的手动 swap 方案性能损耗大且通用性差。
  • 搜推、大数据场景存在大量无效数据搬移,缺少高效内存池化方案。

Linux 现有的 HMM 框架,编程复杂度高且依赖人工调优,性能和可移植性差,引发 OS 社区反弹,最终导致 HMM 方案搁浅。异构加速器领域亟需高效的统一内存管理机制。异构通用内存管理框架 GMem (Generalized Memory Management),提供了异构内存互联的中心化管理机制,且 GMem API 与 Linux 原生内存管理 API 保持统一,易用性强,性能与可移植性好。加速器使用 GMem API 将内存接入统一地址空间后,可自动获得 GMem 面向异构内存编程优化的能力。与此同时,加速器驱动无需重复实现内存管理框架,大幅降低开发维护带来的成本。开发者使用一套统一申请、释放的 API,即可完成异构内存编程,无需处理内存搬移等细节。在加速器 HBM 内存不足时,GMem 可将 CPU 内存作为加速器缓存,透明地超分HBM,无需应用手动 swap。GMem 提供高效免搬移的内存池化方案,当内存池以共享方式接入后,可解决数据反复搬移的痛点。

AI for OS

当前,openEuler和AI深度结合,一方面,基于 openEuler 操作系统,研发出了 openEuler Intelligence,初步实现基于知识库的智能问答、基于语义接口的工作流编排、基于 mcp 的 Agent 构建等功能,在此基础上,openEuler Intelligence 集成了部分系统服务,让 openEuler 更智能。

智能问答

openEuler Intelligence 目前支持 Web 和智能 Shell 两个入口。

  1. 智能规划、调度和推荐:智能规划:openEuler Intelligence的Agent应用可以基于用户的输入和当前可用的工具实时规划运行步骤,直至完成用户目标或者达到步骤执行上限。智能调度:openEuler Intelligence支持用户在一个工作流应用中定义多个工作流,基于用户的查询,openEuler Intelligence会自动的提取参数且选择最为合适的工作流进行工作。智能推荐:openEuler Intelligence基于用户的查询和工作流的运行结果,推荐用户接下来可能会使用的工作流,增加任务的完成概率,简便应用的使用。
  2. 工作流:语义接口:语义接口是指含有自然语言注释的接口形式,openEuler Intelligence提供了两种语义接口注册方式。工作流编排及调用:openEuler Intelligence允许用户将系统提供的语义接口以及用户注册的语义接口以可视化的形式连线成工作流,并支持用户对工作流进行调试且以应用的形式进行发布和使用,工作流在调试和使用过程中会展示中间结果,降低用户调试成本,提升用户交互体验。
  3. Agent 应用:mcp注册、安装和激活:mcp是当前比较主流的一种AI相关协议,它支持用sdk将复杂多样服务统一封装,带有天然的语义信息,并支持AI对基于mcp改造后服务下的工具进行比较便捷的调用。Agent构建和应用:当前intelligence支持以mcp和不同的大模型结合构建Agent,这些构建完成的Agent可以基于配置的大模型信息以及后续用户输入的目标,将用户的目标拆解成阶段性需求,最后使用mcp服务下的工具将阶段性需求完成,直至达成用户的目标。
  4. RAG:RAG(检索增强技术)是为了增强大模型长期记忆能力和降低大模型训练成本诞生的技术,相较传统RAG,openEuler Intelligence中的RAG技术在检索前处理、知识索引、检索增强算法和检索后处理方面做了改进。
  5. 语料治理:语料治理是openEuler Intelligence中的RAG技术的基础能力之一,其通过上下文位置信息提取、文本摘要和OCR增强等方式将语料以合适形态入库,以增强用户查询命中期望文档的概率。
  6. 自动化测试:自动化测试是openEuler Intelligence中的RAG技术的基础能力之一,其通过自动化数据集生成和测试评估识别知识库和检索增强算法等配置的不足。

智能调优

openEuler Intelligence 智能调优功能目前支持智能shell入口。 在上述功能入口,用户可通过与openEuler Intelligence进行自然语言交互,完成性能数据采集、系统性能分析、系统性能优化等作业,实现启发式调优。

智能诊断

  1. 巡检:调用Inspection Agent,对指定IP进行异常事件检测,为用户提供包含异常容器ID以及异常指标(cpu、memory等)的异常事件列表。
  2. 定界:调用Demarcation Agent,对巡检结果中指定异常事件进行定界分析,输出导致该异常事件的根因指标TOP3。
  3. 定位:调用Detection Agent,对定界结果中指定根因指标进行Profiling定位分析,为用户提供该根因指标异常的热点堆栈、热点系统时间、热点性能指标等信息。

AI集群慢节点定界

AI 集群在训练过程中不可避免会发生性能劣化,导致性能劣化的原因很多且复杂。现有方案是在发生性能劣化之后利用日志分析,但是从日志收集到问题定界根因诊断以及现网闭环问题需要长达 3-4 天之久。基于上述痛点问题,我们设计了一套在线慢节点定界方案,该方案能够实时在线观测系统关键指标,并基于模型和数据驱动的算法对观测数据进行实时分析给出劣慢节点的位置,便于系统自愈或者运维人员修复问题。

该特性主要功能如下:

  • 配置文件:主要包括待观测指标类型、指标算法配置参数以及数据接口,用于初始化慢节点检测算法。
  • 算法库:包括常用的时序异常检测算法 spot 算法,k-sigma 算法,异常节点聚类算法和相似度度量算法。
  • 数据:采集到的各个节点的指标数据,以时序序列表示。
  • 指标分组对比:包括组内空间异常节点筛选和单节点时间异常筛选。组内空间异常节点筛选根据异常聚类算法输出异常节点;单节点时间异常筛选根据单节点历史数据进行时序异常检测判断节点是否异常。

智能容器镜像

openEuler Intelligence目前支持通过自然语言调用环境资源,在本地协助用户基于实际物理资源拉取容器镜像,并且建立适合算力设备调试的开发环境。当前版本支持三类容器,并且镜像源已同步在dockerhub发布,用户可手动拉取运行:

  1. SDK层:仅封装使能AI硬件资源的组件库,例如:cuda、cann等。
  2. SDK + 训练/推理框架:在SDK层的基础上加装tensorflow、pytorch等框架,例如:tensorflow2.15.0-cuda12.2.0、pytorch2.1.0.a1-cann7.0.RC1等。
  3. SDK + 训练/推理框架 + 大模型:在第2类容器上选配几个模型进行封装,例如llama2-7b、chatglm2-13b等语言模型。

嵌入式场景创新

openEuler发布面向嵌入式领域的版本openEuler 25.09,构建了一个相对完整的综合嵌入系统软件平台,在南北向生态、关键技术特性、基础设施、落地场景等方面都有显著的进步。openEuler Embedded围绕以制造、机器人为代表的OT领域持续深耕,通过行业项目垂直打通,不断完善和丰富嵌入式系统软件栈和生态。在软件包生态方面,回合了oebridge特性,支持在线一键安装openEuler镜像仓软件包,并支持在Yocto镜像构建时通过oebridge直接安装openEuler RPM包快速实现镜像定制。此外,还扩展支持了oeDeploy特性,能够快速完成AI软件栈、云原生软件栈的部署。在内核支持方面,持续完善了meta-openEuler的内核配置,配合oeAware实时调优功能实现干扰控制以增强系统实时性。

  • 南向生态:openEuler Embedded Linux当前主要支持ARM64、x86-64、ARM32、RISC-V等多种芯片架构,未来计划支持龙芯等架构,从24.03 版本开始,南向支持大幅改善,已经支持树莓派、海思、瑞芯微、瑞萨、德州仪器、飞腾、赛昉、全志等厂商的芯片。
  • 嵌入式弹性虚拟化底座:openEuler Embedded的弹性虚拟化底座是为了在多核片上系统(SoC, System On Chip)上实现多个操作系统共同运行的一系列技术的集合,包含了裸金属、嵌入式虚拟化、轻量级容器、LibOS、可信执行环境(TEE)、异构部署等多种实现形态。
  • 混合关键性部署框架:openEuler Embedded打造了构建在融合弹性底座之上混合关键性部署框架,并命名为MICA(MIxed CriticAlity),旨在通过一套统一的框架屏蔽下层弹性底座形态的不同,从而实现Linux和其他OS运行时便捷地混合部署。依托硬件上的多核能力使得通用的Linux和专用的实时操作系统有效互补,从而达到全系统兼具两者的特点,并能够灵活开发、灵活部署。
  • 北向生态:700+嵌入式领域常用软件包的构建;提供软实时能力,软实时中断响应时延微秒级;集成 OpenHarmony 的分布式软总线和 hichain 点对点认证模块,实现 openEuler 嵌入式设备之间互联互通、openEuler 嵌入式设备和 OpenHarmony 设备之间互联互通;支持iSula容器,可以实现在嵌入式上部署openEuler或其他操作系统容器,简化应用移植和部署。支持生成嵌入式容器镜像,最小大小可到5MB,可以部署在其他支持容器的操作系统之上。
  • UniProton硬实时系统:UniProton 是一款实时操作系统,具备极致的低时延和灵活的混合关键性部署特性,可以适用于工业控制场景,既支持微控制器 MCU,也支持算力强的多核 CPU。目前关键能力如下:
    1. 支持Cortex-M、ARM64、X86_64、riscv64架构,支持M4、RK3568、RK3588、X86_64、Hi3093、树莓派4B、鲲鹏920、昇腾310、全志D1s。
    2. 支持树莓派4B、Hi3093、RK3588、X86_64设备上通过裸金属模式和openEuler Embedded Linux混合部署。
    3. 支持通过gdb在openEuler Embedded Linux侧远程调试。

内核创新

openEuler 25.09基于 Linux Kernel 6.6内核构建,在此基础上,同时吸收了社区高版本的有益特性及社区创新特性。

  • fuse passthrough特性支持:fuse passthrough特性支持:当前fuse在分布式存储、AI中广泛使用。在直通场景中fuse用户态文件系统没有对读写IO进行额外处理,仅仅是记录元数据,向后端文件系统发起IO。此时fuse的处理流程成为了整个系统的IO瓶颈。 fuse passthrough特性旨在fuse直接对接后端文件系统(透传)的场景下,消除数据面fuse上下文切换、唤醒、数据拷贝开销,允许应用程序直接将读写IO在内核中发给后端文件系统,进而大幅提升读写性能。在实验室环境中,fuse passthrough特性展现出了令人满意的性能提升。具体来说,在fio测试中,4K-1MB粒度的读写测试均有100%+的性能提升。同时通过了故障注入测试和稳定性测试。业务可以按需使用。

  • MPAM 增强特性支持:新增QoS增强特性,拓展内存带宽和L3缓存控制方式,可按照使用量上限/保底/优先级方式配置,为混部场景动态调控共享资源提供端到端能力。新增IO QoS管控特性,联动SMMU对外围硬件设备或异构加速器的IO带宽流量进行隔离配置,支持iommu_group粒度级别监控,为异构场景下IO QoS管控方案提供控制侧新方案。此外,新增L2缓存隔离配置,提供L2C占用量和带宽流量监控能力,为混部场景下系统性能提供物理核级别的优化和分析手段。以上MPAM特性在业务实测场景展现出明显的性能提升,其中在混部场景下,Specjbb作为在线业务的混部干扰率从25.5%降低至5%以下。

众核高密

服务器芯片由多核进入众核时代(>256C),对操作系统提出新的挑战。提升Rack计算密度、降低数据中心TCO,众核服务器已成为互联网行业主流选择,随着云技术和业务规模发展,容器化部署成为互联网行业的主流业务部署形态,在这种场景下,系统串行开销和同步开销限制可扩展性,干扰问题凸显,资源利用率低,影响容器部署扩展性的串行访问开销和同步开销主要来自软硬共享资源争用。

本期主要采用轻量虚拟化按NUMA分域拆分资源、域内实现资源容器级隔离增强,降低因软硬件资源争用导致的性能干扰,提升容器部署扩展性。关键技术特性如下:

  • 虚拟机内存QoS控制:当多个租户的虚拟机(VM)部署于同一物理主机时,若内存密集型虚拟机占用大量内存带宽,可能引发资源争用,导致其他虚拟机无法获得足够的内存带宽以满足其业务性能需求,进而影响整体系统服务质量。基于鲲鹏处理器提供的内存带宽监控与调控能力(MPAM, Memory Power and Access Monitoring),结合操作系统层面的 resctrl(Resource Control)机制,系统可实现对最多30个虚拟机的内存带宽使用情况进行精细化监测与动态控制。该能力支持对虚拟机内存带宽的上限、下限及优先级策略进行配置,从而构建多租户环境下的内存带宽资源隔离与保障体系。具体而言:内存带宽上限控制:通过为各虚拟机配置最大内存带宽使用阈值,有效防止单个虚拟机过度占用内存带宽资源,避免对其他租户虚拟机造成性能干扰;内存带宽下限保障:支持设定最低带宽保障值,确保在虚拟机实际负载较低时,系统可自动提升其带宽使用优先级,实现资源的动态优化与高效利用;优先级调度策略:支持基于业务重要性配置虚拟机的内存带宽优先级,优先保障关键业务虚拟机的带宽稳定供给,提升高优先级工作负载的可用性与服务质量。
  • 虚拟设备NUMA亲和:PCI设备也具有Numa亲和性,在主机侧直接访问,OS调度系统会根据设备亲和性进行调度优化,以防止跨Numa访问PCI设备而造成性能损耗。对于虚拟机设备直通来说,当前还不具备在虚机内部呈现PCI设备亲和的Numa节点。本功能基于PCI扩展桥(PXB)扩展虚拟机PCI设备拓扑结构,支持在虚拟机内呈现虚拟设备所在NUMA,便于系统OS优化调度或者用户根据虚拟设备所在NUMA部署业务应用,减少跨NUMA资源访问导致到性能损耗,提高虚拟机内业务应用性能;
  • CPU分域调度:CPU基于硬件拓扑划分子域部署容器,一个容器一个独立子调度域,实现容器之间干扰隔离,降低跨cluster cache同步次数和cache/NUMA内存等硬件资源争抢,减轻容器之间的相互干扰。对于redis多并发场景性能提升10%+;
  • 文件系统块分配干扰隔离:优化ext4 块分配释放流程中的 group lock 和 s_md_lock 两个主要争抢的锁,以提高EXT4 块分配流程的可扩展性。通过允许在当前目标块组被占用时尝试使用其他空闲块组进行分配,从而减少了多个容器争抢同一个块组造成的 CPU 浪费,并充分利用了 ext4 多块组的优势,缓解了 group lock 的竞争。其次通过将流式配的全局目标拆分为多个,从而减少了全局锁 s_md_lock 的竞争文件数据也更加聚集。在64容器并发场景下,块分配和块释放混合场景 OPS 提升 5 倍以上,单块分配场景提升 10 倍以上;
  • 高效slab回收:将slab内存回收的读写锁,优化为RCU无锁化slab回收,不同slab之间的内存回收互不干扰,回收效率显著增加,多容器并发场景下,系统调用性能显著增强;
  • 网络tcp hash干扰隔离:tcp_hashinfo bash、ehash存在锁竞争,ehash计算频繁,导致高并发下带宽下降,时延变大。将tcp_hashinfo bash、ehash的自旋锁改为rcu,ehash计算方式改为lport递增减少查询时间和计算次数,减少tcp connect hash的锁竞争;
  • Cgroup隔离增强:user namespace 通过percpu counter替换原来的原子操作,避免不同namespace相同父节点竞争访问,消除容器间rlimit计数干扰。解决will-it-scale/ signal1用例线性度问题,64个容器并发吞吐性能提升2倍。通过对memcg 实现批量释放处理,避免大量的小内存释放对于相同父节点计数竞争,提升内存计数的可扩展性,tlb-flush2测试用例64容器吞吐提升1.5倍;基于eBPF可编程内核能力,提供主机容器信息隔离与过滤机制,高效实现容器资源视图。相较业界 LXCFS 方案,本方案避免了内核态-用户态切换开销,消除了LXCFS进程的性能与可靠性瓶颈,单容器内资源视图吞吐量在单容器场景下性能提升1倍,在64容器场景下提升10倍;
  • 干扰监测:干扰监测回答的是容器有没有被干扰、是什么干扰、干扰程度如何这三个问题,从结果上看干扰可以分为干扰导致指令得不到执行、干扰导致指令执行变慢和干扰导致指令执行变多三类,干扰监测从内核角度,针对每一类的典型干扰在运行时进行统计,当前支持在线统计schedule latency、throttling、softirq、hardirq、spinlock、mutex和smt干扰,性能开销在5%以内;
  • 鲲鹏内存/Cache QoS管控机制MPAM:内存带宽流量和各级缓存占用量,可按照使用量上限/保底/优先级方式进行配置,根据不同业务,以线程为粒度部署不同隔离策略。支持业务资源实时监控,在客户业务层面和线程级别,实时对共享资源的使用情况进行跟踪监控,将资源使用情况反馈给控制策略,形成闭环控制效果。此外,MPAM联动SMMU扩展外设IO QoS方案,支持对外围设备和异构加速器IO带宽流量进行隔离配置,按设备粒度级别进行资源监控。
  • QoS策略动态配置:提供集群级别的mpam Qos管理插件,基于mpam提供的Qos接口,在插件中根据用户定义,实现为所有节点自动分解各级别优先级,并根据用户的声明自动设置在离线任务mpam Qos优先级,从而实现在混部场景下对资源的充分利用:在线业务繁忙时自动抢占离线任务的llc及内存带宽,在线业务空闲时自动释放llc及内存带宽资源提升离线业务处理性能。

LLVM for openEuler编译器

LLVM for openEuler编译器在openEuler 25.09版本引入以下编译特性,优化数据库、大数据相关应用的运行效率,释放软件的极致性能。

  • ICP增强优化:ICP优化通过反馈信息将间接函数调用优化为直接函数调用,增加潜在的内联优化机会,并降低函数调用开销。
  • 智能哈希预取优化:识别应用中多层间接嵌套访存场景,自动计算实际访存地址并插入数据预取指令,降低数据缓存未命中的概率。
  • 自适应内存拷贝优化技术:通过识别内存拷贝时源指针和目标指针特征,增加运行时检查对内存拷贝方式进行特化优化(如生成memset、memmove等)。
  • 动态库快速访问技术:传统动态库函数调用需通过PLT(过程链接表)跳转,导致额外的内存访问和跳转指令,优化为直接使用GOT(全局偏移表)中的函数地址调用,消除PLT跳转开销。

oeDeploy特性增强

oeDeploy是一款轻量级的软件部署工具,旨在帮助开发者快速、高效地完成各类软件环境部署,对单节点与分布式场景均可适配。

  • 多场景支持 & 主流软件一键部署:支持单节点应用与集群软件环境的一键部署,新版本oeDeploy增加了对多master节点的Kubernetes环境的快速部署,新增支持了openEuler Intelligence、Devkit-pipeline等社区工具链,以及RAGFlow、anythingllm、Dify等主流RAG软件。
  • 灵活的插件化管理 & 优秀的部署体验:oeDeploy提供可扩展的插件架构,灵活管理多种部署能力,开发者也可以快速发布自定义部署插件。新版本oeDeploy支持了插件源的管理,支持一键更新插件版本、一键完成插件初始化。oeDeploy支持极简的命令行操作方式,也即将上线可视化工具与插件商店,用更少的代码,实现更高效的软件部署体验。
  • 高效部署 & 智能开发:新版本oeDeploy发布了MCP服务,在DevStation中实现开箱即用,借助大模型的推理能力,支持用自然语言完成各类软件的一键部署,部署效率提升2倍;支持将用户文档快速转换成可以直接运行的oeDeploy插件,开发效率提升5倍。

Go for openEuler编译器

  • 功能描述1:CFGO反馈优化:在保证程序功能不变的前提下,通过收集程序运行时信息,指导编译优化进行更准确的优化决策,获得性能更优的目标程序。基于程序局部性原理,使热指令紧密排布,优化cache/TLB命中,有效降低程序前端瓶颈,提升程序性能。
  • 功能描述2:ARM原子指令优化:在部分业务场景中,Golang运行时调用CAS锁、LD/ST指令开销较大,改为ARM亲合指令序列实现,可实现性能提升。
  • 功能描述3:运行时GC优化:结合特征,插入软件预取;抽取GC协程开销资源参数为运行时参数,支持根据不同业务特征进行动态调整。
  • 功能描述4:结合鲲鹏KAE使能底层硬件加速:改造Golang自身Compress库Gzip的压缩/解压缩逻辑实现使能底层硬件加速。

毕昇JDK支持堆内存扩容

互联网容器化部署应用的模式下,大部分客户容器场景下容器资源支持垂直伸缩,当前OpenJDK的最大堆只能在启动时支持修改,无法支持在线动态扩缩,java应用无法在线使用到容器扩容出的内存,需要java应用启动时重新设置最大堆;鉴于此问题,毕昇JDK在G1GC实现堆内存上限在线伸缩能力,允许用户在应用运行时动态更新Java堆内存的上限,而无需重启JVM。

互联网等容器场景业务,在容器在线扩容后需要java业务的堆内存大小也支持在线扩容的场景。

编译器UDF自动native框架

针对开源大数据JVM执行效率低的缺点,UDF自动native框架负责将Java UDF自动转换为C/C++ Native UDF,并进一步从内存高效管理、硬件亲和等维度提升大数据处理性能。UDF自动native框架致力于实现用户无感知、全自动的Java UDF native加速机制。UDF自动native框架主要由UDF parser、UDF IR Optimizer、UDF code Generator、UDF code compiler等模块组成。

UDF parser将业务jar包字节码自动转换为IR代码,并基于UDF特征提取出UDF代码;UDF IR Optimizer从内存对象自动管理、硬件亲和加速等维度对UDF IR进行优化;UDF Code Generator将UDF IR对等转换为native代码;UDF code compiler将UDF native代码在线编译为native二进制。最后,UDF的native二进制发布到大数据执行节点上,由大数据系统native执行引擎动态加载执行,提升大数据系统处理性能。

毕昇JDK17支持退优化可观测

JDK17 的 JFR Streaming API 功能,是 JFR 从“事后静态分析”迈向“实时监控”的关键特性。在传统的 JFR 使用模式中,流程是:记录 -> 停止记录 -> 转储为 .jfr 文件 -> 用 JMC 离线分析。这种模式是“事后分析”,对于排查已经发生的问题非常有效。Streaming API 引入了一种全新的模式:它允许 Java 应用程序在不中断 JFR 记录、不生成完整 .jfr 文件的情况下,实时、持续地从 JVM 内部订阅和消费 JFR 事件流。在使用 Streaming API的时候,通过本功能可以在 ****** 处获取当前时间之前的一段jfr event,例如退优化事件。

Java
// 1. 创建一个 RecordingStream
RecordingStream rs = new RecordingStream();
// 2. 启用我们感兴趣的事件并配置设置
rs.enable("jdk.GCPhasePause").withPeriod(Duration.ofSeconds(1));
rs.enable("jdk.Deoptimization").withPeriod(Duration.ofSeconds(1));
// 3. 订阅特定事件并设置事件处理器(回调函数)
rs.onEvent("jdk.GCPhasePause", event -> {
// 从事件中读取字段
Duration duration = event.getDuration("duration");
String name = event.getString("name"); // 例如 "GC Pause"
    *****************
    shell:   jcmd JFR.start delay=-1 filename=xxx.jfr
    *****************
});
// 4. 启动流(这是一个非阻塞调用)
rs.startAsync();

GCC for openEuler CFGO反馈优化特性增强

日益膨胀的代码体积导致当前处理器前端瓶颈成为普遍问题,影响程序运行性能。编译器反馈优化技术可以有效解决此类问题。CFGO(Continuous Feature Guided Optimization)是GCC for openEuler的反馈优化技术名,指多模态(源代码、二进制)、全生命周期(编译、链接、链接后、运行时、OS、库)的持续反馈优化,主要包括以下两类优化技术:

  • 代码布局优化:通过基本块重排、函数重排、冷热分区等技术,优化目标程序的二进制布局,提升i-cache和i-TLB命中率。
  • 高级编译器优化:内联、循环展开、向量化、间接调用等提升编译优化技术受益于反馈信息,能够使编译器执行更精确的优化决策。

GCC CFGO反馈优化共包含三个子特性:CFGO-PGO、CFGO-CSPGO、CFGO-BOLT,通过依次使能这些特性可以缓解处理前端瓶颈,提升程序运行时性能。为了进一步提升优化效果,建议CFGO系列优化与链接时优化搭配使用,即在CFGO-PGO、CFGO-CSPGO优化过程中增加-flto=auto编译选项。

  • CFGO-PGO:CFGO-PGO在传统PGO优化的基础上,利用AI4C对部分优化遍进行增强,主要包括inline、常量传播、去虚化等优化,从而进一步提升性能。
  • CFGO-CSPGO:PGO的profile对上下文不敏感,可能导致次优的优化效果。通过在PGO后增加一次CFGO-CSPGO插桩优化流程,收集inline后的程序运行信息,从而为代码布局和寄存器优化等编译器优化遍提供更准确的执行信息,实现性能进一步提升。
  • CFGO-BOLT:CFGO-BOLT在基线版本的基础上,新增aarch64架构软件插桩、inline优化支持等优化,进一步提升性能。

DevStation特性增强

DevStation 是基于openEuler的智能开发者工作站,专为极客与创新者而生。旨在提供开箱即用、高效安全的开发环境,打通从部署、编码、编译、构建到发布的全流程。它融合了一键式运行环境与全栈开发工具链,支持从系统启动到代码落地的无缝衔接。无需复杂安装,即可体验开箱即用的开发环境,通过新增MCP AI智能引擎,快速完成社区工具链调用,实现从基础设施搭建到应用开发的效率飞跃。

开发者友好的集成环境:发行版预装了广泛的开发工具和 IDE,如 VS Codium系列等。支持多种编程语言,满足从前端、后端到全栈开发的需求。社区原生工具生态:新增 oeDeploy(一键式部署工具)、epkg(扩展软件包管理器)、devkit和 openEuler Intelligence,实现从环境配置到代码落地的全链路支持。oeDevPluginss插件+oeGitExt命令行工具支持:专为 openEuler 社区开发者设计的 VSCodium 插件,提供 Issue/PR 可视化管理面板,支持快速拉取社区代码仓、提交 PR,并实时同步社区任务状态。 openEuler Intelligence智能助手:支持自然语言生成代码片段、一键生成 API 文档及 Linux 命令解释。

  • 图形化编程环境:集成了图形化编程工具,降低了新手的编程门槛,同时也为高级开发者提供了可视化编程的强大功能,预装 Thunderbird 等办公效率工具。
  • MCP智能应用生态构建:DevStation 深度集成 Model Context Protocol (MCP) 框架,构建完整的智能工具链生态,预装MCP智能工具链,支持oeGitExt、rpm-builder 等核心MCP Server,提供社区事务管理、RPM打包等能力,将传统开发工具(如Git、RPM构建器)通过MCP协议进行智能化封装,提供自然语言交互接口。
  • 系统部署与兼容性增强:广泛的硬件支持,特别优化对主流笔记本/PC 硬件的兼容性(触摸板、Wi-Fi 、蓝牙),重构内核构建脚本(kernel-extra-modules),确保裸机部署体验。灵活部署形态,支持 LiveCD(一键运行无需安装)、裸机安装、虚拟机部署。
  • 全新安装工具heolleo:heolleo 是一款专为 DevStation 设计的现代化客户端工具。其核心使命是简化DevStation的安装流程。采用模块化设计使其可以轻松扩展以支持不同的硬件架构(如 x86/ARM)、文件系统或引导加载器(GRUB等)。支持从本地ISO镜像、网络地址(HTTP/FTP)等快速获取系统文件,提供灵活的安装方式:
    1. 本地ISO安装:对于追求极致稳定、速度或需要在无网络、受限环境中部署系统的用户,heolleo 提供本地ISO安装模式。充分利用已有的系统镜像文件,提供一个高速、可靠且完全离线的安装体验,当前已实现自动化分区安装。
    2. 网络安装:heolleo 的网络安装模式适应现代系统部署的趋势。可直接从互联网上的服务器获取最新系统文件,省去了手动下载镜像的步骤,能以最便捷的方式触及最新的 DevStation 版本。

DevStore开发者软件商店

DevStore是openEuler桌面版本的应用商店,是面向开发者的软件分发平台,支持MCP服务、oeDeploy插件的检索与快捷部署功能。在DevStation平台上实现开箱即用。

  • MCP服务一键安装:DevStore借助openEuler社区丰富的软件生态,以rpm软件包的形式处理MCP运行所需的软件依赖,并通过内置的服务管理工具,在智能体应用中快速部署MCP服务。自动帮助用户解决软件依赖与MCP配置问题,大幅提升用户体验。目前已支持80+MCP服务。
  • oeDeploy插件快速部署:DevStore借助oeDeploy工具实现主流软件的快速部署,大幅度降低开发者部署软件的时间成本。包括Kubernetes、Kuberay、Pytorch、TenserFlow、DeepSeek等AI软件,EulerMaker、openEuler Intelligence等社区工具链,以及RagFlow、Dify、AnythingLLM等主流的RAG工具。

CCA机密计算

ARM CCA 通过以下核心组件协同工作,构建一种隔离的、受保护的执行空间,在代码执行和数据访问方面与正常世界完全隔离,成为Realm机密域。

  • Realm机密域:Realm是 CCA 的核心抽象,它是一种与正常世界(Non-secure)和安全世界(Secure,原来的Trustzone)并行的新类型执行环境。Realm是硬件隔离的,专为托管敏感代码和数据而设计。它独立于主机操作系统和 Hypervisor,它们可以管理Realm但无法访问其内部内容。
  • 动态管理:Hypervisor 可以应客户要求动态创建Realm,并为其分配内存和 CPU 资源。但在Realm初始化后,Hypervisor 会将其控制权移交给一个受保护的安全虚拟化模块RMM(Realm Management Monitor),此后 Hypervisor 便无法访问Realm内的秘密。
  • 内存管理:CCA 扩展了系统内存管理单元(MMU),使其能够识别和隔离Realm内存。任何从Realm外部(包括 Hypervisor)发起的访问尝试都会被硬件阻断,从而确保数据的机密性。
  • 远程证明:每个支持 CCA 的处理器都有一个基于硬件的唯一身份标识。当Realm启动时,它可以生成一份由硬件密码学签名的证明报告(Attestation Token)。用户可以获得这份报告,并验证其签名及组件度量值,从而确信他们的工作负载正在一个真实的、未被篡改的 ARM CCA 环境中运行。

secGear特性增强

新版virtCCA机密虚机提供Platform Token,Attestation Agent在向虚机请求数据时,获得的virtCCA Token较旧版新增了Platform Token的部分。Attestation Service在远程证明部分也有所变化:

  1. 根证书、二级证书的证书算法由RSA算法更换为ECCP521。
  2. 远程证明流程新增Platform Token的验签与Cvm Token的公钥验证,完善证明链。
  3. 支持使用策略对virtCCA的Platform的Software组件版本、HASH进行校验。
  4. 证明报告(根据策略)输出Platform Software组件校验结果。
  5. 证明报告输出当前virtCCA是否支持Platform Token。

当前secGear远程证明统一框架仍保留了对旧版virtCCA远程证明的支持。主要根据Attestation Agent向Attestation Service发送的数据是否包含Platform Token。如果不包含,则按照旧版virtCCA远程证明(证书)流程进行,对应证明策略无法校验相关组件,报告输出vcca.is_platform为False,表示当前平台不支持Platform Token。

virtCCA机密计算特性增强

当前virtCCA架构在启动方式上存在特定约束:其仅支持kernel与rootfs分离的启动模式(即内核镜像与根文件系统分别挂载)。然而,在主流云平台环境中,虚拟机的启动流程普遍依赖GRUB引导机制,这要求将UEFI固件(如EDK2)、内核(Kernel)及初始内存文件系统(initramfs)整合至单一磁盘镜像(如QCOW2格式)中。功能要点包括:

  1. 单镜像封装 (1) 将 EDK2 固件、GRUB 引导程序、内核(Kernel) 及 initramfs 整合至单一 QCOW2 磁盘镜像,形成完整启动栈。 (2) GRUB 通过配置文件(grub.cfg)定位内核路径,要求内核与 initramfs 必须位于同一文件系统(如 EXT4/XFS)。
  2. 安全信任链传递 (1) Secure Boot 机制:EDK2 验证 GRUB 及内核的数字签名,确保启动组件未被篡改。 (2) 硬件资源协同:依赖 UEFI 运行时服务枚举硬件设备,为虚拟机管理程序(如 KVM)提供虚拟化资源池。
  3. 云原生优化 (1) 支持快照克隆、根文件系统动态扩容(依赖 initramfs 中的 cloud-init 工具)特性。

oeAware采集、调优插件等功能增强

oeAware 的每个插件都是按oeAware 标准接口开发的动态库,包含若干个实例,每个实例可以是一个独立的采集、感知或调优功能集,每个实例包含若干个topic,其中 topic 主要用于提供采集或者感知的数据结果,这些数据结果可供其他插件或者外部应用进行调优或分析。

  • SDK提供的接口可以实现订阅插件的topic,回调函数接收oeAware的数据,外部应用可以通过SDK开发定制化功能,例如完成集群各节点信息采集,分析本节点业务特征。
  • PMU信息采集插件:采集系统PMU性能记录。
  • Docker 信息采集插件:采集当前环境Docker的一些参数信息。
  • 系统信息采集插件:采集当前环境的内核参数、线程信息和一些资源信息(CPU、内存、IO、网络)等。采集本地进程间TCP网络亲和关系。
  • 线程感知插件:感知关键线程信息。
  • 评估插件:分析业务运行时系统的NUMA和网络信息,给用户推荐使用的调优方式。
  • 系统调优插件:(1)stealtask:优化CPU调优。(2)smc_tune(SMC-D):基于内核共享内存通信特性,提高网络吞吐,降低时延。(3)xcall_tune:跳过非关键流程的代码路径,优化 SYSCALL的处理底噪。(4)realtime_tune:提供深度隔离、自动完成实时性能优化配置。(5)net_hard_irq_tune:动态修改网络中断亲和性,提高网络业务性能。(6)并行感知调度:增强系统的NUMA调度性能。
  • Docker调优插件:(1) cpu_burst:利用cpuburst特性在突发负载下环境CPU性能瓶颈。(2)容器潮汐调度:根据业务负载特征调整容器业务的CPU亲和,提高业务的QoS。

约束限制:

  • SMC-D:需要在服务端客户端建链前,完成使能smc加速。比较适用于长链接多的场景。
  • Docker 调优:暂不适用于 K8s 容器场景。
  • xcall_tune: 内核配置选项 FAST_SYSCALL 打开。
  • realtime_tune:需要配合Preempt-RT内核使用。
  • net_hard_irq_tune:TCP 网络通信业务。

虚拟化支持vKAE直通设备热迁移

KAE是基于鲲鹏920新型号处理器提供的硬件加速解决方案,包括HPRE、SEC、ZIP设备,可用于加解密和压缩解压缩,能够显著降低处理器消耗,提高处理器效率。KAE直通热迁移是指虚拟机在配置KAE直通设备时,进行热迁移的能力,可以为KAE设备的使用提供更强的灵活性和业务不中断的保障。

smmu脏页跟踪是实现直通设备高效、可靠的热迁移的关键技术。在ARM架构中,通过纯软件方式进行脏页跟踪,会带来了较大的性能损耗。HTTU(Hardware Translation Table Udate)允许硬件自动更新smmu页表状态,在进行写操作时会自动置对应页表项的写权限位,热迁移时扫描页表的写权限位进行脏页统计。

Global Trust Authority远程证明增强

GTA远程证明服务组件支持TPM/vTPM、VirtCCA及其IMA的远程证明,分为客户端和服务端。

  • 服务端提供了远程证明服务框架兼容可信计算及机密计算,支持证书、策略等的增删改查,Quote验证,随机数,JWT Token生成等能力。
  • 客户端支持采集本地TPM证据,并可与服务端交互,验证Quote。

本组件在安全性及易用性上也提供了多种能力。安全性上支持数据库完整性保护、数据链路加密,验证防重放,SQL防注入,用户隔离,密钥轮换机制等一系列差异化安全竞争力。易用性上支持护照模式及背调模式。 客户端支持定时上报,响应挑战等多种验证模式。客户端及服务端支持rpm包及docker安装部署。

Kuasar机密容器

Kuasar 统一容器运行时在支持安全容器的基础上添加了对机密容器的支持。用户可以通过配置 iSulad 的运行时参数,完成对 Kuasar 机密容器的纳管。 当前Kuasar机密容器使用iSulad+Kuasar方案,提高了启动速度,极大降低了内存底噪。一方面 Sandbox API 的实现,使得创建容器不再单独创建 pause 容器,节省了准备pause容器镜像快照的时间;另一方面得益于1:N 的管理模型,Sandboxer 进程常驻,从而节省了冷启动 Shim 进程的时间,这使得容器的启动速度大大提升,带来与Pod数成正比的内存收益。最后,Kuasar使用rust实现,相比golang,内存更安全,语言本身也带来了一些内存收益。

支持功能特性:

  • 支持 iSulad 容器引擎对接 Kuasar 机密容器运行时,兼容 Kubernetes 云原生生态。
  • 支持基于 virtCCA 的机密硬件,允许用户在鲲鹏 virtCCA 可信执行环境中部署机密容器。
  • 支持secGear 远程证明统一框架,遵循RFC9334 RATS标准架构,允许在机密计算环境中运行的容器向外部的受信任服务证明其可信性。
  • 支持在机密容器内部拉取并解密容器镜像,保护容器镜像的机密性和完整性。

.NET Framework应用原生开发能力

Mono 是一套跨平台的兼容于微软 .NET Framework 的完整开发工具和运行时环境,让开发者能够使用 C# 语言和.NET Framework 框架的类库;.NET 是一套跨平台开源开发人员平台,用于构建多种应用程序,它提供了一个统一的生态系统,包含了编程语言、运行时环境、庞大的代码库和丰富的开发工具。openEuler提供了.NET Framework、Mono以及.NET应用原生开发的能力。

  • openEuler支持monoDevelop及依赖组件:monoDevelop是一款面向.NET开发者的强大的、开源的集成开发环境,通过配置Mono运行时,支持.NET Framework 应用在openEuler上开发调试、代码管理、编译构建、集成测试等。
  • monoDevelop支持一键快速部署:借助oeDeploy快速部署平台,开发者可在该平台上一键部署和卸载monoDevelop。
  • openEuler支持.NET SDK及其依赖组件:适配并引入.NET SDK及其依赖组件到openEuler,目前最高支持到.NET 9,可在openEuler上基于.NET SDK开发.NET应用。
  • .NET SDK支持一键快速部署:借助oeDeploy快速部署平台,开发者可在该平台上一键部署和卸载.NET SDK。

支持树莓派

作为开源硬件领域的一个较为高阶的硬件产品,树莓派 4B 和树莓派 5 支持 Raspberry Pi OS、Ubuntu、openEuler 等多种 Linux 发行版,外设丰富,具有较强的视频编解码能力,以及板载网络等功能,完全可以作为独立计算机系统使用。

树莓派 4B 和树莓派 5 凭借其强大的性能和丰富的扩展能力,广泛应用于多个领域:

  1. 教育与学习:学习 Python 等编程语言、借助外设接口进行电子实验;
  2. 多媒体与娱乐:作为媒体中心或游戏机;
  3. 物联网和智能家居:作为传感器节点或智能家居中枢,用于环境监测、家庭自动化控制和边缘计算;
  4. 服务器与网络应用:用于家庭服务器、轻量级 Web 服务及容器化应用;
  5. 创客与 DIY 项目:用于机器人控制、3D 打印管理和无人机飞控;
  6. 科研与开发:用于 AI 实验、嵌入式开发原型验证;
  7. 工业与自动化:实现设备监控、人机界面和机器视觉。