OpenVINO™ 工具套件 2023.3 现已推出

OpenVINO™ 工具包是一个全面的工具包，用于快速开发解决各种任务的应用程序和解决方案，包括模拟人类视觉、自动语音识别、自然语言处理、推荐系统等。

该工具包基于最新一代人工神经网络，包括卷积神经网络 (CNN)、循环网络和基于注意力的网络，可跨英特尔® 硬件扩展计算机视觉和非视觉工作负载，从而最大限度地提高性能。

它通过从边缘到云部署的高性能、人工智能和深度学习推理来加速应用程序。

覆盖更多生成式AI，集成更多框架，最大限度减少代码更改:

Torch.compile 现在与 OpenVINO 完全集成， Torch.compile 现在包含一个硬件“options”参数，允许通过利用OpenVINO插件架构无缝推断硬件选择
在 GitHub 上推出 OpenVINO Gen AI 仓库，演示 LLM 的原生 C 和 C 流水线示例。我们已经开始支持字符串张量作为输入和Tokenizer ，以减少开销并简化生产。
此版本中支持并增强了全新和值得注意的模型; Qwen, chatGLM3, Baichuan2, Mistral, Zephyr, LCM, and Distil-Whisper.

支持更广泛的LLM模型，提供更多模型压缩技术:

作为神经网络压缩框架（NNCF）的一部分，除了 Intel® Core™ 和 iGPU 之外，英特尔®至强® CPU 现在还完全支持 Int4 权重压缩模型格式，从而在使用 LLM 时增加了更高的性能、更低的内存使用率和准确性机会。
使用状态模型技术改进基于 transformer 的 LLM 在 CPU 上的性能，以提高内存效率，其中内部状态在多次推理迭代之间共享。
OpenVINO 运行时（通过新的 API）提供Tokenizer 和 Torchvision 转换的支持，仅需更少的预处理代码，并可通过自动处理此模型设置来提高性能。

在边缘及云端，或本地运行AI时，具有更高的可移植性和更好的性能表现:

全面支持第 5 代英特尔®至强®（代号 Emerald Rapids），兑现 AI 无处不在的承诺。
通过利用 P 核和 E 核，进一步优化了 Intel® Core™ Ultra（代号 Meteor Lake) CPU 的性能，并带有延迟提示。
通过提高 CPU 内核和内存带宽的使用效率，提高了 ARM 平台上的性能，并提供了吞吐量提示。
JavaScript API预览，使 node JS 开发能够通过源代码实现访问 JavaScript的绑定。
通过 OpenVINO 模型服务器改进了 LLM 的模型服务。这不仅使 LLM 服务能够通过 KServe v2 gRPC 和 REST API 获得更大的灵活性，而且还可以通过在服务器端运行tokenization等处理来提高吞吐量。

新版本的OpenVINO加强了在大模型上的优化能力，我们后面也会和大家一起体验一下它的用法。敬请关注。

我是Tango，一个热爱分享技术的程序猿我们下期见。

我正在参与2024腾讯技术创作特训营第五期有奖征文，快来和我瓜分大奖！

0 人点赞