乐山通报刺激性气雾问题含有少量氯化氢的气雾散发

中新网8月22日电 据四川乐山市人民政府新闻办官方微信消息,针对群众反映乐山市五通桥区盐磷化工循环产业园区南部出现带有刺激性气雾的问题,乐山市应急管理局、生态环境局21日联合发布通报称,8月20日上午,因无电无水,四川永祥多晶硅有限公司尾气淋洗系统不能正常发挥功能,导致装置泄压排入淋洗系统的气体未能充分吸收处理,形成含有少量刺激性氯化氢的气雾散发至空气中。

四川乐山市人民政府新闻办官方微信截图

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

通报称,关于群众反映五通桥区盐磷化工循环产业园区(南部)出现带有刺激性气雾的问题,经省、市专家组初步调查,主要原因是:受“8.18”特大洪涝灾害影响,四川永祥多晶硅有限公司(老厂区)为保障安全,主动紧急停车,随后厂区被淹;8月20日上午,因无电无水,该公司尾气淋洗系统不能正常发挥功能,导致装置泄压排入淋洗系统的气体未能充分吸收处理,形成含有少量刺激性氯化氢的气雾散发至空气中。

因为NumPy没有序列化函数,因此唯一的方法是将其转换为JSON,然后保存JSON对象,但是大小将增加五倍。例如,在768维向量空间中编码的一百万个数据点具有正常的索引,大约为3GB,将其转换为JSON将使其成为15GB,而普通机器无法保存它的RAM。因此,每次执行搜索时,我们都要运行一百万次计算推理,这是不实际的。

首先让我们关闭CPU版本的Faiss并重启GPU版本

我们可以看到句子transformer模型比其他模型有很大的优势。

在这些模型中,语义文本相似度被视为一个回归任务。这意味着,每当我们需要计算两个句子之间的相似度得分时,我们需要将它们一起传递到模型中,然后模型输出它们之间的数值分数。虽然这对于基准测试很有效,但是对于实际的用例来说,它的伸缩性很差,原因如下。

我使用了一个来自Kaggle的数据集,其中包含了17年来出版的新闻标题。

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

加载一个包含一百万个数据点的数据集

首先,让我们安装并加载所需的库

这是一个基本的实现,在语言模型部分和索引部分仍然需要做很多工作。有不同的索引选项,应该根据用例、数据大小和可用的计算能力选择正确的索引选项。另外,这里使用的句子嵌入只是对一些公共数据集进行了微调,在特定领域的数据集上对它们进行微调可以改进,从而提高搜索结果。

很好,你可以在0.02秒内得到结果,使用GPU(在这个实验中使用了Tesla T4),它比CPU后端快75倍

加载模型并对数据集执行推理

之后执行相同步骤,但是最后将索引移到GPU上。

但是如果你用代码和GLUE来看看排行榜,你会看到很多的模型超过90。为什么我们需要句子transformers?

下一步,乐山市、区两级环保部门将持续对厂区周边及五通桥城区进行流动连续应急监测,并将监测结果及时公布。

只需1.5秒,就可以在仅使用CPU后端的百万文本文档的数据集上执行基于意义的智能搜索。

现在让我们转移这个搜索方法并用GPU执行这个搜索

1.当你需要搜索大约10k个文档时,你需要进行10k个独立的推理计算,不可能单独计算嵌入量而只计算余弦相似度。见作者的解释。2.最大序列长度(模型一次可以接受的单词/标记的总数)在两个文档之间共享,这会导致的表示的含义由于分块而被稀释

截至8月21日22时,乐山市、区两级环保部门对厂区周边及五通桥城区空气质量进行的流动连续应急监测显示,空气中的氯化氢、氟化氢、氯气、氨气、VOCs(挥发性有机物)等指标均未检出;对涌斯江、岷江断面水质进行的采样监测显示,所测指标均未超标。

现在让我们看看搜索结果和响应时间

Faiss是一个基于C++的库,由FacebookAI构建,在Python中有完整的包装器,用于索引矢量化数据并对其进行有效的搜索。Faiss基于以下因素提供了不同的索引。

搜索时间 搜索质量 每个索引向量使用的内存 训练时间 无监训练需要外部数据

让我们首先为搜索构建一个包装函数

因此,选择合适的指数将是这些因素之间的权衡。

雷锋网版权文章,。详情见转载须知。

让我们定义索引并向其添加数据

将序列化的索引导出到托管搜索引擎的任何计算机中

加载预训练模型并且进行推断

但是为什么我不能仅仅序列化编码数据的NumPy数组而不是索引它们呢?如果我能等几秒钟的话,使用余弦相似性呢?

我们可以根据我们的用例通过参考指南来选择不同的索引选项。

Releated