机器学习名词:修订间差异
跳到导航
跳到搜索
无编辑摘要 |
|||
第13行: | 第13行: | ||
Embedding is a means of representing objects like text, images and audio as points in a continuous vector space where the locations of those points in space are semantically meaningful to machine learning (ML) algorithms. | Embedding is a means of representing objects like text, images and audio as points in a continuous vector space where the locations of those points in space are semantically meaningful to machine learning (ML) algorithms. | ||
Embedding is a critical tool for ML engineers who build text and image search engines, recommendation systems, chatbots, fraud detection systems and many other applications. In essence, embedding enables machine learning models to find similar objects. | |||
嵌入是一种将文本、图像和音频等对象表示为连续向量空间中的点的方法,这些点在空间中的位置对机器学习(ML)算法具有语义意义。 | |||
嵌入使机器学习模型能够找到相似的对象,是构建文本和图像搜索引擎、推荐系统、聊天机器人、欺诈检测系统等应用程序的关键工具。 | |||
<small><i>[https://www.ibm.com/topics/embedding What is embedding?]</i></small> | <small><i>[https://www.ibm.com/topics/embedding What is embedding?]</i></small> |
2024年5月7日 (二) 09:31的版本
One-Hot Encoding
为每个分类特征的每个可能值创建一个新的二进制特征(即“独热”特征),其中只有一个特征在任何给定时间被激活(标记为 1),而其他所有特征都被标记为 0。
优点:
- 解决分类数据处理问题:独热编码将离散分类特征转换为机器学习算法易于处理的二进制格式,提高了算法对离散特征的处理能力。
- 避免引入数值偏误:通过将每个类别映射到独立的二进制向量,独热编码消除了类别间可能存在的错误数值关系,从而避免了算法基于这些关系做出不准确的预测。
缺点:
- 维度增加:当类别数量较多时,独热编码会显著增加特征空间的维度,可能导致计算复杂性和过拟合问题。
- 信息损失风险:独热编码可能无法充分捕捉类别间的潜在关系或顺序信息,从而在某些情况下导致有用信息的丢失。
Embedding
Embedding is a means of representing objects like text, images and audio as points in a continuous vector space where the locations of those points in space are semantically meaningful to machine learning (ML) algorithms.
Embedding is a critical tool for ML engineers who build text and image search engines, recommendation systems, chatbots, fraud detection systems and many other applications. In essence, embedding enables machine learning models to find similar objects.
嵌入是一种将文本、图像和音频等对象表示为连续向量空间中的点的方法,这些点在空间中的位置对机器学习(ML)算法具有语义意义。
嵌入使机器学习模型能够找到相似的对象,是构建文本和图像搜索引擎、推荐系统、聊天机器人、欺诈检测系统等应用程序的关键工具。
- one-hot Encoding
- 单射且同构的
- 矩阵乘法降维
- 将两个无法比较的文字映射成向量,实现计算