查看“机器学习名词”的源代码
←
机器学习名词
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{| class="wikitable" |+ !No !缩写 !全称 !含义 !备注 |- |1 |NLP |Natural Language Processing |自然语言处理 | |- |2 |LLM |Large Language Model |大语言模型 | |- |3 |KNN |K-Nearest Neighbor |最近邻算法 | |- |4 |ANN |Approximate Nearest Neighbor |近似的最近邻 | |- |5 |RNN |Recurrent Neural Network |循环神经网络 | |- |6 |CNN |Convolutional Neural Network |卷积神经网络 |擅长图片处理 |- |7 |FFNN |Feed-Forward Neural Network |前馈神经网络 | |- |8 |MLP |Multi-Layer Perceptron |多层感知机 |FFNN |- |9 |RAG |Retrieval-Augmented Generation |检索增强生成 | |- |10 |Embedding | |向量嵌入 | |- |11 |one-hot | |独热编码 | |- |12 |Attention | |关注 | |} ==== One-Hot Encoding ==== 为每个分类特征的每个可能值创建一个新的二进制特征(即“独热”特征),其中只有一个特征在任何给定时间被激活(标记为 1),而其他所有特征都被标记为 0。 优点: * 解决分类数据处理问题:独热编码将离散分类特征转换为机器学习算法易于处理的二进制格式,提高了算法对离散特征的处理能力。 * 避免引入数值偏误:通过将每个类别映射到独立的二进制向量,独热编码消除了类别间可能存在的错误数值关系,从而避免了算法基于这些关系做出不准确的预测。 缺点: * 维度增加:当类别数量较多时,独热编码会显著增加特征空间的维度,可能导致计算复杂性和过拟合问题。 * 信息损失风险:独热编码可能无法充分捕捉类别间的潜在关系或顺序信息,从而在某些情况下导致有用信息的丢失。 ==== Embedding ==== Embedding is a means of representing objects like text, images and audio as points in a continuous vector space where the locations of those points in space are semantically meaningful to machine learning (ML) algorithms. Embedding is a critical tool for ML engineers who build text and image search engines, recommendation systems, chatbots, fraud detection systems and many other applications. In essence, embedding enables machine learning models to find similar objects. 嵌入是一种将文本、图像和音频等对象表示为连续向量空间中的点的方法,这些点在空间中的位置对机器学习(ML)算法具有语义意义。 嵌入使机器学习模型能够找到相似的对象,是构建文本和图像搜索引擎、推荐系统、聊天机器人、欺诈检测系统等应用程序的关键工具。 <small><i>[https://www.ibm.com/topics/embedding What is embedding?]</i></small> * one-hot Encoding * 单射且同构的 * 矩阵乘法降维 * 将两个无法比较的文字映射成向量,实现计算 [[分类:Algorithm]]
返回
机器学习名词
。
导航菜单
个人工具
登录
命名空间
页面
讨论
大陆简体
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
目录
文章分类
侧边栏
帮助
工具
链入页面
相关更改
特殊页面
页面信息