向量是通过将原始信息转换为机器可以处理的数值数组来从数据中生成的。这个过程通常涉及将不同类型的数据(如文本、图像或结构化数据)转换成一种格式,以捕捉基本模式或关系。例如,文本可以使用词频计数进行转换,而图像可以通过像素强度值或从神经网络提取的特征进行处理。目标是以一种保留有意义属性的方式表示数据,使算法能够执行分类或相似性分析等任务。
向量生成的具体方法取决于数据类型和用例。对于文本数据,像 TF-IDF(词频-逆文档频率)这样的技术通过根据词语在文档中的重要性来加权词频,从而创建向量。更高级的方法,如 Word2Vec 或 BERT 嵌入,将词语或句子映射到捕捉语义的密集向量。对于图像,原始像素值可以构成一个向量,但通常使用卷积神经网络(CNN)来提取更高级的特征,如边缘或纹理,从而产生更有信息量的表示。结构化数据(例如数据库)可能涉及规范化数值列和对分类变量进行独热编码,以创建统一的数值向量。每种方法都在计算效率与保留相关信息的需要之间取得平衡。
一个实际的例子是为推荐系统生成向量。如果数据包含电影名称和用户评分,矩阵分解技术可能会通过将评分矩阵分解为潜在因子来创建用户和物品向量。对于自然语言处理,像“The quick brown fox”这样的句子可以使用 GloVe 等预训练模型表示为 300 维向量,其中每个维度对应一个学习到的语义特征。这些向量支持数学运算(如计算余弦相似度)以识别数据点之间的关系。向量化方法的选择最终取决于问题的要求,例如可解释性、维度和计算限制。