读技术之外：社会联结中的人工智能04数据

1. 数据

1.1. NIST

1.1.1. 美国国家标准与技术研究所 (National Institute of Standards and Technology, NIST)

1.1.2. NIST成立于1901年，旨在加强国家测量基础设施建设，并为与工业化世界中的经济竞争对手（如德国和英国）进行竞争而制定标准

1.1.3. 从电子健康记录到抗震摩天大楼，再到原子钟等，一切都在NIST的管辖范围内

1.1.4. 成为时间、通信协议、无机晶体结构、纳米技术的测量机构

1.1.5. 目标，是定义和支持各类标准，以使系统之间具有互操作性，现在，开发人工智能标准也被纳入NIST的工作范畴之中

1.1.6. 为生物识别数据而设置的测试基础设施，便是NIST需要维护的内容之一

1.2. 面部照片本身很容易给人留下深刻的印象

1.2.1. 面部照片是当前AI创造方法的原始基础

1.2.2. 人类脸部数据是构建面部识别系统的核心

1.2.3. 照片被设计为机器可读，并非用于人眼观看，但它们却可以带来非同寻常的视觉效果

1.3. 从在执法系统中识别特定个体，转变成为测试用于检测人脸的商业和学术AI系统的技术基准

1.3.1. 面部照片是技术现实主义传统的一部分，旨在“提供罪犯的标准画像”

1.4. 发明入案照片的阿尔方斯·贝蒂永(Alphonse Bertillon)等犯罪学家将其视为一种个人生平身份识别的机制，是发现惯犯所必需的

1.5. 弗朗西斯·高尔顿(Francis Galton)

1.5.1. 统计学家和优生学奠基人

1.5.2. 将囚犯的复合肖像作为检测生物学上确定“犯罪类型”的一种方法

1.5.3. 基于一种面相学者的范式，其目标是找到一种通用的外观，以从外表中识别出深刻的性格特征

1.5.4. 当面部照片被用作训练数据时，它们不再作为识别工具来发挥作用，而是用于微调一种自动化的视觉形式

1.5.5. 面部照片用于检测面部的基本数学成分，以“将自然还原为其几何本质”

1.6. 面部照片构成了用于测试面部识别算法的档案的一部分

1.6.1. 多重遭遇数据集中的人脸已成为标准化图像，成为一种比较算法准确性的技术基础

1.7. 照片中描绘的人及其家人都对这些图像的使用方式没有任何发言权，甚至对于他们是人工智能测试平台的一部分的事实可能毫不知情

1.7.1. 这些人不被视为个人，而是作为共享技术资源的一部分—只是作为另一种面部识别验证测试程序的数据组件，这就是该领域备受推崇的“黄金标准”

1.8. 一切都是数据，且随时可被使用

1.9. 图像是在没有背景信息和未经同意的情况下，从互联网或国家机构获取的

1.9.1. 并不中立

1.9.2. 代表着个人的历史、结构性的不平等，并与美国治安和监狱系统历史中的所有不公正为伴

1.9.3. 这些图像能够以某种方式作为非政治性的惰性材料的假设，影响了机器学习工具“观察”的方式和内容

1.9.4. 任何单个图像都可以轻松被另一个图像替换，系统依然会以同样的工作方式来运行

1.9.5. 从互联网和社交媒体平台这些不断壮大且分布在全球的宝库中总能获取更多的数据

1.10. 如今，所有可公开访问的数字资料—即使是隐私的或可能具有破坏性的—都被一视同仁地抓取并收集到训练数据集中，用于为诸如治安维持、广告推广、文本翻译以及招聘自动化等应用生成AI模型

2. 让机器“看见”

2.1. 图像解释是一项极其复杂且关联性较强的工作，它在计算机科学领域很少被讨论

2.2. 图像是非常不稳定的，它们承载了多种潜在的意义、无法解决的问题以及矛盾

2.3. 真相不再是现实表征或取得共识的现实，而是从各种可用的在线资源中抓取的混乱图像

2.4. 人类工程师通过向计算机提供被标记的训练数据，来监督机器学习的效果

2.4.1. 学习器是在这些被标记的数据示例上进行训练的算法

2.4.2. 然后它会通知分类器，如何最佳地分析新输入的数据和预期输出数据或预测结果之间的关系

2.5. 正确的被标记数据的示例越多，算法就越能产生准确的预测

2.5.1. 机器学习模型有很多种，包括神经网络、逻辑回归和决策树

2.6. 所谓的归纳推理，一种基于可用数据的开放假设，而不是从前提之上遵循逻辑推导出来的演绎推理

2.6.1. 训练数据集是大多数机器学习系统进行推理的核心

2.6.1.1. 它们是AI系统用来生成预测基础的主要原材料

2.6.2. 训练数据不仅定义了机器学习算法的特征，还被用于评估算法随着时间推移的表现

2.7. 最著名的比赛之一是图网(ImageNet)挑战赛，研究人员在比赛中相互竞争，来看谁的方法可以最准确地分类和检测物体和场景

2.7.1. 新的训练集继承了早期案例中的学习逻辑，然后衍生出了后续的案例

2.8. 训练数据是构建当代机器学习系统的基础

2.8.1. 训练数据是现实情况的一种脆弱的形态

2.8.2. 即使是最大的数据库也无法避免在一个无限复杂的世界被简化和分类时出现的基本滑移

3. 数据需求简史

3.1. 妇女通常只被认为是能够理解数据记录的输入设备

3.1.1. 历史学家詹妮弗·莱特(Jennifer Light)

3.1.2. 从事实的角度来看，她们加工数据和运行系统的角色，与设计战时数字计算机的工程师的角色一样重要

3.1.3. 数据和处理系统之间的关系，已经被认为是一种无休止的消耗

3.1.4. 机器需要大量的数据，并且肯定将从数百万人中提取广泛的素材

3.2. 语音识别

3.2.1. 语音识别的问题最初是通过语言学方法来解决的

3.2.2. 一个重要的案例来自IBM研究所的语音识别团队

3.2.2.1. IBM并不是唯一一个开始大量收集词汇数据的组织

3.2.3. 他们的技术为Siri和龙语音(Dragon Dictate)的语音识别系统，以及谷歌翻译和微软翻译等机器翻译系统奠定了基础

3.3. 若想使该统计学方法发挥作用，就需要大量真实的语音和文本数据或是训练数据

3.3.1. 将语音从根本上简化为数据，以在缺乏语言知识或理解的情况下对其进行建模和解释

3.3.2. 语音变得不再重要

3.4. 从内容简化到数据，从意义简化到统计模式识别

3.4.1. 对数据原则而非语言原则的依赖带来了一系列新的挑战，因为这意味着统计模型必然由训练数据的特征决定

3.4.2. 数据集不仅改善了随机过程的概率估计，而且增加了数据捕获更罕见结果的概率

3.5. 文本档案被视为语言的中立集合，就如同技术手册中的词语与同事们邮件交流的用语之间存在等价性一样

3.5.1. 所有文本都是可重复利用和可交换的，只要有足够的文本，便可以训练出一个语言模型，并以非常高的成功率预测出词语的前后顺序

3.5.2. 语言不是一种惰性物质，无论在哪里获取的语言数据都不会完全以相同的方式运行

3.6. 语言是没有中立基础的，所有的文本集合都有时间、地点、文化和政治的痕迹

3.6.1. 一些语言由于缺少可用数据，人们无法使用此类研究方法进行分析，于是失去了关注

3.7. 系统底层数据的来源是非常重要的

3.7.1. 依然没有标准方法来记录所有这些数据的来源或获取的方式

3.7.2. 更不用提数据获取方式的伦理问题

3.7.3. 这些数据集包含的会影响所有依赖他们的系统的偏差类型

游戏百科

读技术之外：社会联结中的人工智能04数据

热门分类