• 从Internet上批量下载的完整性

– 你有所有记录吗? – 统计所有记录并与网站提供的计数进行比较(如果有)。不要与网站的互联网搜索引擎计数进行比较。互联网搜索引擎的数量毫无例外地完全是错误的。谷歌的数量特别糟糕。

– 所有记录都完整了吗? – 寻找零字节或小型下载。检查所有记录是否存在</ html>结束标记(如果适用)。如果可能,将HTTP标题“Content-Length”报告的大小与下载的记录的实际大小进行比较。

  • 从Internet上增量下载的完整性

– 执行增量更新尤其令人担忧。

– 您需要确保自上次扫描后下载所有文件,尤其是包括上次扫描期间创建的文件。

– 如果可能,将增量更新的结果与更新的流式视图进行比较

– 如果可能,手动检查网站更新的增量更新(例如,如果网站上的搜索引擎具有“按日期排序”功能)

  • 标记元数据提取的准确性和完整性

– 检查从HTML标记内容(或其他上下文元数据,例如,HTML父页面)中提取的元数据是否准确和完整

– 最好通过验证检查和分布分析来完成。

  • 基本语言处理的准确性和完整性

– 检查标记化和令牌处理是否正常工作

– 检查最常见和最不频繁的令牌列表是否存在异常

– 检查最大和最小的标记是否存在异常

– 随机样本文档和检查令牌处理

  • 实体提取的准确性和完整性

– 检查提取的实体的直方图是否有异常

– 执行实体部分的搜索(如名称的一部分或公司的一部分)。随机抽样此丰富子集的结果,并查看是否正确提取了实体

– 随机抽样一组文档并检查正确的实体提取

  • 分类的准确性和完整性

– 根据预先标记的内容(通常是训练集的百分比)评估结果

– 检查异常和合理分布的类别直方图。将直方图与训练集进行比较

– 随机抽样一组文件并检查分类是否正确

– 针对内容子集执行“所有对相似性”测试。识别分类为不同类别的类似对。检查此丰富子集的随机样本

  • 自然语言处理提取的准确性和完整性

– 执行上述所有元数据测试:验证检查,分布分析,富子集的随机样本和随机抽样

– 将结果与手动提取的内容进行比较(如果有)