Book description
创建读者自己的面向机器学习的自然语言训练语料库。无论是以英文、中文,还是以其他任何自然语言为处理对象,这本实践型专著都可以引导读者完成整个标注的开发:向训练语料库中添加元数据信息以帮助机器学习算法更有效地工作。学习本书时不需要读者具备任何编程或语言学经验。
通过各步骤的详细示例,可以学习到MATTER标注开发过程如何帮助读者建模、标注、训练、测试、评价和修改训练语料库。同时,读者还可以亲自实践一个实际的标注项目,了解其完整流程。
- 在收集数据集(语料库)前确定清晰的标注目标。
- 学习用于分析语料库语言内容的工具。
- 为标注项目建立模型和规格说明。
- 从基本的XML到语言标注框架,考查各种标注格式。
- 创建可用于训练和测试机器学习算法的黄金标准语料库。
- 选择用于处理标注数据的机器学习算法。
- 评价测试结果并修改标注任务。
- 学习使用轻量级软件来标注文本及审核标注结果。
Table of contents
- 封面
- 版权页
- O'Reilly介绍
- 译者序
- 目录 (1/2)
- 目录 (2/2)
- 前言
- 第1章 基础知识
- 第2章 确定目标与选择数据
- 第3章 语料库分析
- 第4章 建立模型与规格说明
- 第5章 选择并应用标注标准
- 第6章 标注与审核
- 第7章 训练:机器学习
- 第8章 测试与评价
- 第9章 修改与报告
- 第10章 标注:TimeML
- 第11章 自动标注:生成TimeML
- 第12章 后记:标注的未来发展趋势
- 附录A 可利用的语料库与标注规格说明列表 (1/5)
- 附录A 可利用的语料库与标注规格说明列表 (2/5)
- 附录A 可利用的语料库与标注规格说明列表 (3/5)
- 附录A 可利用的语料库与标注规格说明列表 (4/5)
- 附录A 可利用的语料库与标注规格说明列表 (5/5)
- 附录B 软件资源列表 (1/4)
- 附录B 软件资源列表 (2/4)
- 附录B 软件资源列表 (3/4)
- 附录B 软件资源列表 (4/4)
- 附录C MAE用户指南 (1/2)
- 附录C MAE用户指南 (2/2)
- 附录D MAI用户指南 (1/2)
- 附录D MAI用户指南 (2/2)
- 附录E 参考文献 (1/3)
- 附录E 参考文献 (2/3)
- 附录E 参考文献 (3/3)
- 作者介绍
- 封面介绍
Product information
- Title: 面向机器学习的自然语言标注
- Author(s):
- Release date: January 2017
- Publisher(s): China Machine Press
- ISBN: 9787111555155
You might also like
book
数据库系统内幕
当我们选择、使用并维护一个数据库系统时,理解它的原理至关重要。但是现今有太多的分布式数据库和工具可供使用,要想弄明白每一种工具的作用以及它们之间的区别往往并不容易。在这本实用指南中,作者讲解了现代数据库和存储引擎背后的概念。 通过本书,你将领略到从众多书籍、论文、博客和多个开源数据库源代码中精心选取的相关材料,并且了解到众多现代数据库之间最重要的区别在于决定存储结构和数据分布的子系统。 你将深入了解如下内容: 存储引擎:学习存储的种类、分类依据,理解基于B树和不可变日志存储结构的存储引擎。 存储构建块:理解数据库文件如何使用诸如页缓存、缓冲池等辅助数据结构来组织构建高效的存储。 分布式系统:逐步学习节点和进程间如何连接并构建复杂的通信模式。 数据库集群:深入探究现在数据库中常用的一致性模型,并了解分布式存储系统是如何实现一致性的。
book
Python机器学习基础教程
机器学习已成为许多商业应用和研究项目不可或缺的一部分,海量数据使得机器学习的应用范围远超人们想象。本书将向所有对机器学习技术感兴趣的初学者展示,自己动手构建机器学习解决方案并非难事! 书中重点讨论机器学习算法的实践而不是背后的数学,全面涵盖在实践中实现机器学习算法的所有重要内容,帮助读者使用Python和scikit-learn库一步一步构建一个有效的机器学习应用。 机器学习的基本概念及其应用 常用机器学习算法的优缺点 机器学习所处理的数据的表示方法,包括重点关注数据的哪些方面 模型评估和调参的高级方法 管道的概念 处理文本数据的方法,包括文本特有的处理方法 进一步提高机器学习和数据科学技能的建议
book
Terraform:多云、混合云环境下实现基础设施即代码:第2 版
Terraform工具已经成为DevOps领域的关键角色。在各种云平台和虚拟化环境(如AWS、Goolge Cloud、Azure等)中,可以对基础设施即代码(IaC)进行定义、部署和管理。作为Terraform: Up & Running的第2版,本书针对Terraform 0.12版本的重大升级,进行了内容的拓展和更新,展示了如何快速学习和使用Terraform的优秀实践。 Gruntwork公司的联合创始人Yevgeniy(Jim)Brikman将通过丰富的代码示例展示Terraform作为一种声明性编程语言,如何用简单的执行命令部署和管理基础设施。 无论你是经验丰富的系统管理员、DevOps工程师,还是初出茅庐的开发人员,都可以通过学习本书,迅速掌握Terraform的基础知识,并能够部署一整套支持大量并发访问的全栈环境,同时学到如何支持大型开发团队的协同工作。 介绍Terraform 0.9版本到0.12版本的升级变化,包括后端、工作区和第一类表达式 学习如何编写产品级的Terraform模块 深入研究如何手动和自动测试Terraform代码 将Terraform与Chef、Puppet、Ansible、CloudFormation和Salt Stack进行比较 部署服务器集群、负载均衡器和数据库 通过Terraform管理基础设施的不同状态 …
audiobook
Sidetracked
Psychologist and Harvard Business School professor Francesca Gino has long studied the factors at play when …