Tesseract OCR使用

news/2025/2/22 20:58:37

1. 准备tif图片

  • 可以使用 Tesseract 自带的 text2image 工具来生成图像
  • 可以使用jTessBoxEditor将图片生成tif文件

tif命名规则:[lang].[fontname].exp[num].tif

  • lang = 语言
  • fontname = 字体
  • num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

2. 生成box文件

# 语法如下:
tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox
tesseract zwp.font.exp0.tif \
zwp.font.exp0 \
-l chi_sim \
batch.nochop makebox

注意:tif文件名与box文件名必须保持一致


http://www.niftyadmin.cn/n/5862754.html

相关文章

请解释 Vue 中的生命周期钩子,不同阶段触发的钩子函数及其用途是什么?

vue生命周期钩子详解(Vue 3版本) 一、生命周期阶段划分 Vue组件的生命周期可分为四大阶段,每个阶段对应特定钩子函数: 创建阶段:初始化实例并准备数据挂载阶段:将虚拟DOM渲染为真实DOM更新阶段&#xff…

【mysql共享锁与排他锁】

MySQL共享锁(Shared Lock)与排他锁(Exclusive Lock)总结 1. 基本概念 共享锁(S锁) 作用:用于读取操作(读锁)。特点:允许多个事务同时持有共享锁,…

如何保证bug在改完之后不会引起新bug

一、测试前:影响范围分析 代码关联分析:依据开发代码关联性检查获取改动信息,聚焦影响范围,明确代码改动影响的业务功能、是否涉及公共组件或接口,检查 Swagger 文档更新情况。若开发无法明确影响范围,在测…

算法-哈希表篇08-四数之和

四数之和 力扣题目链接 题目描述 给你一个由 n 个整数组成的数组 nums ,和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] (若两个四元组元素一一对应,则认为两个四元组重复&…

Python 循环中的隐藏宝藏:Else 子句深度剖析

在 Python 编程里,循环结构是基础且高频使用的部分,不过其中的 else 子句却常被大家忽略。本文将深入、全面地解析 Python 循环中 else 子句的工作原理、使用方法,通过丰富的代码示例、直观的图表,以及与其他相关知识点的对比&…

简讯:Rust 2024 edition and v1.85.0 已发布

详见 https://blog.rust-lang.org/2025/02/20/Rust-1.85.0.html 升级方法:rustup update stable

51c大模型~合集69

我自己的原文哦~ https://blog.51cto.com/whaosoft/12221979 #7项基于SAM万物分割模型研究工作 1、CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation #ECCV2024 #SAM #图像分割 #医学图像 Segment Anything Model (SAM) 在自…

算法:选择排序(以排队为例)

举个栗子🌰:体育课排队 假设体育老师要按身高从高到矮给10个同学排队(降序排序),老师会这样做: 第1轮:找全班最高的同学,让他站在第1个位置第2轮:在剩下的9人中找最高的…