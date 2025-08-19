Training Tesseract OCR on Kurdish Historical Documents

Hackernoon
2025/08/19 16:00
SuperRare
RARE$0.05766+5.73%
Imagen Network
IMAGE$0.00117-4.87%
OpenGPU
OPEN$0.0000000713-16.41%

Abstract and 1. Introduction

1.1 Printing Press in Iraq and Iraqi Kurdistan

1.2 Challenges in Historical Documents

1.3 Kurdish Language

  1. Related work and 2.1 Arabic/Persian

    2.2 Chinese/Japanese and 2.3 Coptic

    2.4 Greek

    2.5 Latin

    2.6 Tamizhi

  2. Method and 3.1 Data Collection

    3.2 Data Preparation and 3.3 Preprocessing

    3.4 Environment Setup, 3.5 Dataset Preparation, and 3.6 Evaluation

  3. Experiments, Results, and Discussion and 4.1 Processed Data

    4.2 Dataset and 4.3 Experiments

    4.4 Results and Evaluation

    4.5 Discussion

  4. Conclusion

    5.1 Challenges and Limitations

    Online Resources, Acknowledgments, and References

4 Experiments, Results, and Discussion

Initially, we collected some historical publications from the Zaytoon Public Library in Erbil. However, due to the fragile condition of the documents, it was not easy to transfer them into digital format. Then, via the internet, we found the Zheen Center for Documentation and Research in Sulaymaniyahn https://zheen.org, a facility specializing in scanning and archiving historical documents using unique technologies explicitly designed for that function. After visiting them and explaining our project, they agreed to provide us with digital copies of the earliest Kurdish publications they had in their collection.

4.1 Processed Data

To handle image processing tasks, we utilized a dedicated batch processing tool that was freely available. With this tool, we loaded the images and applied a de-skewing process to correct any skew present in the images. We also performed automatic cropping and converted the images to binary format, saving them in the specified destination directory.

4.2 Dataset

After receiving the historical documents from Zheen Center for Documentation and Research in a digital format, we converted the pages into single-line images with respected transcription for the line. We used an Image Processing application to crop lines and saved them in TIFF format.

\ After converting the pages into image lines (See Figure 16), we created transcription files for each image line using a text editing program by manually typing what is written in the images.

\ \ Figure 15: Sample page in the book titled ’Awat’ published in 1938 (Zheen Center for Documentation and Research)

\ \ We named the transcription files the same name as the image line with (.gt.txt) postfix (See Figure 17).

\ This way, the dataset for training Tesseract was created, which resulted in 1233 files. Half are the image lines, and the other is the transcription files (See Table 1).

4.3 Experiments

In this section, we provide details of the steps taken to prepare our environment, the training process of the model, and other relevant aspects.

\ 4.3.1 Environment Setup

\ For this training environment, we used Ubuntu 22.04.2 LTS (Jammy Jellyfish). We cloned the tesstrain from https://github.com/tesseract-ocr/tesstrain and we trained the model using our prepared dataset.

\

:::info Authors:

(1) Blnd Yaseen, University of Kurdistan Howler, Kurdistan Region - Iraq ([email protected]);

(2) Hossein Hassani University of Kurdistan Howler Kurdistan Region - Iraq ([email protected]).

:::

:::info This paper is available on arxiv under ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL license.

:::

\

Disclaimer: The articles reposted on this site are sourced from public platforms and are provided for informational purposes only. They do not necessarily reflect the views of MEXC. All rights remain with the original authors. If you believe any content infringes on third-party rights, please contact [email protected] for removal. MEXC makes no guarantees regarding the accuracy, completeness, or timeliness of the content and is not responsible for any actions taken based on the information provided. The content does not constitute financial, legal, or other professional advice, nor should it be considered a recommendation or endorsement by MEXC.

You May Also Like

Wyoming Launches First State-Issued Stablecoin, FRNT

Wyoming Launches First State-Issued Stablecoin, FRNT

The post Wyoming Launches First State-Issued Stablecoin, FRNT appeared first on Coinpedia Fintech News Wyoming has launched the Frontier Stable Token (FRNT), becoming the first U.S. state to issue its own stablecoin. Backed by USD and short-term U.S. Treasuries, FRNT is now live on seven major blockchains, including Ethereum, Solana, and Polygon. Despite this milestone, the token is not yet available for public trading due to ongoing regulatory challenges. …
U
U$0.0208-0.47%
TokenFi
TOKEN$0.01427-0.76%
Major
MAJOR$0.16287+1.44%
PUBLIC
PUBLIC$0.05832+1.16%
Notcoin
NOT$0.001883-0.10%
Share
CoinPedia2025/08/19 19:37
Y Combinator's Youngest Solo Founder Says Digital Identity Is The Internet's Biggest Infrastructure

Y Combinator's Youngest Solo Founder Says Digital Identity Is The Internet's Biggest Infrastructure

Kirill Avery, Y Combinator's youngest solo founder, warns that digital identity is the internet's biggest crisis. With cybercrime hitting $10.5 trillion by 2025 and bots making up half of internet traffic, traditional verification methods miss the real problem: distinguishing AI agents acting for humans versus malicious bots. His team was recently fooled by an AI-assisted job candidate who passed interviews but was fired within a week. AI companies are repeating Big Tech's playbook of centralizing data without transparency, while government regulations like UK/EU age verification create surveillance infrastructure instead of privacy-preserving solutions. Without proper decentralized identity systems, the combination of AI integration and CBDC rollouts could enable unprecedented government control over individuals.
RealLink
REAL$0.05167+6.12%
Wink
LIKE$0.011938-3.96%
Sleepless AI
AI$0.1188-1.00%
Sologenic
SOLO$0.35028+3.77%
Share
Hackernoon2025/08/19 17:53
Dreigt Dogecoin nu écht in te storten in 2025?

Dreigt Dogecoin nu écht in te storten in 2025?

Connect met Like-minded Crypto Enthusiasts! Connect op Discord! Check onze Discord   Dogecoin (DOGE) kan te maken krijgen met een Monero-achtige aanval van 51%. Hierdoor kan de DOGE prijs onder druk komen te staan. Op het moment van schrijven is de Dogecoin koers al aan het dalen, maar wanneer stopt deze daling? Kan DOGE zijn momentum herpakken of zien we straks een flinke DOGE crash? Dogechain en een Monero-achtige aanval De blockchain- en gedecentraliseerde AI-infrastructuurproject gemeenschap van Qubic heeft zijn focus verlegt van Monero naar Dogecoin. Dit komt mede door het feit dat DOGE op dit moment te maken heeft met sterke verkoopdruk, waardoor de aandacht van de gemeenschap getrokken is. Na de aanval van 51% op privacy blockchain Monero vorige week, lijkt het er nu op dat de Qubic gemeenschap zich op Dogecoin richt. Dit kan grote gevolgen hebben voor de DOGE koers, waardoor het voor investeerders en handelaren van belang is om dit in de gaten te houden. Sergey Ivancheglo, de oprichter van het project, kondigde de update op 17 augustus 2025 aan na een succesvolle aanval op Monero. Er was een openbare stemming waarbij er gekozen kon worden uit Zcash, Dogecoin en Kaspa. Dogecoin kwam met meer dan 300 stemmen er flink bovenuit. The #Qubic community has chosen #Dogecoin. pic.twitter.com/EnevIZUAw5 — Come-from-Beyond (@c___f___b) August 17, 2025 Krijgt Dogecoin te maken met een 51% aanval? Vorige week zagen we dat de Qubic gemeenschap zes blokken binnen het Monero blockchain netwerk had in de 51% aanval. Niet heel lang daarna nodigde Ivancheglo de Qubic gemeenschap uit om een ander ASIC-compatibel proof-of-work-netwerk als het volgende doelwit te selecteren. Hierbij waren direct de pijlen gericht op DOGE. De Qubic gemeenschap beweert dat er verder geen kwaad achter de acties zit. Zij noemen het een ‘stresstest’. De test zou gericht zijn op het benadrukken van de verkracht van haar miningmodel. Dit mining model heet useful proof-of-work. De inkomsten uit de miningpool worden besteed aan het kopen en verbranden van QUBIC tokens. De gemeenschap beweert dat zij Monero of Dogecoin niet willen ontwrichten. Toch zijn er al meerdere zorgen geuit over de aanvallen en de veiligheid van de systemen. Can I ask. What is the advantage other than the price manipulation of Qubic token via the buy back burn? I mean kudos on a massive PR campaign. But I am curious. — Son of a Tech (@SonOfATech) August 17, 2025 Dogecoin daalt We zien op dit moment dat Dogecoin te maken heeft met flinke verkoopdruk. Hierdoor is de koers in de afgelopen 7 dagen met meer dan 3% gedaald. Als we kijken naar de koers daling van de afgelopen 30 dagen, dan zien we een daling van bijna 14%. DOGE wees de $ 0,255 van vorige week af, en de DOGE prijs moet zich hierdoor opnieuw zien te herstellen. De memecoin wordt op dit moment verhandeld voor $ 0,2168. Door het nieuws van de Qubic gemeenschap kan er nog meer twijfel ontstaan bij investeerders en handelaren om te investeren in DOGE. Hierdoor zal de verkoopdruk van de memecoin hoger liggen, waardoor de koers nog verder kan dalen. Beste meme coins van dit momentWil jij weten wat de beste meme coins van dit moment zijn? Check de lijst hier! In 2025 is de memecoin-markt uitgegroeid tot een vaste kracht in crypto. Dogecoin en Shiba Inu zijn allang geen grap meer, maar miljardeprojecten met enorme community’s. Hun succes effent de weg voor een nieuwe lichting memecoins die razendsnel groeit, vaak gestuwd door sociale media en beroemdheden als Elon Musk en Donald Trump. Volgens investeerders liggen… Continue reading Dreigt Dogecoin nu écht in te storten in 2025? document.addEventListener('DOMContentLoaded', function() { var screenWidth = window.innerWidth; var excerpts = document.querySelectorAll('.lees-ook-description'); excerpts.forEach(function(description) { var excerpt = description.getAttribute('data-description'); var wordLimit = screenWidth wordLimit) { var trimmedDescription = excerpt.split(' ').slice(0, wordLimit).join(' ') + '...'; description.textContent = trimmedDescription; } }); }); Gaat DOGE crashen in augustus 2025? Als je een beetje in de cryptomarkt zit, dan weet je dat memecoins een stuk makkelijker crashen dan bijvoorbeeld Bitcoin (BTC). Hierdoor is er veel angst ontstaat dat DOGE in 2025, en misschien zelfs in augustus 2025, gaat crashen. #DOGE 4H CHART Close to getting a death cross This is bearish I expect a price drop to 0.20-0.25$ Not financial advice pic.twitter.com/z6wMjd9aRG — Jonathan Hosman (@JonathanHosman) August 19, 2025 Voor handelaren en investeerders is het in ieder geval van belang om de DOGE koers voldoende in de gaten te houden. De koers handelde de afgelopen 7 dagen tussen de $ 0,2166 en $ 0,2539. Dit wijst op volatiliteit. Op het moment dat DOGE de ondersteuning van $ 0,21 verliest, is het mogelijk dat we een DOGE crash gaan zien en de koers nog verder daalt. Als Dogecoin juist de $ 0,25 kan vasthouden en de $ 0,26 kan doorbreken, is het mogelijk dat de DOGE koers in augustus 2025 gaat stijgen. Best wallet - betrouwbare en anonieme wallet Best wallet - betrouwbare en anonieme wallet Meer dan 60 chains beschikbaar voor alle crypto Vroege toegang tot nieuwe projecten Hoge staking belongingen Lage transactiekosten Best wallet review Koop nu via Best Wallet Let op: cryptocurrency is een zeer volatiele en ongereguleerde investering. Doe je eigen onderzoek. Het bericht Dreigt Dogecoin nu écht in te storten in 2025? is geschreven door Jessy Zuidema en verscheen als eerst op Bitcoinmagazine.nl.
Qubic
QUBIC$0.0000029824+1.68%
OFFICIAL TRUMP
TRUMP$8.967-0.86%
Bitcoin
BTC$115,540.98--%
Just Memecoin
MEMECOIN$0.00525-12.76%
CROSS
CROSS$0.25879-1.43%
Share
Coinstats2025/08/19 19:16

Trending News

More

Wyoming Launches First State-Issued Stablecoin, FRNT

Y Combinator's Youngest Solo Founder Says Digital Identity Is The Internet's Biggest Infrastructure

Dreigt Dogecoin nu écht in te storten in 2025?

Home Crypto Mining: The Secrets Pro Miners Will Not Share (2025 Guide)

Why Your Tesseract OCR Results Suck (and How to Fix Them Fast)