Forum: >>> Magnum BBS <<<

difficulty extracting data from PDFs

From Retrograde@21:1/5 to All on Wed Mar 12 01:10:03 2025

From the «cry me a river, AI» department:
Title: Why Extracting Data from PDFs Remains a Nightmare for Data Experts Author: feedback@slashdot.org
Date: Tue, 11 Mar 2025 17:26:00 +0000
Link: https://it.slashdot.org/story/25/03/11/1726218/why-extracting-data-from-pdfs-remains-a-nightmare-for-data-experts?utm_source=rss1.0mainlinkanon&utm_medium=feed

Businesses, governments, and researchers continue to struggle with extracting usable data from PDF files, despite AI advances. These digital documents contain valuable information for everything from scientific research to government records, but their rigid formats make extraction difficult. "PDFs are a creature of a time when print layout was a big influence on publishing software," Derek Willis, a lecturer in Data and Computational Journalism at the University of Maryland, told ArsTechnica. This print-oriented design means many PDFs are essentially "pictures of information" requiring optical character recognition (OCR) technology. Traditional OCR systems have existed since the 1970s but struggle with complex layouts and poor-quality scans. New AI language models from companies like Google and Mistral now attempt to process documents more holistically, with varying success. "Right now, the clear leader is Google's Gemini 2.0 Flash Pro Experimental," Willis notes, while Mistral's recent OCR solution "performed poorly" in tests.

[image 2][2][image 4][4]

Read more of this story[5] at Slashdot.

Links:
[1]: http://twitter.com/home?status=Why+Extracting+Data+from+PDFs+Remains+a+Nightmare+for+Data+Experts%3A+https%3A%2F%2Fit.slashdot.org%2Fstory%2F25%2F03%2F11%2F1726218%2F%3Futm_source%3Dtwitter%26utm_medium%3Dtwitter (link)
[2]: https://a.fsdn.com/sd/twitter_icon_large.png (image)
[3]: http://www.facebook.com/sharer.php?u=https%3A%2F%2Fit.slashdot.org%2Fstory%2F25%2F03%2F11%2F1726218%2Fwhy-extracting-data-from-pdfs-remains-a-nightmare-for-data-experts%3Futm_source%3Dslashdot%26utm_medium%3Dfacebook (link)
[4]: https://a.fsdn.com/sd/facebook_icon_large.png (image)
[5]: https://it.slashdot.org/story/25/03/11/1726218/why-extracting-data-from-pdfs-remains-a-nightmare-for-data-experts?utm_source=rss1.0moreanon&utm_medium=feed (link)

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

From anthk@21:1/5 to Retrograde on Tue Mar 18 11:23:39 2025

On 2025-03-12, Retrograde <fungus@amongus.com.invalid> wrote:

From the «cry me a river, AI» department:
Title: Why Extracting Data from PDFs Remains a Nightmare for Data Experts Author: feedback@slashdot.org
Date: Tue, 11 Mar 2025 17:26:00 +0000
Link: https://it.slashdot.org/story/25/03/11/1726218/why-extracting-data-from-pdfs-remains-a-nightmare-for-data-experts?utm_source=rss1.0mainlinkanon&utm_medium=feed

Businesses, governments, and researchers continue to struggle with extracting usable data from PDF files, despite AI advances. These digital documents contain valuable information for everything from scientific research to government records, but their rigid formats make extraction difficult. "PDFs are a creature of a time when print layout was a big influence on publishing software," Derek Willis, a lecturer in Data and Computational Journalism at the
University of Maryland, told ArsTechnica. This print-oriented design means many
PDFs are essentially "pictures of information" requiring optical character recognition (OCR) technology. Traditional OCR systems have existed since the 1970s but struggle with complex layouts and poor-quality scans. New AI language
models from companies like Google and Mistral now attempt to process documents
more holistically, with varying success. "Right now, the clear leader is Google's Gemini 2.0 Flash Pro Experimental," Willis notes, while Mistral's recent OCR solution "performed poorly" in tests.

[image 2][2][image 4][4]

Read more of this story[5] at Slashdot.

Links:
[1]: http://twitter.com/home?status=Why+Extracting+Data+from+PDFs+Remains+a+Nightmare+for+Data+Experts%3A+https%3A%2F%2Fit.slashdot.org%2Fstory%2F25%2F03%2F11%2F1726218%2F%3Futm_source%3Dtwitter%26utm_medium%3Dtwitter (link)
[2]: https://a.fsdn.com/sd/twitter_icon_large.png (image)
[3]: http://www.facebook.com/sharer.php?u=https%3A%2F%2Fit.slashdot.org%2Fstory%2F25%2F03%2F11%2F1726218%2Fwhy-extracting-data-from-pdfs-remains-a-nightmare-for-data-experts%3Futm_source%3Dslashdot%26utm_medium%3Dfacebook (link)
[4]: https://a.fsdn.com/sd/facebook_icon_large.png (image)
[5]: https://it.slashdot.org/story/25/03/11/1726218/why-extracting-data-from-pdfs-remains-a-nightmare-for-data-experts?utm_source=rss1.0moreanon&utm_medium=feed (link)

Why not Recoll under Linux/Unix/Mac/Windows?

https://www.recoll.org/index.html

Recoll, not Recall.

--- SoupGate-Win32 v1.05
* Origin: fsxNet Usenet Gateway (21:1/5)

Who's Online
Recent Visitors
- Bob Worm
  Tue Sep 16 21:01:27 2025
  from Wales, Uk via Telnet
- Bob Worm
  Tue Sep 16 15:15:42 2025
  from Wales, Uk via Telnet
- Gretchiie
  Tue Sep 16 05:20:21 2025
  from Derry, Nh via Telnet
- Ginger1
  Mon Sep 15 19:33:54 2025
  from London via SSH
- Bob Worm
  Mon Sep 15 15:42:34 2025
  from Wales, Uk via Telnet
- Gretchiie
  Mon Sep 15 05:16:29 2025
  from Derry, Nh via Telnet
- Fred Blogs
  Mon Sep 15 00:03:12 2025
  from Uk via SSH
- Plume
  Sun Sep 14 09:34:52 2025
  from Uk via Raw

System Info

Sysop:	Keyop
Location:	Huddersfield, West Yorkshire, UK
Users:	546
Nodes:	16 (3 / 13)
Uptime:	35:57:22
Calls:	10,392
Calls today:	3
Files:	14,064
Messages:	6,417,151

difficulty extracting data from PDFs

Who's Online

Recent Visitors

System Info