Ontwikkelaars wat met LLM's werk, hardloop voortdurend in dokumente. En elke paar maande is daar 'n nuwe golf van hype (of frustrasie) rondom die PDF-probleem. Gedurende daardie oomblikke is dit nie ongewoon om sagteware-mense te sien wat oor hoe een lêerformaat so 'n massiewe koppyn geword het nie. Lang voordat LLM's in die prentjie gekom het, was die hele SaaS-ondernemings gebou rondom die bestuur van die rotse van PDF's. En vir goeie rede is dit 'n formaat wat nooit ontwerp is vir die soort gestruktureerde, masjienleesbare toegang wat ons nou verwag nie. Wanneer sagteware so wydverspreid word soos Adobe Acrobat en die PDF-formaat, begin dit soos 'n permanente deel van die landskap te voel.Dit is maklik om te vergeet dat agter daardie alomvattendheid ware ontwerpbesluite, beperkings en kompromisse gemaak is deur werklike ingenieurs wat werklike probleme oplos. Ja, PDF's is frustrerend.Maar hulle is nie gebreek nie.In werklikheid was hulle 'n verrassend elegante oplossing vir hul tyd. Hierdie verhaal neem 'n stap terug om die oorsprong van die PDF-formaat te verken: hoe dit ontstaan het, watter probleme dit opgelos het, en hoe die besluite wat in die vroeë 90's gemaak is, nog steeds deur die vandag se stapel ryp. Terug na die 80's, van papier tot pixels. Persoonlike rekenaars was ontploffend in gewildheid, en papier dokumente was nie meer die standaard nie. sagteware soos VisiCalc, WordStar, WordPerfect, en vroeë Microsoft Word het die dageraad van 'n nuwe manier om te skryf, te bewerk en te deel. By die einde van die 80's het PC-pakkette alles behalwe die drukker doodgemaak. Bestuurders kon verslae minute voor 'n vergadering aanpast. Analiste het "wat-as" scenario's in spreadsheets uitgevoer. Onderwysers het toetse op die vlieg gedruk. ingenieurs het ontwerptables vervang met digitale blaaiprente. Meer en meer word dokumente die nuwe werkplek nie net die eindproduk nie, maar waar die werk eintlik gebeur het. Die 90's en die geboorte van die PDF. In die vroeë 1990's het die opkoms van PC-gebaseerde woordverwerking en elektroniese lêerdeling baie probleme opgelos, terwyl nuwe probleme ingevoer is. Elke rekenaar het sy eie lettertype, printerdrivers en opstellingskwinkels gehad. 'n verslag wat op een masjien perfek lyk, kon druk as 'n rommel op 'n ander. Om dit reg te stel, het in 1991 die mede-oprichter van Adobe, John Warnock, en sy span 'n projek gekodeer met die naam "Camelot" begin om 'n werklik universele dokumentformaat te skep. Deur elke lettertype, afbeelding en opstelling besonderhede in 'n enkele lêer te bundel, laat PDF's gebruikers dokumente deel sonder verrassings, en wat jy op die skerm sien, word presies dieselfde ooral gedruk. Adobe het die gratis Acrobat Reader beskikbaar gemaak in 1994, en binne vyf jaar, PDF het die go-to formaat geword vir alles van produkhandboeke en korporatiewe verslae tot regeringsvorms en akademiese dokumente. By die vroeë 2000's was "ekspor as PDF" 'n eenklikke opsie in byna elke skryweringstool, en organisasies regoor die bedrywe het dit omhels vir verspreiding, archivering en ooreenstemming. The PDF Design Trap Die PDF-ontwerp trap Die ding wat PDF's so aantreklik gemaak het (hulle belofte van pixel-perfekte getrouheid) het ook 'n verborge kompromie geïntroduceer: dit het inhoud in 'n rigide, print-first struktuur gesluit. Onder elke foutevolle bladsy was in wese 'n digitale snapshot, gebou om te imiteer wat uit 'n printer gekom het. Hoofde, tabelle, paragrawe, geen van dit het semantiese betekenis nie. Vir 'n rekenaar was dit net koördinaat en teksbokse versprei oor 'n canvas. Aanvanklik het dit nie saak gehad nie.Maar as dokumente van bureaubladers na webbrowsers, mobiele skerms en outomatiese pijpleidings beweeg, het die kraakkies begin wys.Wil jy skoon data uit te voer?Wysig teks op 'n telefoon?Besef dokumestruktuur?Ons lyk skielik dat wat skoon vir mense lyk, 'n puinhoop vir masjiene geword het. PDF en ander modernisasie pogings Adobe was nie blind vir die probleem nie. Tagged PDF (in 2001 geïntroduceer en later geformaliseer in PDF/UA vir toeganklikheid) voeg 'n HTML-agtige logiese struktuur by. Dit het nooit universeel geword nie, maar dit is verpligtend vir toeganklike regeringsdokumente en wyd gebruik in groot maatskappye werkstrome. Ander mijlpaal, soos PDF/A vir langtermyn archivering, XMP-metadata ondersteuning, en die 2008-handhawing van die spesifikasie na ISO, toon gestage pogings om die formaat te moderniseer. Jy sien dit in swaarweë soos DocuSign, in die baie webgebaseerde PDF-redakteurs soos DocHub, en in open-source biblioteke soos Poppler, wat ontwikkelaars afhanklik is van net om teks uit PDF's te trek. Dit is ook hoekom die groot wolk spelers is almal werp ernstige AI spiere op hierdie probleem: AWS met Textract, Google met Document AI, en Microsoft met Azure AI Document Intelligence. Die opkoms van AI-Native PDF Handling Wanneer ChatGPT geraak het, het die "PDF-probleem" ontplof. maatskappye het hardloop om hul data in LLM's te voer, net om 'n muur te tref: die meeste van daardie waardevolle inligting is weggesluit binne PDF's. Aanvanklik was die doel eenvoudig: net skoon teks vir Retrieval-Augmented Generation (RAG) uit te voer. Maar dit het vinnig te basies getoon. Moderne Document AI train nou modelle om die visuele en logiese opstelling van 'n dokument te verstaan: titel, paragrawe, tabelle en beelde te identifiseer. Hierdie AI-stapel onthul die volle omvang van die rot wat ons hanteer.Wat eenvoudig data-uittreksel moet wees, vereis nou verskeie gespecialiseerde lae: 
 
 
 
 Layoutanalise om die dokumente te verstaan, OCR om teks uit beelde en gescande dokumente te onttrek, VLM-orkestrering om hierdie verskillende AI-komponente te koördineer. Elke laag voeg latensie, potensiële foute en berekeningskoste by. Die ironie is verbluffend: ons gebruik sommige van die mees gevorderde AI-modelle wat ooit gebou is om 'n probleem op te los wat voortspruit uit 'n 30-jarige besluit om dokumente soos foto's te behandel. Terwyl PDF's geleidelik geëvolueer het, hou hul eerste-print-DNA koste op elke moderne werkstroom. 'n Weg vooruit Ons kan nie dekades van PDF's oor die nag skraap nie, maar ons kan vermy dat die geskiedenis herhaal word. vir nuwe inhoud, kies gebore digitale formate wat semantiek standaard bewaar: 
 
 
 
 HTML5 vir die web Markdown-afgeleide standaarde vir tegniese dokumente, of DOCX/OOXML wanneer Office-verenigbaarheid 'n must is. Wanneer 'n vaste-layout-lêer onvermydelik is, eksporteer met volledige tags en metagegevens intact; sommige skryweringstools automatiseer dit nou. regeringsopkoopreëls wat PDF/UA-voldoening vereis, is 'n positiewe voorbeeld. Langtermyn, oop standaarde soos W3C se Portable Web Publication of EPUB 3, saam met die komende verpakte JSON-gebaseerde formate, belowe getrouheid sonder om struktuur te offer. Die storie van PDF's bewys dat vroeë ontwerpkeuses dekades lank echo het. Die les is nie om die ingenieurs wat die probleem van 1991 opgelos het, te verneder nie; dit is om te erken dat vandag se "goed genoeg" kortkomste die duur handskoene van môre word. Vir teams wat reeds met bevrore formate hanteer, gereedskap soos bied 'n Open-Source API-gebaseerde pipeline om komplekse dokumente te omskep in gestruktureerde, gekruiste formate wat geskik is vir LLM- en RAG-werkstrome, wat beide as gehost eindpunte of selfbeheerde infrastruktuur beskikbaar is. Chunkr Chunkr Doen jy moeite om jou gehoor as 'n tegniese professionele te groei? is die go-to nuusbrief vir tegnologie skepers ernstig oor die groei van hul gehoor. Jy sal die bewese raamwerke, sjablone en taktiek agter my 30M+ indrukke (en teling) kry. Die Tech Audience Accelerator https://techaudienceaccelerator.substack.com/?embedable=true

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This story will praise and/or roast a product, company, service, game, or anything else people like to review on the Internet.

👉 Join The Tech Audience Accelerator 👈

Read My Stories

Hierdie oudio word in die oorspronklike taal van die storie vervaardig!

Hoekom die uittreksel van teks van PDF's nog steeds voel soos 'n hack - en die agtergeboude ontwerp wat AI steek

About Author

KOMMENTAAR

HANG TAGS

HIERDIE ARTIKEL IS AANGEBIED IN

Related Stories

'Decentralization Means Freedom': Interview with Alfredo de Candia

Top Actionable Tips to Grow a Community: More Tips to Monetize

How to Vote in the HackerNoon 2021 Noonies Awards #Noonies2021

Hurry! One Month Left to Win from $5000 in the Web3 Development Writing Contest

'Decentralization Means Freedom': Interview with Alfredo de Candia

Top Actionable Tips to Grow a Community: More Tips to Monetize

How to Vote in the HackerNoon 2021 Noonies Awards #Noonies2021

Hurry! One Month Left to Win from $5000 in the Web3 Development Writing Contest

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps