http://www.perlmonks.org?node_id=705644


in reply to Re: Extracting information from a PDF file
in thread [Updated] Extracting information from a PDF file

"Are your PDF files generated automatically?"

Nope, it is just one ill-made file.

I'll look into rwritepdf.pl, as well as the article on Wikipedia.

Update: Hmm, I get the same sort of output I get when trying to print the page's content. Example:

851(85@P8&#65533;]&#65533;&#65533;}&#65533;&#65533;&#65533 +;999&#65533;&#65533;??9N&#65533;&#65533;10]1]%#"'#"' +&5465465454&546326/&'&543O25N"j&#65533;&#65533;0pe +H&#65533;&#65533;&#65533;&#65533;S&#65533;&#65533;T&#65533;&#65533; +#+*&#65533;*>&#65533;>B B?&#65533;?.Lt&#65533;&#6 +5533;&#65533;&#65533;&#65533;&#65533;&#65533;+T~&#65533;OD&t&#655 +33;wo&#65533;Gt&#65533;&#65533; + `@I*%%*57 % %EJUYei 8  8/?o&#65533;+ A9+N&#65533;]M&#65533;&#65533;]&#65533;]&# +65533;&#65533;?&#65533;]]10 '&! "32764'&"&#65533;&# +65533;&#65533;&#65533;&#65533;&#65533;VI&#65533;&#65533;&#65533;&#6 +5533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;kf=&#655 +33;&#65533;Z:&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&# +65533;&#65533;&#65533;&#65533;[&#65533;&#65533;&#65533;&#65533;&#6553 +3;yr&#65533;&#65533;&#65533;a]d&#65533;&#65533;&#65533;#,Y@9&%) ++2'=+ -%8 8K))8` + 0@a23&#65533;<&#65533;&#65533;Y6)1&#65533;3DDU)k&#65533;&# +65533;R&#65533;@<&#65533;pp&#65533;&#65533;&#65533;&#65533;P ` p &#65533; &#65533; &#65533;  _ o  &#65533; &#65533;  /?O]&#65533;]&#65533;&#65533;]&#65533;]]?&#65533;10"'&?632&#65 +533;M&>$-7F\$&#9484;O6%T_ 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 &# +9227; &#146; &#146; AAAAAAAAA&#142;&#142;&#142;&#142; +&#142;&#142;&#142;.V&#9484;&#9524; &#146;&#9474; +:  &#8805; &#9492; &#9492; &#8804;g&#65533;'&#65533;!!&#65533;&#65533;k&#65533;MM +&#65533;_&#65533;K&#65533;&#65533;&#65533;/&#65533;&#65533; +&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#655 +33;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&# +65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533; +&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#655 +33;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&# +65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533; +&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#655 +33;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&# +65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533; +&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#655 +33;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&# +65533;&#65533;&#65533;&#65533; + +$QGUHD7VK0FL'RO/\3(=SXJ*W6N-).&Z5PI2& +#65533;+EY,1]%49TTE2F10808t00&#65533;&#65533;&#65533;&#65533; +&#65533;&#65533;dddddddddddd7&#65533;UoUoTT&#65 +533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#655 +33;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#65533;&#6553 +3;&#65533;d&#65533;d&#65533;d&#65533;d&#65533;d&#65533;d&#65533 +;d&#65533;&#65533;&#65533; &#65533;&#65533;Z&#65533;&#65533;&#65533;&#65533;&#65533 +;&#65533;pO%&#65533;_KR^&#65533;&#65533;hep`{ct*dMu&#65533;& +#65533;ptpt3&#65533;3&#65533;3&#65533;3&#65533;&#65533;D&#65533;D&#65 +533;D&#65533;D&#65533;D&#65533;D&#65533;D3&#65533;&#65533;i&#65 +533;gbWK?:&#65533;&#65533;>&#65533;>&#65533;R&#65533;1&#6553 +3;7y0|5MGwGw&#65533;&#65533;&#65533;)&#65533;A)m&#65533;>yL +yL*&#65533;&#65533;NzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNz +NzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNz +NzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNz +NzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNzNz +NzNzNzNzNzq9&#65533;&#65533;&#65533;&#65533;_<&#65533;&#65533 +;&#65533;E;&#65533;d&#65533;%&#65533;r&#65533;&#65533; &#65533; + endstream endobj 26 0 obj 14358 endobj 27 0 obj << /Type /Encoding /BaseEncoding /WinAnsiEncoding /Differences [ 1 /M /E /O /R /I /A /L /space /S /C /H /T /F /P /r /i / +n /c /p /a /l /e /t /y /N /u /s /hyphen /h /o /d /K /g /G /period /slash /b /f ] >> endobj 28 0 obj << /Type /Encoding /BaseEncoding /WinAnsiEncoding /Differences [ 1 /space /A /n /d /r /e /a /T /s /h /M /c /i /D /o /l / +comma /L /y /P /E /Z /p /u /g /G /t /S /k /J /F /K /C /w /R /m /f /O /quoteright /hyphen /H /b /v /slash /I /N /z /B /colon /one /Q /V ] >> endobj xref 0 29 0000000000 65535 f 0000000012 00000 n 0000000061 00000 n 0000000269 00000 n 0000000345 00000 n 0000000516 00000 n 0000021670 00000 n 0000021690 00000 n 0000021735 00000 n 0000021951 00000 n 0000022264 00000 n 0000022482 00000 n 0000022853 00000 n 0000022885 00000 n 0000022929 00000 n 0000023102 00000 n 0000038411 00000 n 0000038432 00000 n 0000038683 00000 n 0000038856 00000 n 0000038888 00000 n 0000038944 00000 n 0000039341 00000 n 0000039361 00000 n 0000051833 00000 n 0000051854 00000 n 0000071486 00000 n 0000071508 00000 n 0000071728 00000 n trailer << /ID [ <e84930d3cb6e2eebd076b1c784a83363> <cafe7596fcd757ed4ed43ba7f84e4976> ] /Info 2 0 R /Root 1 0 R /Size 29 >> startxref 72004 %%EOF

Is it encoded unconventionally? Not sure what to do now.

I'm so adjective, I verb nouns!

chomp; # nom nom nom

Replies are listed 'Best First'.
Re^3: Extracting information from a PDF file
by Perlbotics (Bishop) on Aug 20, 2008 at 22:46 UTC

    Hm, ... worst-case scenario: Your table is an embedded image. But I cannot judge that from your update. It might be a logo and the data is still somewhere...?

    Other options: OCR document / contact author.

      I converted it to an html document. Much easier to parse :P

      I'm so adjective, I verb nouns!

      chomp; # nom nom nom