You are not logged in.

Pentagon

Restaurations Guru

  • "Pentagon" is male
  • »Pentagon« is a verified user
  • "Pentagon" started this thread

Posts: 5,334

Date of registration: Feb 2nd 2003

Location: Planet Lave

  • Send private message

member since 108 month member since 108 month member since 108 month member since 108 month member since 108 month member since 108 month

1

Thursday, May 3rd 2007, 2:31pm

Zeitschriften scannen und in HTML konvertieren, geht das?

Hallo,

ich möchte gerne meine Happy Computer usw. alle einscannen und entsprechend digitalisieren.
Die C't aus dem Heise Verlag hat Ihr altes Archiv komplett nach HTML konvertiert und nur die Bilder zum Artikel in JPG behalten.
Genauso würde ich das auch gerne durchführen, weiß aber nicht so genau wie ich das anstellen soll.
Gibt es OCR Programme die direkt nach HTML wandeln können? PDF habe ich schonmal erstellt, das ist wohl der Standard, allerdings hat eine Zeitschrift damit schnell einmal die 30 Megabyte erreicht.
Ich möchte das platzsparender machen, so daß später meine Zeitschriftensammlung auf einen normalen Double Layer Rohling passt.

Gruß
Pentagon

"Um den Krieg zu überleben, muß man selbst zum Krieg werden." (John Rambo / Rambo II)

Llyrana

Unregistered

2

Thursday, May 3rd 2007, 3:21pm

Die hatten wohl noch alle Texte/Bilder auf Platte und haben es HTMLisiert....

Was aktuelle OCR´s können weiß ich nicht - aber zumindest wäre Handarbeit sicherer:

Um das zu machen müßtest Du alle Texte per OCR einlesen, korrigieren (!!!!) , die Bilder getrennt einscannen und dann die Seiten selbst basteln....

Öhhhh, hattest Du noch vor was anderes bis zu Deiner Rente zu machen???? :roll2: Denn das wird "ein wenig Zeit" in Anspruch nehmen - selbst moderne OCR´s erkennen nicht alles - Ob die PET-ASCII beherrschen will ich mal stark bezweifeln - grad was die Basic-Listings angeht - :nixwiss:

Bei als Grafik gespeicherten Magazinen bleibt Otto-Normalo wirklich nur derzeit PDF als "kleinste Speichermenge". Hier gilt aber: Nicht jeder PDF-Maker stampft die Daten schön klein ein!!!! Open Office z.B. produziert Riesen PDF´s - die Teile die Free XP PDF zusammenbastelt sind in meinen Augen "akzeptabel" - Original ADOBE: ??? :nixwiss: hab ich nicht auf Platte - Original isses mir zu joker und als "Dezentrale Sicherheitskopie" gehen mir die Cracks auf die Nüsse...

Was das M$-Office mittlerweile an PDF-Größe basteln kann weiß ich ebenfalls nicht, da ich meinen Rechner nicht mit diesem Monsterteil quälen möchte. Bremst mir das System einfach zu sehr aus.

Mach halt mal PDF´s, bruzzel die auf Disks (oder wenn genug Platz auf Platte drauflassen) und warte ab bis Blue-Ray / HD-DVD billiger werden. Dann passt die Sammlung auch wieder auf EINE Disk....

Hmmmm.... Es gibt auch Server die aus Leasingrückläufen recht günstig angeboten werden. Ordentlich Platten rein und eigenen Datenserver aufziehen... kommt dann derzeit günstiger als ein Blue Ray/HD-DVD Laufwerk und man hat seine Daten etwas sicherer als auf einer Kratzempfindlichen Disc...

Grüße

Llyrana

P.S.:

VORSICHT vor DL-Rohlingen!!!! Ich hab schon 3 Stück, bei denen beim Datenauslesen nach noch nicht mal 3 Monaten nur noch BANANE rauskommt!!!!! Nimm lieber Einschichtige und mach davon 2-3 Sicherheitskopien...

This post has been edited 2 times, last edit by "Llyrana" (May 3rd 2007, 3:28pm)


3

Thursday, May 3rd 2007, 3:41pm

Jau, wie Llyrana bereits vermutete: Mit der Original Adobe-Software kann man das super hinbekommen. Hab die im Geschäft. Leider leider macht mir unser IT-Guru keine "Sicherheitskopie" für zu Hause... :motz:
Daher mach ich das meiste zum Einscannen für die Homepage hier.
Zu Hause habe ich die Möglichkeit, den Scan per Adobe Photo Shop auf .pdf zu konvertieren, aber die Datei wird einfach nicht schön klein.

Direkt auf html formatieren wüsste ich jetzt auch nichts....
Weiss jemand ein Programm, welches richtig lesen kann???

Grüsse, Sabine
10 ?"BACK TO THE COMMODORE-ROOTS !!!"
20 GOTO 10
RUN

Llyrana

Unregistered

4

Thursday, May 3rd 2007, 4:52pm

@ Gianna Sister:

Lass das lieber mit der Kopie - Adobe telefoniert wegen Orischinoool genauso nach Hause wie M$... Und die Cracks dazu - da hat man mehr Ärger als es was bringt....

Grüße

Llyrana

  • "Gikauf" is male
  • »Gikauf« is a verified user

Posts: 4,137

Date of registration: May 16th 2005

Location: Aschaffenburg / Alzenau in Bayern

  • Send private message

member since 90 month member since 90 month member since 90 month member since 90 month member since 90 month

5

Thursday, May 3rd 2007, 6:18pm

OCR Programme werden in der Tat immer besser, aber mit Fachbegriffen, die muß man ihnen erst noch beibringen, also ins Wörterbuch aufnehmen.
Aber wie Llyrana schon sagte, es ist eine Sauarbeit, besser du Googelst mal ob da nicht schon Jemand, vor dir die Idee hatte.
Wem es beim Bit zählen schwindelig wird, der hat zuviel davon.

Jodigi

C64-Wiki-Coder

  • "Jodigi" is male

Posts: 952

Date of registration: Aug 3rd 2006

Location: Gelsenkirchen

  • Send private message

member since 72 month member since 72 month member since 72 month member since 72 month

6

Thursday, May 3rd 2007, 8:11pm

Hallo Pentagon,

Sicher geht das, nur es ist ein grosser Aufwand...

Vielleicht fragste mal die c't-Redaktion mit welchen Programmen, die dies immer in HTML umwandeln...
Digitale Grüsse / digital regards
Jodigi

Source code

1
0V=53280:POKEV,I:I=INT(RND(0)*222)+32:POKE646,I:?CHR$(I);:POKEV,I::::::::GOTO0


Was sagt dieser Code...:roll:...mehr Infos hier

Do you know, what these code effected?

sauhund

ist falsch abgebogen

  • "sauhund" is male

Posts: 20,384

Date of registration: Jul 16th 2005

Location: zuhause

  • Send private message

member since 90 month member since 90 month member since 90 month member since 90 month member since 90 month

7

Thursday, May 3rd 2007, 8:45pm

Quoted

Vielleicht fragste mal die c't-Redaktion mit welchen Programmen, die dies immer in HTML umwandeln...


ob die wohl in ihrem DTP program auf "export to html" clicken? :roll:
http://www.hitmen-console.org http://magicdisk.untergrund.net
Die Furcht vor der freimütigen Antwort kann auch robuste Charaktere befallen.

SharpClaw

Meckerdrache

  • "SharpClaw" is male
  • »SharpClaw« is a verified user

Posts: 1,388

Date of registration: Sep 10th 2005

Location: Neumünster

  • Send private message

member since 90 month member since 90 month member since 90 month member since 90 month member since 90 month

8

Thursday, May 3rd 2007, 9:25pm

hawooo!! ^^

Also meine letzten Infos zum Thema Fehlerträchtigkeit bei OCR-Programmen: 10% aller Buchstaben sind falsch (was sich inzwischen sicher verbessert hat, aber ich vermute nicht sehr). Bei kleinen Textmengen hört sich 10% wenig an, aber potentier das mal hoch...

Ich min der Meinungs, ne 'richtige' Alternative zu 'handmade' gibt es momentan nicht - und selbst eine Zeitschrift ist schon massig Zeitaufwand.

Zum Thema Scan --> HTML... soweit ich weiß gibt es Proggies, die von pdf nach doc umwandeln. Und es gibt Proggies, die von dov in HTML konvertieren - allem Voran das gute alte Word :D. Klar baut dieses viel Mist rein, aber zur reinen Textübernahme für HTML nehm ich es ganz gerne (den restlichen Müll kann man ja leicht beseitigen ^_^° ) Dadurch kann man sich schon einiges an Arbeit erleichtern, aber trotzdem bleibt noch eine Menge derselben nach...

Und wie schon weiter oben erwähnt: Am besten mal schauen, ob es schon ähnliche Projekte gibt, denn man brauch ja nicht jedesmal das Rad neu erfinden ;)

oxx

Trainee

Posts: 93

Date of registration: Apr 4th 2007

Location: Berlin

  • Send private message

member since 72 month member since 72 month member since 72 month member since 72 month

9

Thursday, May 3rd 2007, 9:31pm

Quoted

Original von SharpClaw


Zum Thema Scan --> HTML... soweit ich weiß gibt es Proggies, die von pdf nach doc umwandeln. Und es gibt Proggies, die von dov in HTML konvertieren - allem Voran das gute alte Word :D. Klar baut dieses viel Mist rein, aber zur reinen Textübernahme für HTML nehm ich es ganz gerne (den restlichen Müll kann man ja leicht beseitigen ^_^° ) Dadurch kann man sich schon einiges an Arbeit erleichtern, aber trotzdem bleibt noch eine Menge derselben nach...


Reiner text würde doch schon reichen wozu gibt es denn css?
in verbindung mit einem html editor der templates beherrscht, wäre das ganze
nurnoch copy/paste arbeit.

This post has been edited 2 times, last edit by "oxx" (May 3rd 2007, 9:35pm)


Llyrana

Unregistered

10

Thursday, May 3rd 2007, 9:50pm

Hmmmm, hat denn jemand "rein Zufällig" einen Pagemaker zur Hand und kann im Handbuch nachschlagen????

:roll2:

Ich denk mal die benutzen DAS hier!!!

Grüße

Llyrana

This post has been edited 1 times, last edit by "Llyrana" (May 3rd 2007, 9:55pm)


C16 Chris

Unregistered

11

Thursday, May 3rd 2007, 11:22pm

So melde mich auch zu Wort da ich seit knapp einem Jahr mit Büchern und Zeitschriften experimentiere un mittlerweile fast jede Zeitschrift oder Buch auf weniger als 10 MB.
Als Tipp könte ich dir geben tie Zeitschriften in S/W zu scannen und in .GIF umzuwandeln, und mit PAINT auf 50 % kompremieren.
Nun kannst du mit ebenfalls mit PAINT Farbscanns (in der richtigen Größe) der Bilder als .JPEG auf die S/W Bilder einfügen,

Hab mal fix ein Beispiel zusammengefuscht.
C16 Chris has attached the following images:
  • Test_www.c16chris.de.gif
  • Test_www.c16chris.de (1).gif

This post has been edited 1 times, last edit by "C16 Chris" (May 3rd 2007, 11:25pm)


Llyrana

Unregistered

12

Friday, May 4th 2007, 2:01am

@Chris:

Ist das links vorher und rechts nachher???

Wenn ja: :schreck!:

Is ja grausig.... OK - Es ist zu entziffern - aber in Farbe schaut es dann doch ein wenig besser aus... oder zumindest: lieber mehr MB und die linke Fassung!!!

Nun gut: Da ich an elektronisch erfassten Zeitschriften Interesse hatte, ich derzeit wegen einem Unfallschadens an meiner Schulter und einer Pflegebedürftigen Mutter zu Hause verweile hab ich eh schon mal herumgesucht...

Da gibt es Chris, Chris und öh... Chris was Magazine angeht. Ich find zwar den Link grad nicht - aber irgendwo ausserhalb der EU liegt noch ein Server auf dem ein paar vereinzelte 64er abliegen... Die Bücher liegen teilweise hier

Aber Happy-Computers hab ich ehrlich gesagt nicht gesehen...

Da hast Du echt was vor Dir lieber Pentagon...

Auf der Jagd nach "Material" fand ich auf einem FTP-Server englische Manuals die in 100 bis 400 DPI gescannt wurden. öhem... 100 dpi sind ehrlich gesagt absolut unlesbar...

Zuviel dpi ergibt eine Riesen-Datenmenge.....

Dann die Frage ob Farbe oder s/w

Farbe nimmt ebenfalls Platz ohne Ende ein ist aber letztendlich bei den bunt unterlegten Seiten der alten Magazine lesbarer als die kleineren s/w-scans...

Die Hefte der Jahrgänge 85-89 haben meist weit über 100 Seiten - das erhöht die Datenmenge nochmals...

Da wirst Du entweder eine etwas größere Platte oder viele DVD-Rohlinge brauchen ;-)

Ich grübel derzeit auch drüber nach meine 64er zu digitalisieren. Aber wenn ich an den Aufwand denke wird mir ein wenig Mulmig...

Grüße

Llyrana

This post has been edited 1 times, last edit by "Llyrana" (May 4th 2007, 2:04am)


13

Friday, May 4th 2007, 9:05am

oder frag doch den schattenmeister mal.... http://www.homecomputerworld.de
10 ?"BACK TO THE COMMODORE-ROOTS !!!"
20 GOTO 10
RUN

DMC

Administrator

  • "DMC" is male

Posts: 3,610

Date of registration: Mar 10th 2005

Location: Dülmen

  • Send private message

member since 90 month member since 90 month member since 90 month member since 90 month member since 90 month

14

Friday, May 4th 2007, 12:41pm

Also ich hab hier z.B. den Abby Finereader Pro. Der kann in verschiedenen Formaten speichern, nachdem er die Seiten OCR´t hat. So auch in HTML.

Ich habs gerade mal probiert. Funktionieren tut es. Ich hab einfach die gescannte Seite als HTML ausgeben lassen - ohne Nacharbeit und ohne spezielle Optionen im Programm vorher anzupassen.

So sieht die gescannte Seite Original aus

So sieht die vom Programm erzeugte HTML-Datei mit Einzelbildern aus

C16 Chris

Unregistered

15

Friday, May 4th 2007, 12:59pm

So ich habe ein bissel rumexperimentiert :bgdev.

Mit meinem A3 Scanner habe ich eine Doppelseite in S/W und in Farbe in doppelter Größe eingescannt, die ergebnisse:

S/W - 2,06 MB / Farbe 49,4 MB

Mit PAINT auf richtige Größe kompremiert und www.c16chris.de Schriftzug eingefügt:

S/W 0,5 MB / Farbe 11,9 MB

Umgewandelt in andere Bildformate:

S/W 0,07 MB .TIF (fax)

Farbe 8,3 MB .PNG
Farbe 2,7 MB .GIF
Farbe 0,7 MB .JPEG
Farbe 0,3 MB .JPEG (kompremiert / schlechte Qualität)

7 Farbbilder einzeln ausgeschnitten und als .GIF in das s/W Bild im PNG Format eingefügt (super Qualität) 0,5 MB.

Das Ergebnis: http://www.c16chris.danbike.de/z%20Kompl…riften/Test.png

C16 Chris

Unregistered

16

Friday, May 4th 2007, 1:19pm

Quoted

Original von DMC
Also ich hab hier z.B. den Abby Finereader Pro. Der kann in verschiedenen Formaten speichern, nachdem er die Seiten OCR´t hat. So auch in HTML.

Ich habs gerade mal probiert. Funktionieren tut es. Ich hab einfach die gescannte Seite als HTML ausgeben lassen - ohne Nacharbeit und ohne spezielle Optionen im Programm vorher anzupassen.

So sieht die gescannte Seite Original aus

So sieht die vom Programm erzeugte HTML-Datei mit Einzelbildern aus


Sieht sehr gut aus, gegen das .GIF ist nichts einzuwenden, nur hast du die HTML Datei wieder runtergeladen ? Keine Bilder :cry wenn ichs auf Festplatte speicher.

strik

Unregistered

17

Saturday, May 5th 2007, 6:20pm

Hallo,

Quoted

Original von SharpClaw
Also meine letzten Infos zum Thema Fehlerträchtigkeit bei OCR-Programmen: 10% aller Buchstaben sind falsch (was sich inzwischen sicher verbessert hat, aber ich vermute nicht sehr).

als jemand, der ein paar Bücher so konvertiert hat (http://www.trikaliotis.net/Book) kann ich sagen, dass es stark von der Qualität der Vorlage abhängt. Bei den Büchern, die ich gemacht habe, war es deutlich unter 10% - sonst hätte ich den Aufwand wohl nicht getrieben.

Meiner Erfahrung nach sind eingescannte Vorlagen mit 300dpi und in s/w bzw Graustufen - je nach verwendetem OCR-Programm - am besten geeignet. Beim Scannen muss man sich viel Mühe geben - Schwächen dort, weil man eine Sekunde sparen wollte ("Batch-Betrieb"), kosten beim Erkennungs- und Korrekturvorgang sehr viel Zeit.

Allerdings sollte bedacht werden, dass Programmlistings verdammt schlecht geeignet für OCR sind - die wirst du also wahrscheinlich doch per Hand machen "dürfen".

Ich habe übrigens mal mit der 64'er 4/84 angefangen (für den Eigenbedarf), ein OCR laufen zu lassen. Das geht eigentlich auch ganz gut, allerdings ist es durch das aufwendigere Layout auch zeitfressender als mit Büchern. Ich habe es allerdings schnell aufgegeben - zu wenig Zeit dafür.

Gruß,
- Spiro.

DMC

Administrator

  • "DMC" is male

Posts: 3,610

Date of registration: Mar 10th 2005

Location: Dülmen

  • Send private message

member since 90 month member since 90 month member since 90 month member since 90 month member since 90 month

18

Sunday, May 6th 2007, 8:59pm

Quoted

Original von C16 Chris
Sieht sehr gut aus, gegen das .GIF ist nichts einzuwenden, nur hast du die HTML Datei wieder runtergeladen ? Keine Bilder :cry wenn ichs auf Festplatte speicher.


Öhm. Nö. Liegt alles noch an Ort und Stelle auf dem Server. Hmm.

e2e4

Unregistered

19

Thursday, May 17th 2007, 10:10am

Ich habe mich vor kurzem auch mit der Thematik befasst (wenngleich nicht für 64er & Co. ;)) und konnte kein zufriedenstellendes Ergebnis im OCR-Bereich erhalten, insbesondere wenn man Zeitschriften hat, wo Text und Bildelemente auf einer Seite vorhanden sind. Hier hilft wohl nur das Selektieren dieser Elemente und einzeln Scannen/Bearbeiten. Vor diesem Aufwand schreckt man (ich) schnell zurück, sodass es derzeit scheinbar nichts gibt, was einem schnell zum Erfolg bringt :(

Grüße, e2e4

strik

Unregistered

20

Thursday, May 17th 2007, 11:59am

Quoted

Original von e2e4
Ich habe mich vor kurzem auch mit der Thematik befasst (wenngleich nicht für 64er & Co. ;)) und konnte kein zufriedenstellendes Ergebnis im OCR-Bereich erhalten, insbesondere wenn man Zeitschriften hat, wo Text und Bildelemente auf einer Seite vorhanden sind. Hier hilft wohl nur das Selektieren dieser Elemente und einzeln Scannen/Bearbeiten.

Keiner hat gesagt, dass das wenig Arbeit wäre.

Meine Erfahrung war: Alles einscannen, und zwar zwei mal (300 dpi s/w oder grau, je nach OCR-Programm, für den Text, und einmal (z.B. mit 100dpi oder 200dpi farbig) für die Bilder. Gemein wird es nur, wenn man Bilder hat, die über die Seitenmitte gehen (und man nur einen A4-Scanner besitzt). :(

Den Rest macht man dann später mit Bildbearbeitung und OCR-Software.

Gruß,
- Spiro