Få flyttet større mængder af data med Web Scraping og Parsing
Hos Translated By Us har vi af flere omgange oplevet efterspørgsel på brug af Web Scraping eller Parsing. Det gør vi typisk i forbindelse med oversættelse af data, der ligger i ældre og uredigerbare formater, eller fra meget store websites.
Vi støder efterhånden ofte på behovet, så nu har vi udviklet gode værktøjer til den slags opgaver. Derfor kan vi nu tilbyde Web Scraping og Parsing som et særskilt produkt.
Husk, at du altid er velkommen til at kontakte vores dygtige team, hvis du har spørgsmål til Web Scraping eller Parsing. Vi guider gerne i, hvordan disse metoder kan gavne dig mest muligt som supplement til din oversættelse.
Vil du gøre brug af vores værktøjer?
Så kontakt os i dag og hør, hvordan vi kan hjælpe dig med Web Scraping og Parsing.
Kend forskellen
Betydning: Indsamling af nøje udvalgt data fra et website
Eksempel: Gem firmanavn, CVR-nummer og navn på bestyrelsesformand på alle virksomheder med over 1000 ansatte fra CVR-registret
Betydning: Flytning af data fra et format til et andet
Eksempler:
a) Flyt tekniske produktdata fra 94.000 sider scannet PDF til søgbart Excel-dokument
b) XML til JSON, eller lign.
c) FrameMaker til Word-filer, InDesign eller XML
Hvad bruges Web Scraping og Parsing til?
Kort forklaret tages én af de to metoder i brug, når større mængder af data skal flyttes fra noget uhåndterbart til noget håndterbart. Ved Web Scraping ligger arbejdet typisk i forberedelsen af den automatik, der skal indsamle dataene. Det kan også være tilfældet ved Parsing, i den grad det kan automatiseres. Hvis automatisering ikke er muligt, så har vi et team, der er specialiseret i at flytte data manuelt. Hos Translated By Us udfører vi begge dele, og vi rådgiver meget gerne i, hvornår det bedst kan betale sig at benytte den manuelle metode frem for den automatiske — og omvendt.
Web Scraping
Vi starter med at finde de datapunkter, der skal indsamles. Hvis de kan defineres, således at et script kan læse dem, så er næste opgave at finde ud af, hvordan de skal struktureres, når de er indsamlet. De fleste kunder ønsker, at deres data skal importeres til en database, og i den forbindelse skal strukturen være på en bestemt måde.
Her er der også mulighed for, at billeder eller anden grafisk data gemmes og navngives ud fra en bestemt logik – eksempelvis ud fra produktnavne.
Hvis data ikke kan trækkes ud automatisk, kan vi altid gøre det manuelt. Her kan det være nemmere at definere udtrækket, da man blot skal markere data visuelt. Her kræves der ikke nogen forudgående programmering, og tiden bruges udelukkende på at hente data. Kort sagt: hvis vi kan gøre det automatisk, bruger vi tiden på at bygge en automatik, og hvis der kræves manuelt udtræk, bruges tiden på at kopiere data ud.
Priseksempel
Opgave: “Læs data fra 30.000 links, som kan importeres i en database”
Antal arbejdstimer: 12 arbejdstimer
Arbejdstype: Programmering
Pris: 12 x 750 = 9.000 kr. ekskl. moms
Parsing
Når vi parser data fra et format til et andet, er det oftest scannede PDF-filer med data, der ikke kan søges i eller på anden måde importeres eller manipuleres. Her starter vi med at køre tekstgenkendelse, så vi får en grov skitse af teksten i søgbart format. Herfra kan vi så kopiere teksten videre over i et struktureret format.
Hvis der er mange filer, og de er ens, kan denne del automatiseres. Dog er dette sjældent tilfældet, så ofte ender vi med at gøre det manuelt. Slutresultatet er ren data, der kan søges, importeres eller manipuleres, som man ønsker. Ved parsing af teksttunge emner som bøger skal man være opmærksom på, at teksten ofte er fyldt med uønsket skjult data som linjeskift, dobbelte mellemrum, tabuleringer og andet, der kan kræve yderligere oprydning.
Priseksempel
Opgave: “Digitaliser 8.500 siders scannet PDF-data til Excel-format
Antal arbejdstimer: 170 timer a 80 kr.
Arbejdstype: Manuelt dataudtræk
Pris: 170 x 80 = 13.600 DKK ekskl. moms
Hvornår bruges Web Scraping og Parsing?
Vi oplever hele tiden nye måder, hvorpå disse metoder kan bruges. Fællesnævneren i alle opgaverne er, at der skal flyttes en større mængde data. Dette kan eksempelvis gøre sig gældende, hvis du skal udarbejde et produktkatalog, men hvor den produktdata, som du skal bruge, ligger fordelt ud i hundredvis af dokumenter eller websites.
Vær opmærksom på lovligheden af din dataindsamling
Web Scraping og Parsing er naturligvis 100 % lovligt at benytte, men du skal være forsigtig, når du begynder at trække data ud. Lovgivningen angående copyright adskiller sig mellem det offentlige og private og fra land til land, hvilket er vigtigt at være opmærksom på.
Hos Translated By Us går vi gerne i dialog med dig om, hvordan du bedst muligt finder frem til, om det er lovligt at hente den data ud, som du ønsker. Har du spørgsmål til dette eller til Data Scraping generelt, så kontakt os gerne. Dette kan gøres på mail: mads@translatedbyus.com eller på telefon: 71 96 96 67.