translated-by-us-logo.svg
  • Sprog- og indholdstjenester
    • Kerneydelser
      • Professionel oversættelse
      • Korrekturlæsning
      • Hjemmesideoversættelse
      • Sprogvask
      • Undertekster
      • Transskribering
    • Typer af oversættelser
      • Medicinsk oversættelse
      • Juridisk oversættelse
      • Teknisk oversættelse
      • Oversættelse af dokumenter
      • Oversættelse af manualer
      • Marketingoversættelse
      • Oversættelse af bøger
      • SEO-oversættelse
      • Tekstoversættelse
      • Hasteoversættelse
    • Sprog
      • Engelsk
      • Spansk
      • Tysk
      • Fransk
      • Kinesisk
      • Italiensk
      • Tyrkisk
      • Arabisk
      • Portugisisk
      • Ungarsk
      • Polsk
      • Svensk
      • Alle sprog
  • Priser
  • Mere
    • Sådan gør du
    • Om os
    • Kundeanmeldelser
    • Sprogunivers
    • Oversætterne
    • Tips og tricks
    • Validering
    • Privatlivspolitik
    • Forretningsbetingelser
  • Bestil oversættelse
  • DA
  • EN
  • DE

+45 71 96 96 67

info@translatedbyus.com

Web Scraping og Parsing

Få flyttet større mængder af data med Web Scraping og Parsing

Hos Translated By Us har vi af flere omgange oplevet efterspørgsel på brug af Web Scraping eller Parsing. Det gør vi typisk i forbindelse med oversættelse af data, der ligger i ældre og uredigerbare formater, eller fra meget store websites.

Vi støder efterhånden ofte på behovet, så nu har vi udviklet gode værktøjer til den slags opgaver. Derfor kan vi nu tilbyde Web Scraping og Parsing som et særskilt produkt.

Husk, at du altid er velkommen til at kontakte vores dygtige team, hvis du har spørgsmål til Web Scraping eller Parsing. Vi guider gerne i, hvordan disse metoder kan gavne dig mest muligt som supplement til din oversættelse.

Vil du gøre brug af vores værktøjer?

Så kontakt os i dag og hør, hvordan vi kan hjælpe dig med Web Scraping og Parsing.

RING TIL OS!

Kend forskellen

Web Scraping

Betydning: Indsamling af nøje udvalgt data fra et website
Eksempel: Gem firmanavn, CVR-nummer og navn på bestyrelsesformand på alle virksomheder med over 1000 ansatte fra CVR-registret

Parsing

Betydning: Flytning af data fra et format til et andet
Eksempler:

a) Flyt tekniske produktdata fra 94.000 sider scannet PDF til søgbart Excel-dokument
b) XML til JSON, eller lign.
c) FrameMaker til Word-filer, InDesign eller XML

Hvad bruges Web Scraping og Parsing til?

Kort forklaret tages én af de to metoder i brug, når større mængder af data skal flyttes fra noget uhåndterbart til noget håndterbart. Ved Web Scraping ligger arbejdet typisk i forberedelsen af den automatik, der skal indsamle dataene. Det kan også være tilfældet ved Parsing, i den grad det kan automatiseres. Hvis automatisering ikke er muligt, så har vi et team, der er specialiseret i at flytte data manuelt. Hos Translated By Us udfører vi begge dele, og vi rådgiver meget gerne i, hvornår det bedst kan betale sig at benytte den manuelle metode frem for den automatiske — og omvendt.

Web Scraping

Vi starter med at finde de datapunkter, der skal indsamles. Hvis de kan defineres, således at et script kan læse dem, så er næste opgave at finde ud af, hvordan de skal struktureres, når de er indsamlet. De fleste kunder ønsker, at deres data skal importeres til en database, og i den forbindelse skal strukturen være på en bestemt måde.
Her er der også mulighed for, at billeder eller anden grafisk data gemmes og navngives ud fra en bestemt logik – eksempelvis ud fra produktnavne.

Hvis data ikke kan trækkes ud automatisk, kan vi altid gøre det manuelt. Her kan det være nemmere at definere udtrækket, da man blot skal markere data visuelt. Her kræves der ikke nogen forudgående programmering, og tiden bruges udelukkende på at hente data. Kort sagt: hvis vi kan gøre det automatisk, bruger vi tiden på at bygge en automatik, og hvis der kræves manuelt udtræk, bruges tiden på at kopiere data ud.

Priseksempel

Opgave: “Læs data fra 30.000 links, som kan importeres i en database”

Antal arbejdstimer: 12 arbejdstimer

Arbejdstype: Programmering

Pris: 12 x 750 = 9.000 kr. ekskl. moms

Parsing

Når vi parser data fra et format til et andet, er det oftest scannede PDF-filer med data, der ikke kan søges i eller på anden måde importeres eller manipuleres. Her starter vi med at køre tekstgenkendelse, så vi får en grov skitse af teksten i søgbart format. Herfra kan vi så kopiere teksten videre over i et struktureret format.

Hvis der er mange filer, og de er ens, kan denne del automatiseres. Dog er dette sjældent tilfældet, så ofte ender vi med at gøre det manuelt. Slutresultatet er ren data, der kan søges, importeres eller manipuleres, som man ønsker. Ved parsing af teksttunge emner som bøger skal man være opmærksom på, at teksten ofte er fyldt med uønsket skjult data som linjeskift, dobbelte mellemrum, tabuleringer og andet, der kan kræve yderligere oprydning.

Priseksempel

Opgave: “Digitaliser 8.500 siders scannet PDF-data til Excel-format

Antal arbejdstimer: 170 timer a 80 kr.

Arbejdstype: Manuelt dataudtræk

Pris: 170 x 80 = 13.600 DKK ekskl. moms

Hvornår bruges Web Scraping og Parsing?

Vi oplever hele tiden nye måder, hvorpå disse metoder kan bruges. Fællesnævneren i alle opgaverne er, at der skal flyttes en større mængde data. Dette kan eksempelvis gøre sig gældende, hvis du skal udarbejde et produktkatalog, men hvor den produktdata, som du skal bruge, ligger fordelt ud i hundredvis af dokumenter eller websites.

Vær opmærksom på lovligheden af din dataindsamling

Web Scraping og Parsing er naturligvis 100 % lovligt at benytte, men du skal være forsigtig, når du begynder at trække data ud. Lovgivningen angående copyright adskiller sig mellem det offentlige og private og fra land til land, hvilket er vigtigt at være opmærksom på.

Hos Translated By Us går vi gerne i dialog med dig om, hvordan du bedst muligt finder frem til, om det er lovligt at hente den data ud, som du ønsker. Har du spørgsmål til dette eller til Data Scraping generelt, så kontakt os gerne. Dette kan gøres på mail: mads@translatedbyus.com eller på telefon: 71 96 96 67.

Indhent tilbud

Vi går straks i gang med at lave et tilbud til dig

1 Medlem af DI_Hvid

TRANSLATED BY US

Esromgade 15, 2200 København N · Niels Jernes Vej 10, 9220 Aalborg Ø
Åbningstider: Mandag-fredag 08:00-17:00
Telefon: (+45) 71 96 96 67 · E-mail: info@translatedbyus.com

Forretningsbetingelser · CVR  37407887