Perusteet tietojen puhdistus Shawn Deny

Data puhdistus tai puhdistus on thecorrection tietoja, joita ei vastaa joukko muotoon tietokannan orrecord joukko, joka tunnetaan myös likaa tai karkeaa tietoa. Tämä voidaan tehdä byeither poistaa virheellisiä tietoja (tai tiukka pesu) tai muuttamalla incorrectentries, joka vastaa oikeat merkinnät (tai sumea puhdistus). Näin thehomogeneity kirjaa tietokantaan säilyy, ja tehdyt virheet whileprocessing tiedot on minimoitu. Data puhdistus on erilainen kuin Data Validation, joka on myös menetelmä (yleensä) hylätään virheellinen merkintöjä, mutta useimmiten tapahtuu, kun tietojen syöttöä. Puhdistus suoritetaan entriesin tietokannasta.

Puhdistus tehdään tyypillisesti byremoving painovirheitä tai validointi vastaan ​​oikein kirjaa. Forexample, puhelinnumero ei saa olla kirjaimia, ja jos tulon acustomer on varauslomakettamme ei sisällä suuntanumero, sitten koodi voi beadded jos sijainnin asiakas tunnettu. Samoin asiaan liittyvien rekistereiden ehkä liitteenä yhdessä, kuten puhelinnumeroita ja osoitteita, tai yliopiston rollnumbers kanssa osastolla nimet ja vuosi ryhmiä.

Karkea tietoja company'sdatabase, kuten virheellisiä sähköpostiosoitteita tai puhelinnumeroita, voi osoittautua bedetrimental yhtiön suorituskykyä, koska se voi johtaa incorrectlyplaced tilauksia, lähetät postia vääriä ihmisiä, kyvyttömyys yhteyttä acustomer, ja useita varaston ongelmia, kuten tilaus väärä quantityfrom tehtaan tai miscalculating työntekijä paychecks. Samoin nationalcitizenship tietokantoihin, virheelliset tiedot voivat johtaa epätarkkoihin tutkimuksiin, whichwill johtaa virheellinen talouspolitiikan osalta terveydenhuollon, koulutuksen andinfrastructure.

Vaikka puhdistus tiedot, thefollowing parametrit tutkittava:

· voimassaolo, joka on määrin datafollows sääntöjen tietokannan, kuten pituus, data-tyyppi, ja expressionpatterns.

· täydellisyys ja tarkkuus. Tarkkoja tietoja täytyy Beas lähellä "todellista" arvoa. Vaikka 100% tarkka vaikea saada, se canbe tapahtuu vertailemalla, kuten käyttämällä viivakoodit ja tuotteen namestogether ja tarkista hinta.

· Johdonmukaisuus ja yhtenäisyys, joka tarkistaa, onko thesame tieto esitetään samalla tavalla eri tietokannoista. Forexample, jos laite paino on asetettu kiloa, niin sen ei pitäisi olla kiloa inanother kytketty tietokantaan.

Tietenkin on olemassa severalproblems kanssa yrittää korjata kaikki tiedot, joista yleisin isthe poistamasta tietoja ja tietojen häviämisen. Esimerkiksi yrittää fitaddresses asetetulla muodossa, kaikki tiedot, jotka olisi osoittautunut morehelpful leikataan, jolloin vaikeasti paikantaa asiakkaan. Hyvä laatu tietojen puhdistus ohjelmisto, kuten fromDataTools, on otettava huomioon, että tärkeät yksityiskohdat tiedot notremoved vuoksi nopean ja tehokkaan käsittelyn.