Com s'utilitza l'eina 'Ngram Viewer' a Google Llibres

by Marziah Karch

Un Ngram, també conegut com un N-gram, és una anàlisi estadística del contingut de text o de veu per trobar n (un nombre) d'algun tipus d'element en el text. Podria ser tot tipus de coses, com fonemes, prefixos, frases o lletres. Tot i que el N-gram és una mica fosca fora de l'investigador, s'utilitza en diversos àmbits i té moltes conseqüències per a les persones que fan programes d'ordinador que entenen i responen amb un llenguatge natural. Això, en poques paraules, seria l'interès de Google per la idea.

En el cas de Google Books Ngram Viewer, el text que cal analitzar prové de la gran quantitat de llibres que Google ha escanejat a les biblioteques públiques per omplir el motor de cerca de Google Books . Per a Google Books Ngram Viewer, es refereixen al text que voleu cercar com a "corpus". Els membres corporals del Ngram Viewer estan dividits per llenguatge, tot i que es pot analitzar per separat l'anglès britànic i americà o unir-los junts. Acaba sent super interessant per alternar entre l'ús de termes britànic i nord-americà i veure canviar els gràfics.

Com funciona Ngram

Aneu a Google Books Ngram Viewer a books.google.com/ngrams.
Els elements distingeixen entre majúscules i minúscules, a diferència de les cerques web de Google, així que assegureu-vos de capitalitzar els substantius adequats.
Escriu qualsevol frase o frases que vulgueu analitzar. Assegureu-vos de separar cada frase amb una coma. Google suggereix: "Albert Einstein, Sherlock Holmes, Frankenstein" per començar.
A continuació, escriviu un interval de dates. El valor predeterminat és de 1800 a 2000, però hi ha més llibres recents (el 2011 va ser el més recent enumerat a la documentació de Google, però això pot haver canviat).
Tria un corpus. Podeu cercar textos d'idioma estranger o anglès i, a més de les opcions estàndard, podeu observar coses com "Anglès (2009) o Anglès Americà (2009)" a la part inferior. Aquests són corpus més antics que Google ha actualitzat, però és possible que tingueu alguna raó per fer les vostres comparacions contra conjunts de dades antics. La majoria dels usuaris poden ignorar-los i centrar-se en els corpus més recents.
Estableix el nivell de suavitzat. El suavitzat fa referència al grau d'eficàcia del gràfic al final. La representació més precisa seria un nivell de suavitzat de 0, però això pot ser difícil de llegir. El valor per defecte està establert en 3. En la majoria dels casos, no cal ajustar-ho.

Premeu el botó Cercar molts llibres . (També podeu prémer Intro a l'indicador de cerca).

Què es mostra Ngram?

Google Books Ngram Viewer mostrarà un gràfic que representa l'ús d'una frase particular en llibres al llarg del temps. Si heu introduït més d'una paraula o frase, veureu línies codificades amb colors per contrastar els diferents termes de cerca. Això és bastant similar a Google Trends , només la cerca inclou un període de temps més llarg.

Aquí teniu un exemple de la vida real. Vam tenir curiositat sobre les pastissos de vinagre recentment. Han estat esmentades a la casa de la Laura Prats, de la casa de Laura Ingalls Wilder, però mai no havíem sentit a parlar d'això. Primer hem utilitzat la cerca web de Google per obtenir més informació sobre pastissos de vinagre. Pel que sembla, són considerats part de la cuina sud-americana i realment estan elaborats amb vinagre. Es rememoren als temps en què no tots tenien accés a productes frescos en tot moment de l'any. És tota la història?

Es van fer cerques a Google Ngram Viewer, i hi ha algunes mencions del pastís tant a principis de finals de finals de finals de finals de finals de finals de finals de finals de 1800 com a nombroses mencions en els anys quaranta i un nombre creixent de mencions en els últims temps (potser alguna nostàlgia de pastissos). Bé, hi ha alguns problema amb les dades a un nivell de suavitzat de 3. Hi ha un altiplà sobre les mencions en el 1800. Segurament no hi ha hagut un nombre igual de mencions d'un pastís en particular cada any durant cinc anys? El que està passant és que, perquè no hi ha molts llibres publicats durant aquest temps, i perquè les nostres dades estan ben definides, distorsiona la imatge. Probablement hi hagués un llibre que va esmentar el pastís de vinagre, i només es va promediar per evitar una pica. En establir el suavitzat a 0, podem veure que aquest és exactament el cas. L'espiga se centra en 1869, i hi ha un altre punt en 1897 i 1900.

Ningú parla de pastissos de vinagre la resta del temps? Probablement parlaven d'aquests pastissos. Hi va haver probable receptes flotants per tot el lloc. No van escriure sobre ells en llibres, i això és una limitació d'aquestes cerques de Ngram.

Advanced Ngram Searches

Recordeu com vam dir que Ngrams podria consistir en tot tipus de cerques de text diferents? Google també us permet analitzar amb el Ngram Viewer una mica. Si voleu cercar peix el verbo en lloc del peix el nom, podeu fer-ho usant les etiquetes. En aquest cas, cerqueu "fish_VERB"

Google proporciona una llista completa d'ordres que podeu utilitzar i d'altres documents avançats al seu lloc web.

Com funciona Ngram

Què es mostra Ngram?

Advanced Ngram Searches

Alike posts

See Newest

Sapid posts