<img align="right" src="images/tf.png" width="200"/>
<img align="right" src="images/huc.png" width="200"/>
<img align="right" src="images/logo.png" width="200"/>

---

To get started: consult [start](start.ipynb)

---

# Search Introduction

*Search* in Text-Fabric is a template based way of looking for structural patterns in your dataset.

Within Text-Fabric we have the unique possibility to combine the ease of formulating search templates for
complicated syntactical patterns with the power of programmatically processing the results.

This notebook will show you how to get up and running.

## Easy command

Search is as simple as saying (just an example)

```python
results = A.search(template)
A.show(results)
```

See all ins and outs in the
[search template docs](https://annotation.github.io/text-fabric/tf/about/searchusage.html).

# Incantation

The ins and outs of installing Text-Fabric, getting the corpus, and initializing a notebook are
explained in the [start tutorial](start.ipynb).

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from tf.app import use

In [3]:
A = use("CLARIAH/descartes-tf", hoist=globals())

**Locating corpus resources ...**

Name,# of nodes,# slots/node,% coverage
,,,
volume,8.0,85241.88,100.0
letter,725.0,940.6,100.0
page,2884.0,236.45,100.0
postscriptum,56.0,46.79,0.0
opener,545.0,1.97,0.0
closer,541.0,13.1,1.0
address,86.0,15.22,0.0
head,725.0,23.37,2.0
p,8438.0,80.82,100.0


# Basic search command

We start with the most simple form of issuing a query.
Let's look for the 16th sentence of the paragraphs that have that many sentences.

Note that sentences are numbered within paragraphs and that the sentence number is in feature `n`.

In [4]:
template = """
sentence n=16
"""

results = A.search(template)

  0.01s 10 results


We see the amount of results, but how do we get the results?

In [5]:
results

[(709049,),
 (709186,),
 (710254,),
 (712431,),
 (713741,),
 (716957,),
 (717009,),
 (717350,),
 (719832,),
 (720490,)]

Nice try. These are indeed the results, but they are just the nodes, i.e. meaningless numbers (to us).

We get more flesh and blood by displaying the results.

In [6]:
A.table(results)

n,p,sentence
1,1 1027:3,"Ce n'est pas que je ne l'aime et que je ne le tienne pour un homme tout plein d'honneur et de bonté; mais parce que je ne connais que deux personnes, avec qui il ait jamais eu quelque chose à démêler, qui sont M. Mydorge et M. Morin, et qu'il se plaint de tous les deux, je ne saurais que je ne juge qu'il tient quelque chose de cette humeur, où il faut dire qu'il est bien malheureux."
2,1 1032:4,"Quâ tamen in re non judico te satis prudenter cavere tuis rebus: quid enim si de istius manuscripti fide dubitatur? nunquid tutius esset testes adhibere vel tabulis publicis confirmare? Sed profecto, ut verum loquar, istae divitiae, quae fures timent et tantâ cum sollicitudine debent asservari, miserum te reddunt potius quàm beatum; nec, si mihi credis, te pigebit illa amittere simul cum morbo."
3,1 1116:3,"Opinor autem quod, sicuti apud Poetam consessus Didonianus, conticebunt omnes intentique ora tenebunt. Precor autem te et obtestor ut eodem tenore caetera quae in manibus habes prosequaris et aliquando proferas, meque subinde epistolio tuo bees."
4,3 3174:23,"Je m'étonne aussi de ce que, nonobstant que j'aie clairement démontré tout ce que j'ai dit devoir être corrigé en sa règle, et qu'il n'aît donné aucune raison à l'encontre, il ne laisse pas de dire que j'y ai mal réussi, au lieu de quoi je me persuade qu'il m'en devrait remercier; et même il ajoute que j'ai failli pour avoir dit qu'il fallait donner deux noms à la ligne qu'il nomme B etc., ce qui ne réussit, dit-il, qu'aux questions qui sont aisées, au lieu qu'il devrait dire que c'est donc lui-même qui avait failli, à cause que j'ai suivi en cela son texte de mot à mot, ainsi que j'ai dû faire pour le corriger."
5,3 3220:3,"Je suis, Monsieur, Votre très obéissant et très obligé serviteur, DESCARTES. De Leyde le lundi au soir [12 décembre 1639]. Monsieur,"
6,6 6391:3,"Maer niet-te-min dewijl al de Werelt oordeelt, dat hy de voornaemste autheur is vande lasteringhen die in het ghemelt fameux boeck teghens my worden ghevonden, versoeck ick U. Ed."
7,6 6396:3,"Je vous assure qu'elles ne me touchent guère, et ne m'ont point emmaigri, comme Voetius, à qui on dit qu'elles ont ôté treize livres de chair, mais non pas de graisse, à cause qu'il n'en eut jamais tant."
8,6 6425:9,"Quin etiam nullum ea de re scriptum peculiare composui, sed obiter tantum in epistola in qua de Patre quodam Societatis conquerebar, et quam tunc commodam sub praelo habebam, paucas de illo paginas inserui."
9,7 7601:6,"Lorsque l'écriture sainte parle en divers endroits de la multitude innombrable des Anges, elle confirme entièrement cette opinion: car nous jugeons que les moindres Anges sont incomparablement plus parfaits que les hommes."
10,8 8650:3,"Cependant je puis vous assurer que cette Princesse, qui n'estime rien au monde que la vérité et la vertu, fait un grand jugement de vous pour l'amour de l'une et de l'autre."


In front of each result you see the volume number, letter id, and paragraph number of the result.

## Figures

Let's look for all sentences with an illustration in it.

In [7]:
query = """
sentence
  figure
"""

In [8]:
results = A.search(query)

  0.00s 319 results


In [9]:
A.table(results, end=3)

n,p,sentence,figure
1,1 1001:4,"Unum autem est, quod, opinor, non satis meditate scripsisti: nempe omnes saltus in unicâ voce fieri per consonantias exactas.",
2,1 1002:3,"Atque hac arte quadruplo plures quaestiones et longe difficiliores solvi poterunt, quàm communi Algebrâ; 13 enim diversa genera aequationum cubicarum numero, qualia tantùm sunt tria aequationum communium: nempe inter 1 et O + ON, vel O − ON, vel denique ON − O . Aliud est quod jam quaero de radicibus simul ex pluribus variis nominibus compositis extrahendis; quod si reperero, ut spero, scientiam illam plane digeram in ordinem, si desidiam innatam possim vincere, et fata liberam vitam indulgeant.",
3,1 1002:3,"Atque hac arte quadruplo plures quaestiones et longe difficiliores solvi poterunt, quàm communi Algebrâ; 13 enim diversa genera aequationum cubicarum numero, qualia tantùm sunt tria aequationum communium: nempe inter 1 et O + ON, vel O − ON, vel denique ON − O . Aliud est quod jam quaero de radicibus simul ex pluribus variis nominibus compositis extrahendis; quod si reperero, ut spero, scientiam illam plane digeram in ordinem, si desidiam innatam possim vincere, et fata liberam vitam indulgeant.",


Note that there are two columns: 1 for the sentence node in each result, and 2 for the figure node in each result.

The display of the second column does not add much here, so we can skip it:

In [10]:
A.table(results, end=3, skipCols={2})

n,p,sentence,figure
1,1 1001:4,"Unum autem est, quod, opinor, non satis meditate scripsisti: nempe omnes saltus in unicâ voce fieri per consonantias exactas.",
2,1 1002:3,"Atque hac arte quadruplo plures quaestiones et longe difficiliores solvi poterunt, quàm communi Algebrâ; 13 enim diversa genera aequationum cubicarum numero, qualia tantùm sunt tria aequationum communium: nempe inter 1 et O + ON, vel O − ON, vel denique ON − O . Aliud est quod jam quaero de radicibus simul ex pluribus variis nominibus compositis extrahendis; quod si reperero, ut spero, scientiam illam plane digeram in ordinem, si desidiam innatam possim vincere, et fata liberam vitam indulgeant.",
3,1 1002:3,"Atque hac arte quadruplo plures quaestiones et longe difficiliores solvi poterunt, quàm communi Algebrâ; 13 enim diversa genera aequationum cubicarum numero, qualia tantùm sunt tria aequationum communium: nempe inter 1 et O + ON, vel O − ON, vel denique ON − O . Aliud est quod jam quaero de radicibus simul ex pluribus variis nominibus compositis extrahendis; quod si reperero, ut spero, scientiam illam plane digeram in ordinem, si desidiam innatam possim vincere, et fata liberam vitam indulgeant.",


We can make the display richer: instead of a plain table, we can unfold the sentences in the results.
We only show the second result:

In [11]:
A.show(results, start=2, end=2)

# Formulas

Now let's look for formulas that have a square root in them.

Note that in TeX a square root is written as `\sqrt`.

The TeX source of a formula is contained in the `tex` feature of a formula node, provided
the formula is written in TeX. Not all formulas are written in TeX.

In [12]:
query = """
sentence
  formula tex~sqrt
"""

In [13]:
results = A.search(query)

  0.00s 54 results


In [14]:
A.table(results, end=3, skipCols={2})

n,p,sentence,formula
1,2 2152:4,"Or par cette seule équation de la page 326, à savoir: y ${\rm m} - {{\displaystyle\strut {\rm n}\over \displaystyle\strut {\rm z}}}{\rm x} + \sqrt{{\rm mm} + {\rm ox} - {{\displaystyle\strut {\rm p}\over \displaystyle\strut {\rm m}}}{\rm xx}}$,$ en changeant seulement les marques + et -, ou supposant quelques termes pour nuls, je comprends toutes celles qui peuvent se rapporter à quelque lieu plan ou solide.",
2,3 3174:14,"Je cherche la tangente FE ou CB parallèle au diamètre AK, posant que la propriété de cette courbe est telle que, menant FG à angles droits sur AH, l'agrégat des cubes de FG et AG est égal au parallélipipède des mêmes FG et AG, et d'une autre ligne donnée qui est double d' AH. Et je fais AG = x, GF = y et le double d' AH = n d'où j'ai x 3 + y 3 = xyn Puis je fais AE = v de façon que EG est x − v et parce que l'angle EFG est de 45 degrés, GF est aussi x − v ce que je substitue, au lieu d' y, en l'équation précédente, et au lieu de y 3 je substitue son cube, qui est x 3 − 3 vxx + 3 vvx − v 3 si bien que j'ai pour mon équation 2 x 3 − 3 vxx + 3 vvx − v 3 = nxx − nvx ce que je compare avec xx − 2 ex + ee = 0 multiplié par 2 x − 2 f = 0 et j'ai 2 x 3 − 4 exx + 2 eex − 2 fxx + 4 efx − 2 eef = 0 de même forme que 2 x 3 − 3 vxx + 3 vvx − v 3 = 0 − nxx + nvx. Et les termes multipliés par xx me donnent 2 f = 3 v + n − 4 e Puis les termes multipliés par x me donnent 6 ev + 2 en − 6 ee = 3 vv + nv ou bien $vv = - {{1\over 3}}nv + 2ev + {{2\over 3}}ne - 2ee$ c'est-à-dire à cause que e est égal à x, que v est $x - {{1\over 6}}n \pm \sqrt{{{1\over 36}}nn + {{1\over 3}}nx - xx}$. Ce qui déterminerait entièrement la tangente cherchée, si la quantité x était connue; mais parce qu'elle ne l'est pas, il faut poursuivre en cette sorte.",
3,3 3174:15,"Puisque y est égal à x − v et que v vient d'être trouvé, nous avons aussi $y = {{1\over 6}}n \pm \sqrt{{{1\over 36}}nn + {{1\over 3}}nx - xx}$ ce qui étant substitué au lieu d' y, et son cube au lieu d' y 3 en la première équation, on trouve en la démêlant qu'elle se réduit à ces termes: $x^{4}.. - {{1\over 9}}n^{3}x + {{1\over 54}}n^{4} = 0$. Et par la règle qui est en ma Géométrie, page 383, j'écris en leur place: $z^{6}. - {{2\over 27}}n^{4}zz - {{1\over 81}}n^{6} = 0$. Puis (par la page 381) je trouve la valeur de zz, qui est ${{1\over 3}}nn$ et $z = n\sqrt{{{1\over 3}}}$ Au moyen de quoi (par la page 385), je divise l'équation $x^{4} - {{1\over 9}}n^{3}x + {{1\over 54}}n^{4} = 0$ en deux autres qui sont $xx - nx\sqrt{{{1\over 3}} + {{1\over 6}}nn} - {\displaystyle\strut {nn}\over \displaystyle\strut {6\sqrt{ 3}}} = 0$ et $xx + nx\sqrt{{{1\over 3}} + {{1\over 6}}nn} + {\displaystyle\strut {nn}\over \displaystyle\strut {6\sqrt{ 3}}} = 0$. Et par la première de ces deux équations, je connais la valeur d' x, qui est $x = n\sqrt{{{1\over 12}}} \pm \sqrt{{\displaystyle\strut {nn}\over \displaystyle\strut {6\sqrt{3}}} - {{1\over 12}}nn}$. Enfin, à cause que, cherchant en même façon la ligne AB par la tangente CB, il vient une équation toute semblable, on apprend de là que la ligne AG est $n\sqrt{{{1\over 12}}} + \sqrt{{\displaystyle\strut {nn}\over \displaystyle\strut {6\sqrt{3}}} - {{1\over 12}}nn}$ et que AD est $n\sqrt{{{1\over 12}}} - \sqrt{{\displaystyle\strut {nn}\over \displaystyle\strut {6\sqrt{3}}} - {{1\over 12}}nn}$ et par conséquent que DG est $\sqrt{{\displaystyle\strut {2nn}\over \displaystyle\strut {3\sqrt{3}}} - {{1\over 3}}nn}$ et que CF est $\sqrt{{\displaystyle\strut {4nn}\over \displaystyle\strut {3\sqrt{3}}} - {{2\over 3}}nn}$. Ce qui est la plus grande largeur de la feuille qu'on demandait, en sorte que, si la ligne n est 9, CF sera $\sqrt{36\sqrt{3} - 54}$ et si n est 3, CF sera $\sqrt{4\sqrt{3} - 6}$ et ainsi des autres.",


In [15]:
A.show(results, end=1)

We can get rid of the TeX codes.

We see them because our query mentioned the feature `tex`, but we can turn that off (showing the 3rd result only)

In [16]:
A.show(results, end=1, condensed=True, queryFeatures=False)

## Formulas without TeX

We gather the formulas not written in TeX:

In [17]:
query = """
formula notation#TeX
"""

results = A.search(query)

  0.01s 5981 results


The majority is not written in TeX, let's sample a few:

In [18]:
from random import seed, sample

seed(42)

selected = sample(results, 20)

A.table(selected)

n,p,formula
1,7 7538:6,IN
2,2 2122:12,G
3,1 1020:7,ZZ
4,2 2164:25,GR
5,2 2159:5,g
6,2 2156:9,C in A + C in E − Aq − A in E bis − Eq
7,2 2126:16,AO
8,1 1f1b:3,DE
9,7 7547:12,S
10,4 4303:13,BG


These formulas are all so simple that TeX was not needed to display them.

Let's see the first 2 of them in context:

In [19]:
A.show(selected[0:2], condensed=True)

---

# Contents

* **[start](start.ipynb)** intro and highlights
* **search** turbo charge your hand-coding with search templates
* **[compute](compute.ipynb)** sink down a level and compute it yourself
* **[exportExcel](exportExcel.ipynb)** make tailor-made spreadsheets out of your results

Advanced

* **[similar sentences](similar.ipynb)** find similar sentences

CC-BY Dirk Roorda