Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

scrape new Portal instead of old one #77

Open
djbrown opened this issue Sep 10, 2021 · 4 comments
Open

scrape new Portal instead of old one #77

djbrown opened this issue Sep 10, 2021 · 4 comments

Comments

@djbrown
Copy link
Owner

djbrown commented Sep 10, 2021

Handball4all Portal instead of spo.handball4all.de

@djbrown djbrown moved this to To do in hbscorez board Jun 27, 2023
@jupadin
Copy link
Contributor

jupadin commented Jul 21, 2023

Hallo,

aktuell (aufgrund der Sommerpause (?)) sind dort keine Verbände o.ä. aufgelistet, sodass ein Scraping (offseason) etwas schwieriger ist.
Gibt es hierfür ggfs. direkt eine json-api ? oder Alternativen ?
Ich schaue mir das gerne nochmal genauer an

Danke und viele Grüße! :)

@djbrown
Copy link
Owner Author

djbrown commented Jul 28, 2023

@jupadin danke für den Hinweis!
Das ist wohl auch der Grund warum die Integrationstests fehlschlagen.
Konkretes Beispiel: Handballverband Württemberg.

Das war in der Vergangenheit eigentlich kein Problem.
Im Sommer wurden die Turnier- und Pokal-Liegen angezeigt.
Ich habe mir mal alle APIs die ich über Netzwerkanalyse rausfinden konnte zusammengeschrieben, aber keine davon wäre geeignet um die Associations/Verbände abzufragen. Ich denke am besten wäre die Umstellung auf das neue Portal (also dieses Issue) - zumindest für Verbandsdaten.

@djbrown djbrown mentioned this issue Jul 28, 2023
10 tasks
djbrown added a commit that referenced this issue Aug 3, 2023
relates to #77
removes statically coded association abbreviations
subordinates district parsing to association parsing.
previously all associations would be scraped before the first district.
djbrown added a commit that referenced this issue Aug 3, 2023
relates to #77
removes statically coded association abbreviations
subordinates district parsing to association parsing.
previously all associations would be scraped before the first district.
djbrown added a commit that referenced this issue Aug 3, 2023
relates to #77
removes statically coded association abbreviations
subordinates district parsing to association parsing.
previously all associations would be scraped before the first district.
@jupadin
Copy link
Contributor

jupadin commented Aug 8, 2023

Hi @djbrown,

ich sitze gerade dran Unit-Tests für die Kreise (Districts) zu schreiben. Hier ist für die Generierung der Kreis-URLs aus den jeweiligen Verbänden (Associations) auch noch die "alte" URL (spo.handball4all.de) hier

@staticmethod
def build_source_url(bhv_id):
return f'{settings.ROOT_SOURCE_URL}Spielbetrieb/index.php?orgGrpID={bhv_id}'

hinterlegt.

Hier müssten wir dann mit der entsprechenden <association_abbreviation> auf bspw.
https://www.handball4all.de/home/portal/hvw#/schedule
verweisen bzw. explizit die Saison mit pId=<SaisonID> (?) angeben:
https://www.handball4all.de/home/portal/hvw#/schedule?pId=111.

Darüber bekäme man dann alle Kreise (Districts) zu dieser Saison im jeweiligen Verband (Association).

EDIT: Scheint so, als ob bei der neuen URL Angular verwendet wird und beim HTTP-Request das dahinterliegende Skript erst beim Client ausgeführt wird und somit hierüber kein Zugriff auf die bhv_ids möglich ist.

EDIT2: Nach einer weitere Analyse scheint die neue URL die Daten durch ein serverseitiges PHP-Skript über die alte URL zu beziehen. Durch die Entwicklertools des Browser kann im Tab 'Network' sich die Anfrage nochmal genauer angeschaut werden. Als Antwort erhalten wir die Daten als JSON, jedoch über die alte URL.

djbrown added a commit that referenced this issue Jun 28, 2024
instead of from portal url
see also #77
@djbrown
Copy link
Owner Author

djbrown commented Jun 28, 2024

last comment from @jupadin is implemented in bf5afea
the api is rate limited, so might require some restructuring in the future

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
No open projects
Status: To do
Development

No branches or pull requests

2 participants